实验室论文被ACM ToS 录用


实验室硕士生张大统,邓玉辉老师等人联合撰写的论文《Improving the Performance of Deduplication-based Backup Systems via Container Utilization based Hot Fingerprint Entry Distilling》被《ACM Transactions on Storage》录用。ACM Transactions on StorageCCF 推荐A类国际期刊。论文将于2021年正式发表。


 该论文主要研究容器利用率的冷热索引分离。经过研究和实验论证,我们发现:(i)去重过程中,只有少量索引被频繁访问,其余大量索引很少被访问;(ii)容器利用率可以很好地反映索引被访问的频率。对此,我们提出了冷热索引分离法 HID HID 通过将冷索引从全局索引剔除,在内存中只保留热索引,极大地提高了备份性能,此外,HID 也小幅度提高了恢复性能。HID 引入了一种新特性 SDTU SDTU 特性指的是一小部分重复块被识别(转化)为唯一块,SDTU 弥补了布隆过滤器不能识别重复块的缺点。为了充分利用 SDTU 和布隆过滤器的特性以进一步提高备份性能,我们最终提出 HID 的进化版本 EHIDEHID 将一个布隆过滤器整合到自身,并只将热索引映射到该布隆过滤器中。如此,EHID 具有两个显著特征:(i)避免了识别唯一块操作触发的磁盘 I/O;(ii)降低了布隆过滤器的误判率。这两个特征使得 EHID 始终高效地工作。


实验结论:Our experimental results show our approach reduces the average memory overhead of the index by 34.11% and 25.13% when using the Linux dataset and the FSL dataset, respectively. Furthermore, compared with the state-of-the-art method HAR, EHID boosts the average backup throughput by up to a factor of 2.25 with the Linux dataset; and EHID reduces the average disk I/O traffic by up to 66.21% when it comes to the FSL dataset. EHID also marginally improves the system’s restore performance.