专家博客:重复数据删除技术的哈希冲突(上)

Bill 发表于:10年12月17日 10:20 [编译] 存储在线

  • 分享:
[导读]如果说我曾经还怀疑过重复数据删除技术是否已经成为主流技术的话,那么在我在浏览报纸时看到赛门铁克全版重复数据删除技术广告的时候,我的这点质疑消失无踪了。

本文作者Howard Marks是Networks Are Our Lives公司的首席科学家。这家公司总部位于新泽西州霍博肯,从事顾问工作。1987年以来,他一直专注于系统的分析和写作。 

DOSTOR存储在线12月17日国际报道:如果说我曾经还怀疑过重复数据删除技术是否已经成为主流技术的话,那么在我在浏览报纸时看到赛门铁克全版重复数据删除技术广告的时候,我的这点质疑消失无踪了。即便如此,我还是有时候碰到一些人认为重复数据删除技术是危险的难以捉摸的技术,有可能会破坏他们的数据。这种态度高估了重复数据删除过程中哈希冲突的概率,也高估了传统备份媒介的可靠性。

首先,让我们来看看你的存储系统中其他组件的可靠性。如今的硬盘驱动器的错误概率为每10的14次方比特到10的16次方比特(100到10000TB)发生一次读取错误。在备份检测到读取错误并让阵列控制器从一个错误检验与纠正(ECC)条带重建数据的时候,企业级驱动器会在T10数据完整性域(DIF)中增加一个16位CRC(循环冗余检验),而CRC遗漏错误的概率是每64K(65536)次错误发生一次。如果你的数据是在以太网或光纤通道网络上传输的,32位CRC会对数据进行错误检测,会给错误数据返回正确数值,而错误的概率是在10的9次方分之一。

最后,如果你因为不信任重复数据删除技术而不采用这种技术的话,你有可能是把数据写入到LTO-5磁带中,后者的错误概率为每10的17次方发生一次。当然,10的17次方听起来很强大!彩票的中奖概率是10的8次方之2。LTO-5的错误概率比这个中奖概率要低10亿倍!当然,磁带的错误概率不包括媒介本身以外的错误,因此磁带误操作就不包括或计算在内了。

那么,这些媒介的可靠性水平和重复数据删除备份目标端比起来如何呢?在基于哈希算法的重复数据删除系统中,SHA-1是最常用的哈希函数。在20个字节的哈希值中,来自不同数据的两个数据块产生同样哈希值的概率是10的48次方分之一。这是一个相当可观的数字。当然,我们担心的是数据中心中两个数据块是否会产生哈希冲突,而这又依赖于重复数据删除环境下的数据量。

欲想了解更多,请阅读:专家博客:重复数据删除技术的哈希冲突(下)

[责任编辑:刘凯]
12月8日,由DOIT传媒主办,以“信息世界 共想明天”为主题的2010年中国存储峰会在北京富力万丽酒店隆重召开,中国存储行业又一次迎来了最具代表性、权威性的年度盛会。
官方微信
weixin
精彩专题更多
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
12月15日,中国闪存联盟成立,同时IBM Flash System卓越中心正式启动
DOIT、DOSTOR、易会移动客户端播报中国存储峰会盛况。
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved.