专家博客:重复数据删除技术的哈希冲突(下)

Bill 发表于:10年12月20日 10:47 [编译] 存储在线

  • 分享:
[导读]为了碰到一个10的15次方分之一概率的哈希冲突而导致的磁盘读取错误,你需要5乘以10的16次方的数据块,或8K数据块形式的432YB的数据。

本文作者Howard Marks是Networks Are Our Lives公司的首席科学家。这家公司总部位于新泽西州霍博肯,从事顾问工作。1987年以来,他一直专注于系统的分析和写作。 

DOSTOR存储在线12月20日国际报道:就像我的朋友W.Curtis Preston说的那样,两个数据块错误地产生同样哈希值的概率比Jessica Alba(好莱坞女星)变成我的女朋友的概率还要低。不过,后者毕竟还是可能的。我和Alba女士都还活着,不过鉴于我又老又胖,还是住在新泽西州的技术宅男,而她是Jessica Alba,因此我们之间的可能性非常低。

Curtis甚至还让一个数学博士创建了一个工作表来计算哈希冲突的概率。为了碰到一个10的15次方分之一概率的哈希冲突而导致的磁盘读取错误,你需要5乘以10的16次方的数据块,或8K数据块形式的432YB的数据。我用一个高精度计算器来计算,发现在一个4PB数据(8K数据块)的重复数据删除系统中,发生一次哈希冲突的概率是4.5乘以10的26次方分之一,差不多相当于完美媒介下的磁带读取错误概率。

现实是,人们倾向于避免概率极低的灾难性事件,接受那些概率相对高而后果相对较轻的事件。因此,我们采煤来发电,即使我们知道矿工会死而人们会得哮喘病,但是我们不会去建核电站。一次哈希冲突不会破坏你所有的备份数据。它只是意味着一个数据块在恢复的时候会恢复成错误的数据,就像磁盘或磁带错误那样。

如果是备份3PB数据,你要备份10的26次方次你才会碰到一次哈希冲突和一个损坏的文件。这对我来说还是一个可以接受的风险。毕竟,我每天早上都会去遛狗,在遛狗的过程中总有可能会被街上的车子给撞到--有可能是被Jessica Alba开的车子,如果她有看到我的博客的话。不过,我不会去计算这个可能性的。

本文接:专家博客:重复数据删除技术的哈希冲突(上)

[责任编辑:刘凯]
12月8日,由DOIT传媒主办,以“信息世界 共想明天”为主题的2010年中国存储峰会在北京富力万丽酒店隆重召开,中国存储行业又一次迎来了最具代表性、权威性的年度盛会。
官方微信
weixin
精彩专题更多
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
12月15日,中国闪存联盟成立,同时IBM Flash System卓越中心正式启动
DOIT、DOSTOR、易会移动客户端播报中国存储峰会盛况。
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved.