专家博客:重复数据删除使用心得(上)

Bill 发表于:11年01月07日 00:28 [编译] 存储在线

  • 分享:
[导读]针对备份数据的重复数据删除技术,已经进入主流行列。不过,"重复数据删除"这个术语的应用范围是那些一次性存储数据的技术。

本文作者Howard Marks是Networks Are Our Lives公司的首席科学家。这家公司总部位于新泽西州霍博肯,从事顾问工作。1987年以来,他一直专注于系统的分析和写作。 

DOSTOR存储在线1月7日国际报道:重复数据删除,至少是针对备份数据的重复数据删除技术,已经进入主流行列。不过,"重复数据删除"这个术语的应用范围是那些一次性存储数据的技术,即使这些技术被告知要存储这些数据许多次。由于所有这些技术对于所存储的数据来说都很敏感,因此"每个人的情况都有所不同"。随着2010年结束,我觉得在这里可以分享一些对重复数据删除技术的心得。

一定要确保你的重复数据删除解决方案支持你的备份解决方案。虽然大多数重复数据删除系统可以在某个强制指定的数据流中发现重复数据,但是如果让系统知道数据背景的话,大多数系统可以得到更好的结果。基于哈希算法的重复数据删除系统将数据分解成各个块,然后剔除重复的数据块。虽然它们在每个新文件的开头都会起一个新块,不过大多数备份应用程序是将数据存储在汇总文件内的,比如Unix tarball或ZIP文件。

如果你的重复数据删除系统知道你的备份程序所使用的汇总文件格式,它可以在来自备份的来源数据流中给每个文件起一个新块。这可以让系统分辨出更多的重复数据。除了你的数据,汇总文件还包含备份程序用于加速恢复流程的索引信息。如果你在固定块重复数据删除系统上存储备份数据,和大多数对数据进行重复数据删除的主存储系统一样,这个索引信息可能会切换数据从而导致系统不知道今天的备份包含和昨天一样的数据。

一定要在同一个重复数据删除池中保存类似的数据源。如果你的重复数据删除系统不能在单个池中存储你的所有数据,你可以将数据分割,从而让系统在同一个池中承载类似的数据。你可以将文件服务器放在一个池,将Oracle服务器放在另一个池。比起将所有纽约办公室的数据都放在一个池而将所有芝加哥办公室的数据放在另一个池的做法来说,按文件类型划分的做法可以获得更好的重复数据删除效果。

欲想了解更多,请阅读:专家博客:重复数据删除使用心得(下)

[责任编辑:刘凯]
12月8日,由DOIT传媒主办,以“信息世界 共想明天”为主题的2010年中国存储峰会在北京富力万丽酒店隆重召开,中国存储行业又一次迎来了最具代表性、权威性的年度盛会。
官方微信
weixin
精彩专题更多
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
12月15日,中国闪存联盟成立,同时IBM Flash System卓越中心正式启动
DOIT、DOSTOR、易会移动客户端播报中国存储峰会盛况。
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved.