专家博客 解决存储故障首先要做到什么?

lxy 发表于:10年07月19日 16:18 [编译] 存储在线

  • 分享:
[导读]如果要解决一个存储难题,在制作一个精确的报表以外还有很多工作要做。但是,解决问题的第一步在于知道你要做什么。

本文作者George Crump是Storage Switzerland的创始人,同时也是George Crump Consulting的创始人。 

在一些知名的微博上,#fail是一个标签,当你的生活或者工作出现问题时你可以记录下这串字符。那么,你该如何在存储基础设施上避免记录下#fail呢?最重要的事情是要未雨绸缪。

你所从事的IT业是一个关注何时出现问题远胜于关心哪些地方出现了问题的行业。你首先需要为基础设施内存在的问题做好准备。不管你是尝试自己解决问题,还是邀请专家来解决,首先都要对你的现有设施进行盘点,然后才能开始诊断。

对于你的数据中心来说,不是仅仅花几个小时列出一份清单就可以了。作为一个良好的开端,让人解决问题首先需要提供细节。这些细节包括每一个HBA卡,交换机端口,交换链路(ISL),存储端口如何配置等等,当然还包括存储产品本身是如何配置的。

如果这些信息能够被分析工具频繁捕捉下来的话是最好的(换句话说,不要使用电子表格)。电子表格并非专业的IT诊断工具。我们曾经看到过一个故障排除项目,从其开始服务器虚拟化项目以后,其电子表格清单已经有超过6个月没有更新。要知道事情发生了变化。坦率地说,如果你的信息清单已经有几周没更新了,特别是在一个虚拟环境下,那么你应该更新一下,不要怕麻烦。重新编制好的清单可能需要执行,所以你最好在环境出现问题的时候做一下预算编制。实时采集的价值在于其可以提供出现故障时环境变化的线索。这些变化通常可以提供出错线索。通常,这些工具可以捕获记录于系统上的物理错误,并可以提供一些分析。但最重要的是,实时捕捉可以帮助您在发生前防止#fail。

对于大多数基础设施硬件的问题而言,存储硬件和其软件组件的问题不在于他们没有提供足够的诊断信息,而是他们提供的太多,因此,重要的信息就会在这其中被错失。这些分析工具可以将确实需要注意的信息,或同问题相关的消息突出。当然,如果要解决一个存储难题,在制作一个精确的报表以外还有很多工作要做。但是,解决问题的第一步在于,知道你要做什么。


[责任编辑:李旭阳]
lxy
3月31日,硬盘厂商希捷同中国家电厂商海信在北京联合宣布了战略合作关系。两家厂商表示,将共同推动SATA通用存储模块(USM)规范在中国市场的应用。
官方微信
weixin
精彩专题更多
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
12月15日,中国闪存联盟成立,同时IBM Flash System卓越中心正式启动
DOIT、DOSTOR、易会移动客户端播报中国存储峰会盛况。
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved.