男は、運用・保守作業エッセンシャルガイドをスケープゴートまでもありません

データセンターの建設のサイズは、新しい技術の反復更新を拡大し続けていると、ネットワークは、データセンターの運用が非常に複雑になる運びます。データセンターの運用の発展に適応するためには、ネットワークのデータセンターは、常に操作への変更で更新され、保守作業は大きな困難をもたらしています。

データセンターの建設のサイズは、新しい技術の反復更新を拡大し続けていると、ネットワークは、データセンターの運用が非常に複雑になる運びます。データセンターの運用の発展に適応するためには、ネットワークのデータセンターは、常に操作への変更で更新され、保守作業は大きな困難をもたらしています。データセンターのダウンタイムの事故は、データセンターの運用・保守要員の作業負荷を増大させるだけでなく、起こるにバインドされている、より重要なのは、データセンターは、多くの場合、このような「治療を楽しむにも巨額の損失、でも世界有数のインターネットの巨人をもたらしました。 "

男は、運用・保守作業がバックアップされていない身代わりしないエッセンシャルガイドパンマン、運用・保守作業エッセンシャルガイド

インターネットの巨人は問題にダウンタイム、運用・保守作業に続きます

3月3日朝、アリ雲のダウンタイムの失敗は、アリクラウドサービス事業のWebサイトやインターネット企業APPの購入で結果が正しく動作しません。プログラマー、オペレーター、および運用・保守作業の大きな波がベッドから起き上がるする必要があります。アリは、このためにダウンし、58シニアアーキテクトシェンジェンは、事件が約3時間続いた、そしてその後2時間を観察しました。

5時30分には完全に復元されるまで、午前3時43分で、5月3日に、マイクロソフトのAzure地球規模でのダウンタイムの大面積は、全体のプロセスは、約2時間続きました。ダウンタイムのAzureの影響により、Microsoftの主なサービスは、問題が発生した場合、すべてを含め、マイクロソフト365、ダイナミクスとDevOpsチームが含まれます。

6月25日のニュース、Amazonの公式ウェブサイトは、影響を受けたネットワークユーザーと複数のAWS領域のネットワーク接続で、その結果、クラウドコンピューティングサービスのダウンタイムの出現を確認しました。AWS米国東部地区1で障害が発生したノードは、33個のサービスの合計は、そのうち9は完全に遮断状態であり、影響を受けています。

ダウンタイム事故、運用・保守の難易度「高レベル」

何度も何度もダウンタイムインシデントは、データセンターの運用・保守作業の重要性を示しますが、避けるように見えることはできません。今日、すべてのものの技術的進歩のインターネット時代の到来により、データセンターは、国​​のデータセンターの開発だけで10年の時間が、重要なインフラとして重要な役割を果たしますが、UPS、空調やIT機器の一般的な部屋からだけでした時代は、インターネットに、ビッグデータ、AI、クラウドサービス、フルサービス、何万と毎ターンキャビネットで、自然冷却、新技術の風の壁、水中のデータセンターを含め、液体冷却のサーバーが作成し、新しい時代のアプリケーションであり続けます。その結果、運用、保守管理は、操作および保守困難大きな課題に直面している「より高いレベルの。」

首先,超大规模的数据中心带来的人员、组织和效率的变化。以前万平米以内的数据中心,人工巡检一次2-4小时,现在数十万平米,需要更多的运维人员分布在不同的责任区,增加了管理的难度和成本;其次,电压等级提高,安全风险增加。以往运维人员接触的是低压,现在供电设备、发电机、冷机都是高压供电,维护安全要求提升;此外,规模集中,导致风险集中,事故影响更大。例如上文中谈到的数据中心宕机事故,导致全球大面积的服务和应用中断,损失惨重,因此运维管理的压力超前。

减少人为失误,提升运维管理的专业技能

据数据调查显示,数据中心的宕机事故70%是由人为失误造成的,因此在数据中心规模不断扩大的同时,运维人员要通过提升自身的技能和专业水平以应对数据中心意外事件的发生:

  • 建立一套完备的人员技能评价体系,从多方面考核运维人员技能能力,能够有效帮助运维人员提高运维技能,促进运维人员主动学习自动提升。

  • 运维经验在线学习,建立运维经验库,实现在线运维经验共享交流平台,提供运维知识在线实习和学习的渠道。

  • 实操环境在线模拟,提供运维模拟实践操作环境,有效隔离操作风险,帮助快速提高运维实际水平。

  • 理论技能在线评测,依托海量IT云平台组件题库,定期考核,随机出题,实现运维理论能力的在线实时自动测评。

  • 实操技能在线测评,构建轻量化在线运维操作、在线编程环境,实现运维操作技能与研发技能的在线实时自动评测。

  • 通过自动评测提升效率,实现运维理论技能与实操技能的在线科学自动评测,提高评测效率,确保能力客观公正的体现。

弥补人工运维不足,智能运维应运而生

今日では、デジタル時代が到来した、データセンターの規模や能力は、倍増操作および保守管理の複雑さが続くと、ますます困難になってきているからされているスクリプトのプラットフォームの運用・保守に運用・保守、運用、保守ツール進化してきました人間は、インテリジェントな運用・保守されて入ってきた後、限界に近づいてきました。今日では、このようテンセント、Huawei社など複数のデータセンター企業は、Jingdongは、インテリジェントな運用・保守過去に、ユン次元と組み合わせて、人工知能、既存の運用と保守のデータに基づいて(ログ、監視情報、アプリケーションの波に研究開発を増加し始めました徐々に手動操作やメンテナンスを交換するように)、機械学習方法の情報等により、運用・保守の効率を改善します。私は将来はより多くのインテリジェントなデータセンターになると考えています。


おすすめ

転載: blog.51cto.com/14535459/2440052