運用・保守難易度「高レベル」 - 存在しません。

この記事を編集します。玲子

どのようなデータセンターの中で最も恐れている?データセンターの運用・保守要員の最も恐れている何停電、損傷を受けたネットワークは...?ダウンタイムではなく、一般的なエラー、アップグレードと拡張...

データセンターの建設のサイズは、新しい技術の反復更新を拡大し続けていると、ネットワークは、データセンターの運用が非常に複雑になる運びます。データセンターの運用の発展に適応するためには、ネットワークのデータセンターは、常に操作への変更で更新され、保守作業は大きな困難をもたらしています。データセンターのダウンタイムの事故は、データセンターの運用・保守要員の作業負荷を増大させるだけでなく、起こるにバインドされている、より重要なのは、データセンターは、多くの場合、このような「治療を楽しむにも巨額の損失、でも世界有数のインターネットの巨人をもたらしました。 "

 

インターネットの巨人は問題にダウンタイム、運用・保守作業に続きます

3月3日朝、アリ雲のダウンタイムの失敗は、アリクラウドサービス事業のWebサイトやインターネット企業APPの購入で結果が正しく動作しません。プログラマー、オペレーター、および運用・保守作業の大きな波がベッドから起き上がるする必要があります。アリは、このためにダウンし、58シニアアーキテクトシェンジェンは、事件が約3時間続いた、そしてその後2時間を観察しました。

5時30分には完全に復元されるまで、午前3時43分で、5月3日に、マイクロソフトのAzure地球規模でのダウンタイムの大面積は、全体のプロセスは、約2時間続きました。ダウンタイムのAzureの影響により、Microsoftの主なサービスは、問題が発生した場合、すべてを含め、マイクロソフト365、ダイナミクスとDevOpsチームが含まれます。

6月3日スタートの2時58時、GoogleはGmailやYouTubeやGoogleドライブ、Googleのクラウドインフラストラクチャサービスが影響を受けているに基づいて、多くのGoogleサービスを含め含め、世界で大規模な休憩を負いました。ユーザーは、Googleのサービスは、さまざまなエラーの出現を思い出させるアクセスし、YouTubeの動画をアップロードし、電子メールにアクセスできないようにします。

6月25日のニュース、Amazonの公式ウェブサイトは、影響を受けたネットワークユーザーと複数のAWS領域のネットワーク接続で、その結果、クラウドコンピューティングサービスのダウンタイムの出現を確認しました。AWS米国東部地区1で障害が発生したノードは、33個のサービスの合計は、そのうち9は完全に遮断状態であり、影響を受けています。

 

ダウンタイム事故、運用・保守の難易度「高レベル」

何度も何度もダウンタイムインシデントは、データセンターの運用・保守作業の重要性を示しますが、避けるように見えることはできません。今日、すべてのものの技術的進歩のインターネット時代の到来により、データセンターは、国​​のデータセンターの開発だけで10年の時間が、重要なインフラとして重要な役割を果たしますが、UPS、空調やIT機器の一般的な部屋からだけでした時代は、インターネットに、ビッグデータ、AI、クラウドサービス、フルサービス、何万と毎ターンキャビネットで、自然冷却、新技術の風の壁、水中のデータセンターを含め、液体冷却のサーバーが作成し、新しい時代のアプリケーションであり続けます。その結果、運用、保守管理は、操作および保守困難大きな課題に直面している「より高いレベルの。」

まず、スタッフは、超大規模データセンターの変更、組織と効率性をもたらします。データセンター内の前の百万平方メートル、手動検査時間平方メートルの何千人も、責任のさまざまな分野で多くの運用・保守要員の必要性の2〜4時間、そして今何百、難易度やコスト管理を増やす;、第二電圧定格を高めるために、セキュリティ上のリスクが増加しています。低圧、今や駆動機器、発電と接触する前の操作および保守要員は、冷却機は、安全性を高めるために、高電圧電源、メンテナンス要件があり、加えて、リスク集中、事故の大きな影響をもたらす濃度のスケール。例えば、上述したデータセンターのダウンタイムインシデント、グローバルサービスおよびアプリケーションの中断損失、前方圧力のゆえ操作および保守管理の大部分をもたらします。

運転・保守管理の専門知識を向上させ、ヒューマンエラーを削減

調査データによると、事故データセンターのダウンタイム70%予期せぬ出来事に対処するために自分のスキルと専門知識を向上させるための操作や保守担当者を通じて、データセンターを拡張しながら、データセンターを発生するので、ヒューマンエラーによって引き起こされます:

人事評価制度のスキルの包括的なセットを確立し、スキルアセスメント能力、運用・保守要員の広い範囲からの操作や保守担当者が効果的に能動学習自動アップグレードを促進するための運用・保守技術、運用、保守要員を向上させることができます。

運用・保守の経験のオンライン学習は、運用・保守のトレーニングや知識オンライン学習チャネルを提供するために、オンライン共有プラットフォームの運用・保守の経験基盤、運用・保守の経験を​​確立します。

シミュレートされたハンズオン運用・保守、オペレーショナル・リスクの効果的な分離を提供する、オンライン仮想環境の実用的な操作は、運用・保守の実際のレベルの急速な増加を助けます。

大規模なITクラウドプラットフォームコンポーネント試験に頼るオンライン学力評価、定期的な評価、ランダムな話題、自動リアルタイム評価のオンライン操作および保守のための理論容量。

操作スキルオンライン評価、オンラインの軽量建物の運用・保守業務、オンラインリアルタイム自動評価を運用および保守のスキルと研究能力を実現するためのオンラインプログラミング環境。

自動的に評価効率を向上させ、効率性、運用・保守技術、アカデミックスキルと自動オンライン科学的評価の実用的な操作性を高める評価することにより、客観的かつ公正な発現を確実にする能力。

人間の労働運動次元の、インテリジェントな運用・保守の不足を補うためにされて入ってきました

今日では、デジタル時代が到来した、データセンターの規模や能力は、プラットフォームの運用・保守まで、倍増操作および保守管理の複雑さが続くと、ますます困難になってきている、スクリプトの運用・保守から、運用・保守ツールされ発展してきました人間は、インテリジェントな運用・保守されて入ってきた後、限界に近づいてきました。今日では、このようテンセント、Huawei社など複数のデータセンター企業は、Jingdongは、インテリジェントな運用・保守過去に、ユン次元と組み合わせて、人工知能、既存の運用と保守のデータに基づいて(ログ、監視情報、アプリケーションの波に研究開発を増加し始めました徐々に手動操作やメンテナンスを交換するように)、機械学習方法の情報等により、運用・保守の効率を改善します。私は将来はより多くのインテリジェントなデータセンターになると考えています。

おすすめ

転載: www.cnblogs.com/xiaoxiao998/p/11490986.html