アマゾンの光ファイバケーブルを掘ったのですか? - エンジニアアリアリペイは、どのようにデータセンターのアーキテクチャ設計を説明します

温家宝:周瑜は校正:李のErを

2500の言葉の全文は、私は7分の長さを読むことをお勧めします

右上隅をクリックして、私たちは毎日ああ面白いつぶやきを受け取ることができ従ってください。

アーキテクチャ設計のために掘られた後のケーブルのAWSポイントの概要

アマゾンの光ファイバケーブルを掘ったのですか? - エンジニアアリアリペイは、どのようにデータセンターのアーキテクチャ設計を説明します

昨天科技圈最火的新闻应该是“AWS中国区光缆被挖,导致三星、小米等众多企业服务不可用”。

光ファイバケーブルはねえ、掘られています!なぜ他、ご一緒に戻ってみましょう:

過去の事例

2019.6.02:亚马逊光缆被挖断,国内部分地区网络出现异常
2019.3.23:施工队挖断腾讯光纤,致腾讯旗下100多款游戏受影响,损失大了
2015.5.27:由于杭州市萧山区某地光纤被挖断,造成目前少部分用户无法使用支付宝

私は、光ファイバケーブルに関わるいくつかの大企業をリストアップするためにここに掘った事故だっただ、残りはまたIESSケーブルが列ではありません掘った、ラジオと掘られたものケーブルテレビがあります。

さて、私たちは、ことがわかった「会社は大きいですが、また、建設チームの恐れ」、そしてこの事故は、建設チームのせいだろうか?個人的に私は、建設チームのためにすべての責任を置くことができない感じ。

どのように防ぐために

私たちは、彼がそのような悲惨な状況を経験し、結局、それは2015年に高齢者で、このAlipayのソリューションを見ることができます。

2018年9月20日には、杭州Yunqi総会ATECメインフォーラムサイトでは、特殊な技術のショーを上演しました。蟻ゴールドドレス副CTO胡HI-サイトのアナログケーブルは、サーバーの半分近くを宝物を支払うWaduan。わずか26秒の結果は、アリペイシミュレーション環境は完全に正常に戻っています。

この溶液を室温アーキテクチャ、3つの都市で5つの部屋のつまり展開である「3つの5センター」、ある1つまたは2つの部屋に失敗したら、市内の障害へのすべてのトラフィックを切り替えるための技術に依存することができますエンジンルームの正常な動作。

だから、「3つの5のセンター」の前に他の多くのアーキテクチャは、その特性に1人の表情は、私たちにあります。

進化災害

サーバーがダウンしたときに最初に、私たちは、その後、1台のマシンにのみマシンを(関係なく、データ記憶装置のようなディスプレイのHello WorldのWebページのような非常に単純な読み取り専用のアプリケーションを、)適用され、私たちのアプリケーションは使用されません。

マシンダウンだけで1台のマシンが私たちのアプリケーションには影響を与えません。そのため、我々は複数のマシン上で我々のアプリケーションを検討し、同社は、これらのマシンを配置する別の部屋をオープンしました。

しかし、あなたの会社は、1日の消費電力は、それを切る場合は?私たちは部屋を配置するために市内の別の場所に考える今回は、このアプリケーションが二つの部屋で展開している同じ都市(これはライブの二重都市と呼ばれています)

しかし、あなたの街を経験している場合には、自然災害の津波、台風、地震、他の二つの部屋の1日は使用できません、そして今回は、私たちのアプリケーションをデプロイするために別の都市で部屋を再構築検討するように、我々のアプリケーションさらに高い可用性(これは、オフサイトでのライブと呼ばれています)。

さて、これまでに関係なく発生する状況の種類、我々のアプリケーションは、(...地球を破壊しない限り)基本的には利用できません

それはデータストレージに来るのであれば、我々は同時にサービスを提供することができるアプリケーションのようにすべての部分、上記のアプリケーションは非常に単純な読み取り専用のアプリケーションで検討し、その後、私たちのアプリケーションは、この時間は、アプリケーションのさまざまな部分は同じ時間プランを書き込むことはできませんサービスデータ、データの競合が発生する可能性があるので、我々は時間のために都市別の部屋と別のオフサイト中にサーバ(後に我々はコンピュータルームと呼ばれる)は、サービスを提供するために、データを書き込むことができ、会社の内部規則だけの部屋であることデータが同期されるので、でもメインコンピュータルームの停電ならば、他の二つの部屋はまだ一時的な外部のサービスプロバイダになることができますので、部屋のこれら二つの部分の機能は、災害復旧と呼ばれるように、客室には、メインコンピュータルームからのデータを同期することができます。だから今アーキテクチャ次のように:
アマゾン・オプティック・ケーブルを掘ったことが?-エンジニアアリアリペイは、どのようにデータセンターのアーキテクチャ設計を説明します

メインコンピュータルームの停電は、ユーザーが部屋をバックアップするために北京を要求しますときに、北京はまた、部屋停電を担保する際、ユーザーの要求は、部屋をバックアップするために上海に行きます。

さて、このアーキテクチャのために、私たちはホストだけが部屋の外にサービスを提供することができると言う、他の二つの部屋は同じようにバックアップ、ディザスタリカバリされ、そのバックアップエンジンルームの利用率は、ホストの部屋からの通常の要求の下で、理由は結局、古い決して高くはないです停電なので、バックアップエンジンルームは、その利用率を向上させることはできませんか?確かに、我々はバックアップ部屋北京を作ることができ、ビジネスの一部を受け取るために要求したが、これらの要求は、上海のバックアップエンジンルームながら、そのようないくつかの読み取り要求として、それほど重要であろうかのため、要求を受信し、または単に災害復旧機などはありません他の予測できない問題があるだろうと、バックアップエンジンルームサービス要求が受信される保証することができ、それは今3つの部屋の役割である誰もが、実際には多少異なる持っていません。

これは、2つの内3つのセンターと呼ばれています。

状態は銀行の災害復旧能力の要件は、どのくらいのより多くの資産を確実にするために2〜3のセンターにアーキテクチャを行わなければなりませんでしたので、だから、このアーキテクチャの2における3つのセンターは、多くの銀行や大企業が使用しているアーキテクチャは、あります銀行システムの安定性。

だから、その欠点のないこのアーキテクチャはありますか?のは、その可用性が高い考えてみましょうか?可用性は十分に速く、インフラストラクチャは、ユーザーの要求を処理する際にあることを意味しますか?

私たちは、このアーキテクチャの間で、センターは、データのバックアップの必要性、唯一の二つの方法のため、バックアップデータ、非同期または同期のいずれかであることがわかりました。

最大性能模式:
如果是异步,表示用户一个写数据请求,只要在生产数据中心存储完数据后就会直接返回结果给用户,同时异步去备份数据,但是,如果正准备去异步备份数据的时候生产数据中心停电了~,那么这个时候还能将灾备服务器暴露出去给用户提供服务吗?不能了,因为很有可能灾备中心的数据是过时的数据。
最大保护模式:
如果是同步,表示用户一个写数据请求,不仅要等待生产数据中心存储完数据,还需要等其他灾备中心备份完数据后才能返回,而且仅仅当灾备中心出现问题时,因为不能完成数据的备份,所以整个架构也不能对外提供服务,这种可用性是很低的。
最大可用模式:
这是普遍采用的方案,正常情况下使用最大保护模式,同时生产数据中心监控灾备数据中心,一旦发现某一灾备中心出现了问题,那么则会改为最大性能模式,这样就保证了生产数据中心不受其他灾备中心影响。
三写两同步:
这是阿里之前的架构模式,意思是同城三个中心,数据备份不是发生在数据库层面,而是应用层,当应用向数据库去写数据时,会同时向三个中心去写数据,只要有两个中心返回成功即可,这样就算三个中心有一个中心停电了,那么并不影响整个架构的高可用,这个思路和我们前面三种是不一样的,性能肯定会高很多。

さて、私たちはその欠点をまとめるために、2〜3のセンターを紹介しました:

灾备中心利用率不高
生产数据中心停止运行后,灾备中心中不一定有100%一模一样的数据
成本高,但又无法真正实现期望的高可用能力

したがって、この問題を解決するために、そこに類似した名前と2つの3つのセンターが、3つの5のセンターあったが、完全に異なる機能を提供しています。

三つの5センターは3つの都市、5つのセンターを指し、3つの5つのセンターのコンセプトを単位に基づいており、それを継続するために次の、多くのスペースが懸念している費やす必要がありました。

おすすめ

転載: blog.51cto.com/14254017/2404805