生産の安全性について話し、ステーションBとVipshopの最前線の専門家と話しましょう!{2}TakinTalksビッグコーヒートーク

「安全な生産」は、業界で新たに出現した概念であり、伝統的な産業に由来します。安全な生産を強化することは、生産安全事故を防止および削減し、人々の生命と財産の安全を保護し、持続可能で健全な経済的および社会的発展を促進することです。

インターネットの発展に伴い、デジタル経済は総経済量の30%以上を占めています。主にITシステムによってサポートされている新興のインターネット企業では、さまざまなシステム障害が人的被害を引き起こすことはありませんが、企業への損失はありません。直接的な経済的損失に加えて、過小評価されるべきではありません。それはまた、ユーザーの大きな損失を引き起こし、企業イメージに深刻なダメージを与えます。

このため、デジタルビジネスにも「安全生産」が必要であり、完全な安全生産システムを構築することで、企業は現在の問題点を解決することができます。

1.インターネットエンタープライズシステムの安全生産インフラストラクチャは弱いです。

2.技術スタッフには、体系的かつ規範的なガイダンスがありません。

3.安全生産の監督は弱く、適切に実施することはできません。

 

Shuli Technologyのマイクロサービスシステムの安全な生産(安定性ガバナンス)構築のための全体的なフレームワーク

 

[Big Guys Talk]の今号では、インターネット企業の業界代表とTakinTalksコミュニティの3人の講師を招待しました。BステーションのライブブロードキャストのB&CサイドアーキテクチャグループのリーダーであるLv Fan、 VipshopのミドルウェアテクノロジーとShuliTechnologyの共同創設者YangDehuaは、効率を保証する活動、カオスエンジニアリング、人事基準管理、安全生産などについて詳細な議論を行いました。以下は対話のハイライトです。それはあなたを刺激することができます-

(記事の最後にある再生ビデオのフルバージョンを参照してください)

 

専門家の紹介

 

専門家の意見が衝突する

 

1.活動保証は多くの企業がしなければならないことであり、保証効果に加えて、保証のコストと効率が最も懸念される問題になっています。コストを削減して効率を上げる良い方法はありますか?

ステーションB呂範

ストレステストは活動支援に最も人手が必要でしたが、当時は20〜30人で一緒にやっていたはずですが、一番面倒だったのはリンクコーミングでした。当時、ストレステストのリンクコーミングには3週間かかりました。 、しかしB駅のストレステストシーンはあまり変わらない。また、最近作ったバーチャルアンカーなどの新機能も、交通量はそれほど多くなく、大きな影響はない。安定性があるため、コアを確認してください。ストレステストのシナリオとスクリプトは将来再利用できます。これにより、コストを削減し、後続のアクティビティの効率を高めることができます。

効率の向上という点では、実は非常に重要なポイントがあります。極端な準備をすると、多くのことを節約できます。たとえば、ストレステストを一緒に行い、別々にテストする必要があるシナリオがいくつかあります。結果は効果がなく、十分な準備ができていないと起こりません。

シーケンスヤン徳化

Array Technologyは、SF Express、China Mobile、China Lifeなどの多くの企業が、実稼働環境でフルリンクストレステストを実行するのを支援してきました。また、効率とコストの確保にも特別な注意を払っています。たとえば、リンクの並べ替えは労力と時間。作業は効率を改善するための重要な部分でもありますShunli Technologyのオープンソース製品であるTakinは、ビジネスの頻繁な変更と一部の企業の依存関係の頻繁な変更により、ユーザーのニーズに応じた自動リンクコーミングの機能も改善しました。これにより、企業はリンクコーミングに費やす時間を削減できます。効率を50%以上効果的に向上させます。

陳Junfeng唯物会

確かに大規模なイベントのセキュリティには多くの時間と労力がかかりますが、最近ではビジネスレベルや技術レベルのアクションも含め、最適化の方向で取り組んでいます。

たとえば、ビジネスレベルは、アクティビティ方法を更新してプロモーションを定期的に行うことであり、大規模なプロモーションのすべてのトラフィックを集中した時点に導くことはありません。たとえば、ダブルイレブンはその夜に販売されるだけでなく、開始されます。 11月1日から。トラフィックが均等に分散されると、セキュリティ上の圧力も軽減されます。

技術レベルでは、基礎となるコンポーネントの製品の成熟度が関係します。現在、いくつかの圧力測定方法を統合した圧力測定プラットフォームがあります。以前と同様に、ストレステストの各チームは、トラフィックの記録と再生を含む独自のストレステスト環境で実行されました。現在、この部分が統合され、標準化されたプロセスが製品に実装されているため、人間の効率も向上します。

 

2.クレードル内の問題を事前に殺すことは、保護の最善の手段です。カオスエンジニアリングとフォールトドリルが世間の注目を集め始めています。それはどのように機能しますか?

ステーションB呂範

セキュリティ業務の核心は依然として人であり、オンラインシステムの異常を回避する方法はありません。システムの安定性を発揮するだけでなく、セキュリティに携わる人たちが落ち着いて問題に対処できるようにする必要があります。タイムリーに。カオスエンジニアリングの重要な部分は故障訓練であり、それは人とシステムを訓練する主要な手段でもあります。現在、ステーションBのドリルはオンラインドリルではなく、ドリル環境で行われています。オンラインドリルは、本番環境を汚いデータで汚染しやすいため、トラフィックのコピー+環境のコピーの方法を採用し、今後も継続していきます。将来的に改善します。

シーケンスヤン徳化

カオスエンジニアリングの目的は、システムの安定性とユーザーエクスペリエンスの向上を確実にするために、問題を事前に見つけて解決することです。システムの安定性は私たちが追求する結果指標であり、カオスエンジニアリングはプロセス指標を改善できる新しい効果的な方法です。Shuli Technologyの多くの顧客もこの点で実践しており、それらのほとんどはエントリポイントとしてフォールトドリルも使用しています。理想的には、障害ドリルのプロセスは、定期的な障害ドリル、システムリスクポイントの特定、ビジネスシステムの最適化、および実行可能で効果的な障害処理計画の作成である必要があります。

陳Junfeng唯物会

カオスエンジニアリングは依然として非常に有用です。パッシブをアクティブに変え、事前に障害を発生させ、システムのパフォーマンスを確認し、それらに対処するための計画を事前に準備することができます。現在、カオスエンジニアリングを行うための隔離された環境を構築しており、関連する製品のプロトタイプもありますが、それらはまだ実稼働環境に到達していません。結局のところ、本番環境でカオスエンジニアリングを実装するにはある程度の勇気が必要です。システムを十分に把握するだけでなく、実際に実装する前に、この問題を上から下に推進する必要があります。

 

3.セキュリティ作業の核心は人にあります。さまざまな規範が普及していますが、それらをどのように策定して実装するかが新たな困難になっています。良い習慣はありますか?

シーケンスヤン徳化

中国には、四角がなければルールはないという古いことわざがあります。同時に、レダリオは「原則」と呼ばれる本も書きました。ある程度、規範は原則、つまり人が話し、行動するための規則と同等です。システム用に策定された仕様が実際には主に人を対象としているとしても、仕様は実際には管理方法です。仕様書の作成の初期段階では、仕様書の目的と特定の適用範囲を明確に定義して、より的を絞る必要があります。

また、「フォールトドリル」を参照して、仕様違反を積極的に注入し、責任者が見つけられるかどうかを確認して、迅速なフィードバックを得ることができるかどうかについても考えています。将来。

ステーションB呂範

仕様の実装方法については、ROIに注意を払います。すべてのサービスに仕様への準拠を強制する必要はありません。主な要件は、コアビジネスが関連する仕様に準拠していることです。さらに、いくつかの特定のツールを使用してレビューを実施します。また、通常の宣伝やトレーニングにおいて、すべての人の規範に対する意識を意識的に強化します。コアビジネスについては、ペナルティメカニズムもあります。関連する規範に違反すると、ペナルティが発生します。人員が必要です。責任があります。

陳Junfeng唯物会

仕様とプロセスの定式化のほとんどは、過去のバッドケースとグッドケースから合計された経験に基づいており、実際のアプリケーションシナリオとより一致し、着陸への抵抗も減少します。仕様の実際の実装については、プラットフォームツールと組み合わせて実装することが多く、検査、レビュー、更新の反復に、より標準的で便利です。

 

4.「安全な生産」は業界で新たに登場したコンセプトですが、これについてどう思いますか?

シーケンスヤン徳化

デジタルビジネスにおける安全生産は、従来の産業とは異なり、ユーザーエクスペリエンスとビジネスの通常の運用に密接に関連しています。現在、一部のエンタープライズアプリケーションには、国民経済、人々の生活、インフラストラクチャビジネスが含まれます。障害の原因の注入、障害の発生、障害の検出、および技術者の立ち上げから、いくつかのいつ見つけることができ、いつ復元できるかについての洗練された指標。事前に目標を設定し、目標の周りでドリルを実行するか、実際の障害を通してこれらの時点を確認し、最初に表面の問題を調べてから、根本的な原因を見つけます。これらの内容は、今後徐々に一般的な基準となるものと考えられます。

安全な生産の究極の目標は、重大な障害を0にすることです。もちろん、多くの企業は毎月重大な障害を抱えています。したがって、ほとんどの企業が上陸するとき、段階的な目標として重大な障害の数を減らし、その後、重大な障害を0に追求します。最終的に大きな故障をゼロにするためには、研究開発プロセス全体のリスク状況を測定し、事前に解決する必要があります。

陳Junfeng唯物会

安全生産とは、現在、最前線の技術でシステム障害を回避することを意味します。多くの大きな障害は小さな変更によって引き起こされます。変更担当者の怠慢により、小さな問題は徐々に大きな問題になり、最終的には大きな生産障害につながります。したがって、人員の制約、変更の監視これらはすべて重要なことです。Vipshopは、カオスエンジニアリングの正規化、キャパシティプランニングの自動化、ユニット化などの分野でも取り組みます。

ステーションB呂範

安全生産については、主に「1〜50」の概念、つまり、見つけるのに1分、見つけるのに5分、解決するのに10分という概念に焦点を当てていますが、必須の要件や対策がすべて揃っているわけではありません。S11では、全員が一緒にいると処理速度が速くなりますが、通常のビジネスやコア以外のビジネスで「1から50」を達成したい場合は、要件が少し高くなります。もちろん、「50」「マルチアクティブ」「マルチマシンルーム展開」なども今後の展開の方向性です。

素晴らしい再生アドレス: https

{{o.name}}
{{m.name}}

おすすめ

転載: my.oschina.net/u/5129714/blog/5533161