一度オープンファルコン-グラフ頻繁にOOMのトラブルシューティングを忘れないでください

この記事では、頻繁OOMおよびソリューションを通じて調査のファルコン・グラフモジュールを記述しています。
前の記事レビュー: セキュリティサポートDcoker(パートII)について語ります

ビジネスの背景

ファルコン・グラフは、後に問い合わせ、要約およびその他の機能へのユーザーのためのデータの永続性を監視する責任があります。

、機械負荷(荷重:1分)の平均増加:4初期において、オープンファルコン取引量が徐々にグラフメモリクラスタが(73%今)8%の平均増加を占め、その結果、現在の0320000000に0.29billionカウンタから増加増加します(現在:18)5%。

機械の部品現象が時間的に非固定点において生じるOOMする一方サイト条件の概要は、全体的な増加、現象が発生し、機械OOMの一部となる午後08時クラスタメモリで3日間見出さ。

調査プロセス

1、調査サービス自体

呼び出しは、フィールドの質問以下の情報に巻き込ま行動パフォーマンス分析サービス自体、pprof行きます:

CPU:


MEM:


通常の条件下では、CPUの比較は、各機能の割り当てには大きな変化は認められなかったが、MEMが上がって。

データが安定して流入されるので、ブロックやその他の問題の間に持続することが疑われた減少したディスクの書き込み速度、メモリデータの蓄積につながりました。

問合せブロックの情報が表示されpprof行きます:

トータル情報が0である、ブロックがサービスを除外している機能は、書き込み処理を生きます。その他のサービスは、マシン上で調査を開始しました

2、調査・マシン上の他のサービス

(1)短時間のため20時ディスカバリサービス(グラフ-クリーン)で毎日クリーンアップするシーンで発見調査は、以下のようにCPU負荷の多くは、急速な上昇(> 30)につながる消費します:

(2)らは調査サイトとサービス発見データ転送(転送)は32まで瞬時負荷をもたらす、消費サージに大きな過渡+ TCP接続のCPUデータチェック結果を持って議論します。図は次のとおりです。

ソリューション

グラフクリーンコード1は、不合理です

  • コードグラフクリーン、平均ピークを変更する、頻度を減少させることにより、オーバーヘッドCPUを低減

  • テストテストクラスタ(完成品)

  • 1機が灰色の線観測(完成、CPUの多くは短期的な問題を解決するために消費を、機械を使用すると、グラフサービスOOMを展開した後、この問題が発生する原因となりませんでした)

  • 徐々に他の機械ラインのグラデーション(完了した、この問題は、グラフサービスOOMに1週間の結果を観察したところ発生していません)

図2に示すように、転写用/グラフサービス混合布

  • オープン転送/グラフ別々に展開(緩やかな分割の国際化プロセス)

図3に示すように、コードグラフカーディング、不合理図曲のデータ構造を変更するシステムのオーバーヘッドを減らします。

この記事ではまず、公共号「キビクラウド技術」に登場し、オリジナルを読むためにクリックしてください


ます。https://juejin.im/post/5cecd1256fb9a07f0c46620eで再現

おすすめ

転載: blog.csdn.net/weixin_34114823/article/details/91472442