環境プロファイル
自己K8Sクラスタ、ホスト・オペレーティング・システムubuntu16.04、K8Sバージョンv1.14、クラスタネットワークソリューション更紗-3.3.6。
50+ワーカーノードは、例えばNvidiaのP4 / T4 / V100などGPU物理サーバ、異性のサーバタイプです。
異常
失敗の原因はK8Sは、マシン上の8 NICはeth0〜eth7のと、新しいクラスタノードマシンワーカーサーバー-N1を追加します
どこにeth0〜ETH3なしIPアドレス設定、ETH4〜eth7設定されたIPアドレス、デフォルトのETH4カードを使用しています。
サーバー-N1ノード上のスケジュールポッドは、インターネットにアクセスすることはできません。ポッド内の他のノードにノードをスケジュールすると、通常、インターネットにアクセスすることができます。
症状によると、当初設定の問題サーバ-N1サーバーとして識別。
調査プロセス
grepのサーバ-N1 | -oワイドKUBE-システム-nポッドを得るkubectl
私たちは1/2コンテナ実行中の例外にノードの更紗・ノードのステータスを発見しました
KUBE-システムキャラコノード-5txhs -nポッドを記述kubectl
スクリーンショット以下の主な例外情報
kubectlログ-n KUBE-システムキャラコノード-5txhs
キャラコノード発見コンポーネントは、自動的に代わりデフォルトETH4使用の、eth7にカードを検出しました。
これまでのところ、問題の原因をターゲットに。
ソリューション
eth5以来〜eth7実際のカードは、閉じたeth5〜eth7更紗・ノードがETH4を検出し、使用されていません。
/ etc / network / interfacesファイル内の1コメント冗長ネットワークカード
2.閉じるeth5〜eth7
ifconfigコマンドeth5ダウン
ifconfigコマンドeth6ダウン
ifconfigコマンドeth7ダウン
IP addrのフラッシュeth5
IP addrのフラッシュeth6
IP addrのフラッシュeth7
3.マシン上で再構築更紗・ノードを削除します
KUBE-システムキャラコノード-5txhs -nポッドを削除kubectl