問題のI.概要:
カフカの生産クラスタによる故障の物理的な原因に機械CDH-003を持ってハングアップ、およびスパークストリーミングオンラインリアルタイムタスクが消費、リアルタイムタスクが再起動しません正常でないことができるようにシステムを立ち上げ。-1ブローカーリーダー見つかっカフカトピック状態の条件を参照してください図のように、表示されます。
第二に、問題分析
失敗したときカフカブローカーリーダー-1は、このようにリアルタイムタスクのトピックに消費者を引き起こして、選挙のリーダーパーティションで表現除外はCDH-003マシンがちょうどブローカーIDが257でハングアップされた後、異常があらわれています。(ただし、192はリーダーとして選出されなかった理由、それ??)
第三に、解決策:カフカのメタデータを手動指定kakfaリーダーを変更します。
カフカのパーティションのステータス情報が飼育係に存在している、私の環境ディレクトリは/カフカ/ブローカー/トピック/、次の操作を行います。
1は、ビューのパーティションの状態のリーダーである-1
[ZK:はlocalhost:2181(CONNECTED)2] /カフカ/ブローカー/トピック/ mds001 /パーティション/ 1 /状態を取得します
{ "controller_epoch" 87、 "リーダー": - 1、 "バージョン":1、 "leader_epoch" 96、 "ISR":[257]}
図2に示すように、パーティションのリーダー192を変更することを余儀なく
[ZK:はlocalhost:2181(CONNECTED)3]を設定/カフカ/ブローカー/トピック/ mds001 /パーティション/ 1 /状態{ "controller_epoch":87、 "リーダー":192、 "バージョン":1、 "leader_epoch":96 、 "ISR":[192]}
変更が成功した参照するには3、
[ZK:はlocalhost:2181(CONNECTED)4] /カフカ/ブローカー/トピック/ mds001 /パーティション/ 1 /状態を取得します
{ "controller_epoch":87、 "リーダー":192、 "バージョン":1、 "leader_epoch" 96、 "ISR":[192]}
[ZK:はlocalhost:2181(CONNECTED)5]