この記事は、シリーズの「Flink on Yarn Trilogy」の2番目です。前の記事「Flink on Yarn Trilogy:Preparation」では、必要なマシンとファイルを準備しており、 CDHとFlinkをデプロイできます。
全文リンク
- 「Flink on Yarn Trilogy One:Preparation」
- 「
糸三部作の第2部:展開とセットアップ
」 - 「Flink on Yarn Trilogy Part Three:Submit Flink Tasks」
ansibleスクリプトを実行してCDHとFlink(ansibleコンピューター)をデプロイする
- ansibleコンピューターの〜/ playbooks ディレクトリーを入力します。前の記事の準備が完了すると、ディレクトリーは次の内容になります。
- CDHサーバーのansibleリモート操作が正常かどうかを確認しますansible deskmini -a "free -m"コマンドを実行して、以下に示すように、通常の状態でCDHサーバーのメモリ情報を表示します。
- コマンドを実行してデプロイを開始します:ansible-playbook cm6-cdh5-flink1.7-single-install.yml
- デプロイメントプロセス全体には、オンラインインストールやファイル転送などの時間のかかる操作が含まれるため、しばらくお待ちください(約30分)。デプロイメント中にエラー(ネットワークの問題など)で終了した場合は、上記のコマンドを繰り返すだけで操作を保証できます。べき等性;
- 成功した展開を以下に示します。
CDHサーバーを再起動します。
selinuxとswapの設定が変更されているため、有効にするにはオペレーティングシステムを再起動する必要があります。CDHサーバーを再起動してください。
ansibleスクリプトを実行してCDHサービスを開始します(ansibleコンピューター)
- CDHサーバーが正常に再起動するまで待ちます。
- ansibleコンピューターにログインし、〜/ playbooksディレクトリーに入ります。
- スクリプトを実行してデータベースを初期化し、CDHを開始します。ansible-playbook cdh-single-start.yml
- 起動が完了すると、以下の情報が出力されます。
- sshを使用してCDHサーバーにログインし、次のコマンドを実行してCDHサービスの開始を監視します。tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log、以下の赤いボックスにコンテンツが表示されている場合、開始されていることを意味します完了したら、ブラウザでログインできます。
設定(ブラウザ操作)
CDHサービスが開始されたので、ブラウザーから操作できます。
- ブラウザアクセス:http://192.168.50.134:7180、以下に示すように、アカウントのパスワードはadminです:
- 次のすべての方法で、バージョンの選択ページで60日間の試用版を選択します。
- ホストページを選択して、CDHサーバー(deskmini)を表示します。
- CDHバージョンを選択するページで、下の赤いボックスで5.16.2-1を選択してください。
- Parcelがインストールされているページに移動します。事前にオフラインparcleパッケージがアップロードされているため、ダウンロードの進捗は瞬時に100%になります。この時点で、配布、解凍、アクティベーションが完了するまでお待ちください。
- 次に、推奨される操作をいくつか示します。ここでは、次のように赤いボックスをスキップできます。
- 次はサービスを選択するページです。カスタムサービスを選択してから、FFSを実行するニーズを満たすことができるHDFS、YARN、Zookeeperの 3つの項目を選択しました。
- ホスト選択ページで、CDHサーバーを選択します。
- 次はデータベース設定ページです。入力する内容は次の図と一致している必要があります。つまり、ホスト名はlocalhost、アクティビティモニターのデータベース、ユーザー、およびパスワードはすべてamonであり、Reports Managerのデータベース、ユーザー、およびパスワードはすべてrmanです。内容はansibleスクリプトで修正されており、ここでの入力は一貫している必要があります。
- パラメータ設定ページは、ハードディスクの実情に合わせて設定してください/ホームディレクトリの下に十分なスペースがあるので、保存場所を/ホームディレクトリに変更します:
- サービスが開始するのを待ちます:
- 各サービスの開始が完了しました:
YARN設定
デフォルトのYARNパラメータは非常に保守的であり、Flinkタスクを正常に実行するには、いくつかの設定を行う必要があります。
- 下の赤いボックスをクリックして、YARN管理ページに入ります。
- 次の図に示すように、パラメータyarn.nodemanager.resource.cpu-vcoresの値を確認します。値は1より大きくなければなりません。そうでない場合、YARNはFlinkタスクの送信後にタスクを実行するためのリソースを割り当てません(CDHサーバーが仮想マシンの場合、CPUのみがシングルコアの場合、このパラメーターは1に設定されます。解決策は、仮想マシンのCPUコアの数を増やしてから、このパラメーターを変更することです)。
- yarn.scheduler.minimum-allocation-mb:単一のコンテナーに適用できる最小メモリ、1Gに設定
- 糸.scheduler.maximum-allocation-mb:単一のコンテナに適用できる最大メモリ、8Gに設定しました
- yarn.nodemanager.resource.memory-mb:ノードの最大利用可能メモリ、8Gに設定しました
- 上記の3つのパラメータの値は、32Gメモリを搭載した私のCDHサーバーの背景に基づいています。ご使用のハードウェアリソースに応じて調整してください。
- 設定後、YARNサービスを再起動すると、操作は下図のようになります:
この時点で、展開と設定が完了し、Flink on Yarn環境が利用可能になっています。次の記事では、この環境でFlinkタスクを送信してFlink on Yarnを体験します;