この記事は、一連の「CDH + Kylin Trilogy」の2番目であり、前の記事「CDH + Kylin Trilogy:準備」では、必要なマシンとドキュメントを準備しており、CDHとKylinをデプロイできます。
ansibleスクリプトを実行してCDHとKylin(ansibleコンピューター)をデプロイする
- ansibleコンピューターの〜/ playbooks ディレクトリーを入力します。前の記事の準備が完了すると、ディレクトリーは次の内容になります。
- CDHサーバーのansibleリモート操作が正常かどうかを確認しますansible deskmini -a "free -m"コマンドを実行して、以下に示すように、通常の状態でCDHサーバーのメモリ情報を表示します。
- コマンドを実行してデプロイを開始します:ansible-playbook cm6-cdh5-kylin264-single-install.yml
- 展開プロセス全体には、オンラインインストールや大きなファイルの送信など、時間のかかる操作が含まれます。しばらくお待ちください(約30分)。展開中にエラー(ネットワークの問題など)で終了した場合は、上記のコマンドを繰り返すだけで、操作は保証されますべき等性;
- 成功した展開を以下に示します。
CDHサーバーを再起動します。
selinuxとswapの設定が変更されているため、有効にするにはオペレーティングシステムを再起動する必要があります。CDHサーバーを再起動してください。
ansibleスクリプトを実行してCDHサービスを開始します(ansibleコンピューター)
- CDHサーバーが正常に再起動するまで待ちます。
- ansibleコンピューターにログインし、〜/ playbooksディレクトリーに入ります。
- スクリプトを実行してデータベースを初期化し、CDHを開始します。ansible-playbook cdh-single-start.yml
- 起動が完了すると、以下の情報が出力されます。
- sshを使用してCDHサーバーにログインし、次のコマンドを実行してCDHサービスの開始を監視します。tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log、以下の赤いボックスにコンテンツが表示されている場合、開始されていることを意味します完了したら、ブラウザでログインできます。
設定(ブラウザ操作)
CDHサービスが開始されたので、ブラウザーから操作できます。
- ブラウザアクセス:http://192.168.50.134:7180、以下に示すように、アカウントのパスワードはadminです:
- 次のすべての方法で、バージョンの選択ページで60日間の試用版を選択します。
- ホストページを選択して、CDHサーバー(deskmini)を表示します。
- CDHバージョンを選択するページで、下の赤いボックスで5.16.2-1を選択してください。
- Parcelがインストールされているページに移動します。事前にオフラインparcleパッケージがアップロードされているため、ダウンロードの進捗は瞬時に100%になります。この時点で、配布、解凍、アクティベーションが完了するまでお待ちください。
- 次に、推奨される操作をいくつか示します。ここでは、次のように赤いボックスをスキップできます。
- 次はサービスを選択するページです。カスタムサービスを選択し、HBase、HDFS、Hive、Hue、Oozie、Spark、YARN、Zookeeperを選択しました。これらは、Kylinを実行するニーズを満たすことができます。
- ホスト選択ページで、CDHサーバーを選択します。
- 次のページでは、データベースの設定で、以下の図と一致している必要がありますが、内容を記入することを、ホスト名はlocalhostです、ハイブデータベース、ユーザー、パスワードハイブ、アクティビティモニタデータベース、ユーザー、パスワードはアモン、レポートマネージャーされていますデータベース、ユーザー、およびパスワードはすべてrman、Oozieサーバーのデータベース、ユーザー、およびパスワードはすべてoozie、Hueのデータベース、ユーザー、およびパスワードはすべてhueです。これらの内容はansibleスクリプトで修正されており、ここでの入力は一貫している必要があります:
- パラメータ設定ページは、ハードディスクの実情に合わせて設定してください/ホームディレクトリの下に十分なスペースがあるので、保存場所を/ホームディレクトリに変更します:
- サービスが開始するのを待ちます:
- 各サービスの開始が完了しました:
HDFS設定
- 下の赤いボックスに示すように、HDFSサービスに問題があります。
- 上の画像の赤い感嘆符をクリックして、問題の詳細を確認してください。次の画像は、一般的なコピーの問題です。
- 操作は下図のようになりますHDFSのパラメーター設定ページで、dfs.replicationの値を1 に設定します(データノードは1つのみ)。
- 上記の設定の後、コピーの数は1に調整されましたが、既存のファイルのコピーの数は同期されていません。CDHサーバーへのSSHログインを再設定する必要があります。
- コマンドsu-hdfsを実行してhdfsアカウントに切り替え、次のコマンドを実行してコピー数の設定を完了します。
hadoop fs -setrep -R 1 /
- 以下に示すように、Webページに戻り、HDFSサービスを再起動します。
- 再起動後、HDFSサービスは正常です。
YARN設定
デフォルトのYARNパラメータは非常に保守的であり、Sparkタスクを正常に実行するには、いくつかの設定を行う必要があります。
- YARN管理ページに入ります。
- 次の図に示すように、パラメータyarn.nodemanager.resource.cpu-vcoresの値を確認します。値は1より大きくなければなりません。そうでない場合、YARNはSparkタスクを送信した後、タスクを実行するためのリソースを割り当てません(CDHサーバーが仮想マシンの場合、CPUがシングルコアの場合、このパラメーターは1に設定されます。解決策は、仮想マシンのCPUコアの数を増やし、このパラメーターを変更することです)。
- yarn.scheduler.minimum-allocation-mb:単一のコンテナーに適用できる最小メモリ、1Gに設定
- 糸.scheduler.maximum-allocation-mb:単一のコンテナに適用できる最大メモリ、8Gに設定しました
- yarn.nodemanager.resource.memory-mb:ノードの最大利用可能メモリ、8Gに設定しました
- 上記の3つのパラメータの値は、32Gメモリを搭載した私のCDHサーバーの背景に基づいています。ご使用のハードウェアリソースに応じて調整してください。
- 設定後、YARNサービスを再起動すると、下図のように動作します。
Sparkの設定(CDHサーバー)
Spark環境でディレクトリと関連するjarを準備する必要があります。そうしないと、Kylinがエラーで開始し(プロンプトsparkが見つからない、SPARK_HOMEを設定する、またはbin / download-spark.shを実行する)、CDHサーバーにrootとしてSSHでログインし、次のコマンドを実行します。
mkdir $SPARK_HOME/jars \
&& cp $SPARK_HOME/assembly/lib/*.jar $SPARK_HOME/jars/ \
&& chmod -R 777 $SPARK_HOME/jars
Kylin(CDHサーバー)を起動します。
- SSH 経由でCDHサーバーにログインし、su-hdfsを実行してhdfsアカウントに切り替えます。
- 公式の推奨事項に従って、最初にコマンドを実行して環境を確認します。$ KYLIN_HOME / bin / check-env.sh
- チェックに合格した場合、コンソール出力は次のようになります。
- 启动キリン:$ KYLIN_HOME / bin / kylin.sh start
- コンソールは、Kylinが正常に開始されたことを示す次のコンテンツを出力します。
Kylinにログイン
- ブラウザアクセス:http://192.168.50.134:7070/kylin、以下に示すように、アカウントADMIN、パスワードKYLIN(アカウントとパスワードは大文字):
- ログインは成功し、使用できます。
これで、CDHとKylinの展開、セットアップ、起動が完了し、Kylinが利用可能になりました。次の記事では、この環境でKylinの公式デモを実行して、Kylinを体験します。