Apache Hadoopデプロイメント(4):Hive / Hbase / Storm / Spark / Flink構成

目次

ハイブ構成

構成

起動と検証

問題

HBase構成

構成

起動と検証

問題

ストーム構成

構成

起動と検証

スパーク(糸上)構成

構成

起動と検証

問題

フリンク(糸上)構成

構成

起動と検証

総括する


ハイブ構成

Hiveは、Hadoopに基づくデータウェアハウスツールであり、Hadoopファイルに保存されているデータセットのデータの並べ替え、特別なクエリ、分析処理に使用できます。Hiveは、リレーショナルデータベースのSQL言語に類似したクエリ言語であるHive QLを提供するため、学習しきい値が低くなります。HiveQLステートメントを介して簡単なMR統計をすばやく実装できます。Hive自体は、HiveQLステートメントを操作用のMRタスクに自動的に変換できます。 MR。api開発を実装する必要があるため、データウェアハウスの統計分析に非常に適しています。

Hiveの展開には、シングルユーザー、マルチユーザー、リモートサーバーモードの3つの展開モードがあります。シングルユーザーモードは、一般的にユニットテストに使用されるインメモリデータベースダービーに接続されます。マルチユーザーモードは、ネットワークを介してデータベースに接続される最も一般的に使用される展開モードであり、データベースは通常、メタストアメタデータを格納するためにMySQLを選択します。リモートサーバーモードつまり、メタストアメタデータはリモートサーバー上のデータベースに保存され、クライアントはThriftプロトコルを介してMetastoreServerデータベースにアクセスします。

デプロイメントは2つの部分に分かれています。最初にmysqlをインストールしてユーザーとデータベースを作成し、次にHiveを構成します。

構成

M YSQL部分

1. Mysqlの公式Webサイト5.6.33(64ビットLinuxユニバーサルバージョン)からtarパッケージをダウンロードしますダウンロードアドレスは次のとおりです。https://dev.mysql.com/downloads/mysql/5.6.html#downloads ;インストールパス/ usr / local / unzipの下で、名前をmysqlに変更します。

注:getconfLONG_BITはシステムビットを取得します

2.新しいmysqlユーザー(グループmysql)を作成し、インストールパス/ usr / local / mysqlの所有者とグループをmysqlに変更し、新しいデータパス/ var / lib / mysqlと/ var / lib / mysql / dataを作成します。変更ファイルの所有者とグループはmysqlになります。

groupadd mysql
useradd -r -g mysql mysql
mkdir –p /var/lib/mysql/data
chown -R mysql:mysql /usr/local/mysql
chown -R mysql:mysql /var/lib/mysql

3.データベースをインストールし、パラメータを転送します:データディレクトリとインストールディレクトリ。

sudo ./scripts/mysql_install_db --basedir=/usr/local/mysql --datadir=/var/lib/mysql/data --user=mysql

4.起動スクリプトと構成ファイルの変更:

./support-files/mysql.serverおよびmy.cnf;前者は起動時に実行されるスクリプトであり、後者は起動時に読み取られるmysql構成です。調整が行われない場合、デフォルトのbasedirは/ usr / local / mysqlです。 、Datadirは/ var / lib / mysql / dataです。これらの2つのパラメーターを変更する場合は、多くの構成を変更する必要があります。

Linuxは、MySQLサービスを開始するときにmy.cnfを順番に検索し、最初に/ etcディレクトリで見つけます。見つからない場合は、「$ basedir / my.cnf」を検索し、/にmy.cnfがあります。 Linuxオペレーティングシステムのetcディレクトリ。このファイルの名前を/etc/my.cnf.bakなどの別の名前に変更する必要があります。そうしないと、ファイルが正しい構成に干渉し、起動に失敗します。

sudo cp ./support-files/mysql.server/etc/init.d/mysqld
sudo chmod755/etc/init.d/mysqld
sudo cp./support-files/my-default.cnf/etc/my.cnf

//my.cnf構成ファイルのデータディレクトリとインストールディレクトリを変更します。

sudo vi/etc/init.d/mysqld
basedir=/usr/local/mysql/
datadir=/usr/local/mysql/data/mysql

5.サービスを開始します

sudo service mysqld start

// mysqlサービスを閉じます

sudo service mysqld stop

#mysqlサービスの実行ステータスを表示する

sudo service mysqld status
  1. 環境変数を設定し、接続をテストし、ログイン権限を構成します。
#设置环境变量
export MYSQL=/usr/local/mysql
export PATH=${MYSQL}/bin:${PATH}
#赋权所有库下的所有表在任何IP地址或主机都可以被root用户连接
grant all privileges on *.* to 'root'@'%' identified by 'root' with grant option;
flush privileges;
#修改root用户的登录密码(须停服务,完成后重启)
UPDATE user SET Password=PASSWORD(‘123456’) where USER=’root’;  
flush privileges;

7.ハイブライブラリとハイブユーザーを作成して、ハイブウェアハウスのメタデータ情報を保存し、ハイブユーザーに権限を与えます。

create database hive character set latin1;
create user hive;

テーブルmysql.userの下のハイブユーザーの認証操作(省略)

flush privileges;

ハイブ部分

HiveのデフォルトのメタデータはDerbyに保存されます。ここで、メタデータデータベースをmysqlに変更するには、mysqlドライバー、アドレス:https//dev.mysql.com/downloads/file/?id = 480090をダウンロードし、コピーする必要があります。 / libファイルをハイブするドライバー。

Hiveによって読み取られる構成ファイル:hive-default.xmlおよびhive-site.xml。前者のデフォルト構成項目を多数変更する必要はなく、後者の構成情報によって前者が上書きされる可能性があります。を参照してください。公式ウェブサイトへ:スタートガイド;

1.hdfsに新しいハイブメタデータパスを作成します 

 $HADOOP_HOME/bin/hadoop fs –mkdir /tmp
 $HADOOP_HOME/bin/hadoop fs –mkdir /user/hive/warehouse
 $HADOOP_HOME/bin/hadoop fs -chmod g+w   /tmp
 $HADOOP_HOME/bin/hadoop fs -chmod g+w   /user/hive/warehouse

2.次のようにhive-site.xml構成ファイルを作成および変更します(構成内のメタデータを読み書きするmysqlユーザーはrootであり、アクセス許可が高すぎるため、最適化する必要があります)。

cp hive-default.xml.template hive-site.xml

// hive-site.xmlの詳細な構成:

<configuration>
  <property>
      <name>hive.metastore.local</name>
      <value>true</value>
   </property>
   <property>
      <name>javax.jdo.option.ConnectionUserName</name>
      <value>root</value>
  </property>
  <property>
      <name>javax.jdo.option.ConnectionPassword</name>
      <value>123456</value>
  </property>
  <property>
      <name>javax.jdo.option.ConnectionURL</name>
      <value>jdbc:mysql://172.19.52.155:3306/hive</value>
  </property>
  <property>
      <name>javax.jdo.option.ConnectionDriverName</name>
      <value>com.mysql.jdbc.Driver</value>
  </property>
</configuration>

3.ハイブメタデータベースを初期化し、mysql設定が成功したかどうかを確認します(成功後、ハイブライブラリの下のテーブルに多くのハイブメタデータテーブルがあります)。

schematool -dbType mysql -initSchema

起動と検証

上記の構成が完了したら、hiveコマンドを使用してhiveサービスを直接開始し、テーブルをテストおよびビルドします。

// hdfsには対応するフォルダーがあり、構成が成功したことを示します。

問題

1. mysqlを構成して正常に起動しますが、mysql.userテーブルのログインユーザー構成情報を変更した後、再起動して、localhostホストのrootユーザーがmysqlシステムライブラリ(mysqlライブラリ)を読み取れないことを確認します。解決策:をオフにします。 mysqlは、datadirを処理して削除します。のデータディレクトリの後で、再初期化します。

2. mysqlライブラリを構成する際のログイン許可の問題は、ユーザーとログインホストに権限を与えます。

HBase構成

Hbaseは、信頼性が高く、パフォーマンスが高く、列指向のスケーラブルな分散データベースであり、主に非構造化および半構造化のルーズデータを格納するために使用されます。Hbaseは、超大規模なデータストレージをサポートでき、安価なハードウェアクラスターを使用して、10億を超える要素と数百万の要素の列で構成されるデータセットを水平方向に拡張して処理できます。

構成

構成リファレンスの公式Webサイト:構成の例。3つの構成ファイルを変更する必要があります。hbase-env.shとhbase-site.xmlおよびregionserverファイル。

1. hbase-env.shはJAVA_HOME、HBASE_CLASSPATH、BASE_MANAGES_ZKを変更します。個別にインストールされたzkを使用する場合は、HBASE_MANAGES_ZKをfalseに変更し、以前にデプロイされたzkをここで再利用します。

export JAVA_HOME=/home/stream/jdk1.8.0_144
export HBASE_CLASSPATH=/home/stream/hbase/conf
export HBASE_MANAGES_ZK=false

2.hbase-site.xmlファイルでzkアドレスとその他の構成を設定します。

<configuration>
  <property>
    <name>hbase.zookeeper.quorum</name>
    <value>172.19.72.155,172.19.72.156,172.19.72.157</value>
  </property>
  <property>
    <name>hbase.zookeeper.property.dataDir</name>
    <value>/home/stream/zk/zookeeper/dataDir</value>
  </property>
  <property>
    <name>hbase.rootdir</name>
    <value>hdfs://172.19.72.155/hbase</value>
  </property>
  <property>
    <name>hbase.cluster.distributed</name>
    <value>true</value>
  </property>
    <property>
    <name>hbase.tmp.dir</name>
    <value>/home/stream/hbase/temp</value>
  </property>
</configuration>

3. regionserverファイルを変更し、regionserverホストを追加します。

172.19.72.156
172.19.72.157
172.19.72.158
172.19.72.159

起動と検証

binディレクトリで./start-hbase.shスクリプトを実行してHmasterプロセスを表示し、hbaseシェルコマンドを使用してhbaseコマンドラインを開始してテーブルを作成し、テストします。

zkCli.shを使用してzkと入力し、hbaseによって登録されたノード情報を表示できます。

問題

1.起動エラー:java.lang.ClassNotFoundException:org.apache.htrace.SamplerBuilder

解決策:cp $ HBASE_HOME / lib / client-faceing-thirdparty / htrace-core-3.1.0-incubating.jar $ HBASE_HOME / lib /

2、启PIN报错:「hbase.procedure.store.wal.use.hsync」の構成値をチェックして、必要なレベルの堅牢性を設定し、「hbase.wal.dir」の構成値が次のファイルシステムマウントを指していることを確認してくださいそれを提供することができます。

解決策:hbase-site.xmlに構成を追加します。

<property>
<name>hbase.unsafe.stream.capability.enforce</name>
<value>false</value>
</property>

ストーム構成

Stromは、分散型の高可用性リアルタイムコンピューティングフレームワークです。Zookeeperは、NimbusノードとSuperviorノード間の通信を担当し、各ノードのステータスを監視します。タスクはNimbusノードで送信されます。Nimbusノードはzkクラスターを介してタスクを分散し、スーパーバイザーはタスクが実際に実行される場所です。

Nimbusノードは、zkクラスターを介して各スーパーバイザーノードのステータスを監視します。スーパーバイザーノードに障害が発生すると、Nimbusはそのスーパーバイザーノード上のタスクを他のスーパーバイザーノードに再配布して、zkクラスターを介して実行します。

Nimbusノードに障害が発生した場合、タスク全体は停止しませんが、タスクの管理に影響します。この場合、Nimbusノードを復元するだけで済みます。

Nimbusノードは高可用性をサポートしていません。これは現在Stormが直面している問題でもあります。一般に、Nimbusノードはプレッシャーを受けておらず、通常は問題は発生しません。

構成

/ home / streamディレクトリに直接解凍します。/home/stream/apache-storm-0.9.5/conf/storm.yamlを構成する必要があります。一般的な構成項目と値は次のとおりです。

//配置zk的地址和端口和storm存放在zookeeper里目录
storm.zookeeper.server: 
 -  “192.168.159.145”
 -  “192.168.159.144”
 -  “192.168.159.143”
storm.zookeeper.port: 21810
storm.zookeeper.root: /storm_new10
//storm主节点的地址 web页面的端口
nimbus.host: “192.168.159.145”
ui.port: 8989
//每个worker使用的内存
worker.heap.memory.mb: 512
storm.local.dir: "/home/zyzx/apache-storm-0.9.5/data"
//配置工作节点上的进程端口。你配置一个端口,意味着工作节点上启动一个worker,在实际的生产环境中,我们需要根据实际的物理配置以及每个节点上的负载情况来配置这个端口的数量。在这里每个节点我象征性的配置5个端口。
supervisor.slots.ports:
- 6700
- 6701 
- 6702 
- 6703
- 6700
nimbus.thrift.max_buffer_size: 204876
worker.childopts: “-Xmx1024m”

起動と検証

制御ノードはニンバスとストームUIを開始し、他のノードはスーパーバイザーノードを開始し、JPSを介してプロセスを表示し、マスターノードはニンバスプロセスを開始し、ワーカーノードはスーパーバイザープロセスを開始します。

nohup storm ui &
nohup storm nimbus &
nohup storm supervisor &

Stormの構成ファイルstorm.yamlには、フォーマット仕様に対する高い要件があります。余分なスペースがあると、構成の読み取りに失敗する可能性があります。すべてのノードを起動した後、zookeeperのzkCliクライアントのルートディレクトリで、嵐の下で生き残っているスーパーバイザーノードの数を確認できます。起動が成功したかどうかを確認します。

〜/ storm / binの下で./stormlistコマンドを実行して、クラスターに送信されたトポロジを一覧表示します。

スパーク(糸上)構成

Sparkは簡潔でエレガントなScala言語で記述されており、Scalaに基づくインタラクティブなプログラミング体験を提供し、さまざまな便利で使いやすいAPIを提供します。Sparkは「ソフトウェアスタックがさまざまなアプリケーションシナリオに対応する」という設計コンセプトに従い、徐々に完全なエコシステムを形成しています(Sparkはメモリコンピューティングフレームワーク、SQLアドホッククエリ(Spark SQL)、ストリーミングコンピューティング(Sparkストリーミング)、マシンラーニング( MLlib)、グラフコンピューティング(グラフX)など)、Sparkをyarnリソースマネージャーにデプロイして、バッチ処理、ストリーム処理、インタラクティブクエリをサポートしながら、ワンストップのビッグデータソリューションを提供できます。

MapReduceコンピューティングモデルはレイテンシーが高く、リアルタイムで高速なコンピューティングのニーズを満たすことができないため、オフラインシナリオにのみ適しています。SparkはMapReduceコンピューティングモデルを利用しますが、次の利点があります。

  • Sparkはより多くのタイプのデータセット操作を提供し、そのプログラミングモデルはMapReduceよりも柔軟性があります。
  • Sparkはメモリ内計算を提供し、計算結果をメモリに直接配置します。これにより、反復計算のIOオーバーヘッドが削減され、計算効率が向上します。
  • SparkはDAGベースのタスクスケジューリング実行メカニズムであり、反復でより効率的です。

実際の開発では、MapReduceは多くの低レベルのコードを記述する必要がありますが、これは十分に効率的ではありません。Sparkは、同じ機能でアプリケーションを実装するためのさまざまな高レベルで簡潔なAPIを提供し、実装コードの量ははるかに少なくなります。 MapReduceより。

コンピューティングフレームワークとして、SparkはHadoopエコシステムのMapReduceコンピューティングフレームワークに取って代わるだけです。データの分散ストレージを実装するにはHDFSが必要です。Hadoopの他のコンポーネントは、エンタープライズビッグデータシステムで依然として重要な役割を果たします。

ヤーンモードでのSpark構成は、ごくわずかな構成を変更するだけでよく、start spark clusterコマンドを使用しません。タスクを送信する必要がある場合は、ヤーンでタスクを指定する必要があります。

構成

Sparkを実行するにはScala言語が必要です。ScalaとSparkをダウンロードしてホームディレクトリに解凍し、現在のユーザーの環境変数(〜/ .bash_profile)を設定し、SCALA_HOMEパスとSPARK_HOMEパスを増やしてすぐに有効にする必要があります。scalaコマンドを開始し、成功したかどうかを確認するspark-shellコマンド。Sparkの構成ファイルの変更がパイプネットワークのチュートリアルに従って理解しにくい場合は、ブログとここで完了した構成のデバッグを参照してください。

Sparkは、spark-env.shとspark-default.confの2つの構成ファイルを変更する必要があります。前者はHadoop hdfsとyarn構成ファイルのパスとSpark.master.hostアドレスを指定する必要があり、後者はjarパッケージを指定する必要があります。住所;

spark-env.sh構成ファイルは次のように変更されます。

export JAVA_HOME=/home/stream/jdk1.8.0_144
export SCALA_HOME=/home/stream/scala-2.11.12
export HADOOP_HOME=/home/stream/hadoop-3.0.3
export HADOOP_CONF_DIR=/home/stream/hadoop-3.0.3/etc/hadoop
export YARN_CONF_DIR=/home/stream/hadoop-3.0.3/etc/hadoop
export SPARK_MASTER_HOST=172.19.72.155
export SPARK_LOCAL_IP=172.19.72.155

spark-default.conf構成は次のように変更されます。

// jarパッケージのアドレスを増やします。

spark.yarn.jars=hdfs://172.19.72.155/spark_jars/*

この設定は、jarアドレスがhdfsで定義されていることを示し、〜/ spark / jarsパスの下のすべてのjarパッケージは、hdfsの/ spark_jars /パス(hadoop hdfs -put〜 / spark / jars / *)にアップロードする必要があります。エラーが報告されますコンパイルされたjarパッケージエラーが見つかりません。

起動と検証

./spark-shellをパラメーターなしで直接起動すると、ローカルモードで実行されます。

./spark-shell –masterヤーンを開始し、ヤーンが正常に構成されて使用可能である場合は、ヤーンモードで実行します。

hdfsファイルシステムにファイルREADME.mdを作成し、RDDに読み込みます。RDDに付属のパラメーター変換を使用します。RDDのデフォルトは、次の値を持つ各行です。

./spark-shell --masteryarnを使用してsparkを開始し、次のコマンドを実行します:val textFile = sc.textFile( "README.md")を使用してhdfsのREADME.mdファイルをRDDに読み取り、組み込み関数を使用します次のようにテストし、スパークオンヤーン構成が成功したことを示します。

問題

Spark-Shellを起動すると、Yarn-site.xmlで構成されている最大割り当てメモリが不十分であるというエラーが報告されます。この値を2048Mに増やすと、Yarnを再起動して有効にする必要があります。

設定されたhdfsアドレスが競合しています。hdfs構成ファイルのhdfs-site.xml設定にはポートがありませんが、spark-default.confのspark.yarn.jars値にポートがあります。spark-defaultの構成アドレスを変更してください。 .confは以前のConsistentと同じになります:

フリンク(糸上)構成

Flinkは、ストリーミングデータとバッチデータ用の分散メモリコンピューティングフレームワークです。設計アイデアは、主にHadoop、MPPデータベース、ストリーミングコンピューティングシステムなどから派生しています。Finkは主にJavaコードによって実装され、主にオープンソースコミュニティの貢献によって開発されています。Flinkが処理する主なシナリオはストリーミングデータです。デフォルトでは、すべてのタスクがストリーミングデータとして処理されます。バッチデータは、ローカルの高速反復と一部のループ反復タスクをサポートするストリーミングデータの特殊なケースにすぎません。

Flinkは、階層システムの形でソフトウェアスタックを構築します。異なるレイヤーのスタックは、その下位レイヤーに基づいて構築されます。その特徴は次のとおりです。

  • ストリーム処理用のDataStreamingAPIとバッチ処理用のDataSetAPIを提供します。DataSet APIはJava、Scala、Pyhtonをサポートし、DataStreamingAPIはJavaとScalaをサポートします。
  • ローカルモード(ローカル)、クラスターモード(クラスター)、クラウドモード(クラウド)、クラスター用、スタンドアロンモード(スタンドアロン)、またはヤーンを採用できるなど、さまざまな候補展開ソリューションを提供します。
  • ヤーンをサポートするだけでなく、HDFSやHbaseなどのデータソースもサポートすることで、Hadoopの互換性が向上します。

Flinkは増分反復をサポートし、自己最適化反復の機能を備えているため、yarnで送信されたタスクのパフォーマンスはSparkよりもわずかに優れています。Flinkはデータを1行ずつ処理します。SparkはRDDベースの小さなバッチ処理であるため、Sparkは必然的にストリーミングデータ処理の遅延を増加させ、リアルタイムパフォーマンスはFlinkほど良くありません。FlinkとStormはミリ秒レベルのコンピューティング応答をサポートできますが、Sparkは第2レベルの応答のみをサポートできます。Sparkの市場への影響とコミュニティの活動はFlinkよりも大幅に強力であり、Flinkの開発スペースがある程度制限されます。

構成

解凍し、binディレクトリに入り、。/ yarn-session.sh –helpを実行して、yarnが正常に構成されているかどうかを確認するためのヘルプを表示します。

Flinkは、yarnでタスクを送信する2つの方法を提供します。実行中のYARNセッションを開始する(分離モード)と、YARNでFlinkタスクを実行する(クライアントモード)。Flinkは構成conf / flink-conf.yamlを変更するだけで済みます。詳細なパラメーターについては、公式ウェブサイトを参照してください:

一般構成:構成、HA構成:高可用性(HA) 

// YARNとHDFSの構成を見つけるには、conf /flink-conf.yamlでfs.hdfs.hadoopconfパラメーターを設定する必要があります。

//ヤーンモードでは、jobmanager.rpc.addressを指定する必要はありません。これは、jobManagerとして使用されるコンテナーがFlink構成ではなく、Yarnによって決定されるためです。taskmanager.tmp.dirsも指定する必要はありません。パラメータは、yarnのtmpパラメータ(デフォルト)で指定されます。つまり、/ tmpディレクトリに、ResourceManagerにアップロードするためにいくつかのjarファイルまたはlibファイルを保存します。ヤーンを開始するとき、各タスクマネージャーのスロット数は-sで指定されるため、Parrallelism.defaultを指定する必要はありません。

// resourcemanager接続の再試行回数が4回、デフォルトが2回になるように、yarn-site.xml構成のyarn.resourcemanager.am.max-attemptsを変更する必要があります。同時に、yarnを追加します。 .application- in flink-conf.yaml試行:4;

// flink-on-yarnクラスターHAはYarn独自のクラスターメカニズムに依存していますが、Flink Jobは復元時にチェックポイントによって生成されたスナップショットに依存しています。これらのスナップショットはhdfsで構成されますが、メタデータ情報はzookeeperに保存されるため、引き続き構成します。 zookeeperのHA情報。recovery.zookeeper.path.namespaceは、YarnでFlinkを開始するときに-zパラメーターでオーバーライドすることもできます。

flink-conf.yamlの完全な構成は次のとおりです。

# The RPC port where the JobManager is reachable.
jobmanager.rpc.port: 6123
# The heap size for the JobManager JVM
jobmanager.heap.size: 1024m
# The heap size for the TaskManager JVM
taskmanager.heap.size: 1024m
# The number of task slots that each TaskManager offers. Each slot runs one parallel pipeline.
taskmanager.numberOfTaskSlots: 1
# The parallelism used for programs that did not specify and other parallelism.
parallelism.default: 1
# env
HADOOP_CONF_DIR:/home/stream/hadoop-3.0.3/etc/hadoop
YARN_CONF_DIR:/home/stream/hadoop-3.0.3/etc/hadoop
# Fault tolerance and checkpointing
state.backend:filesystem
state.checkpoints.dir:hdfs://172.19.72.155/yzg/flink-checkpoints
state.savepoints.dir:hdfs://172.19.72.155/yzg/flink-checkpoints
# hdfs
#The absolute path to the Hadoop File System’s (HDFS) configuration directory 
fs.hdfs.hadoopconf:/home/stream/hadoop-3.0.3/etc/hadoop
#The absolute path of Hadoop’s own configuration file “hdfs-site.xml” (DEFAULT: null).
fs.hdfs.hdfssite:/home/stream/hadoop-3.0.3/etc/hadoop/hdfs-site.xml
#HA
high-availability: zookeeper
high-availability.zookeeper.quorum: 172.19.72.155:2181,172.19.72.156:2181,172.19.72.157:2181
high-availability.storageDir: hdfs:///yzg/flink/recovery
high-availability.zookeeper.path.root: /flink
yarn.application-attempts: 4

HAモードでは、zkを構成し、confでzoo.cfgを変更する必要があります。zoo.cfgの構成は次のとおりです。

dataDir=/home/stream/zk/zookeeper/logs
# The port at which the clients will connect
clientPort=2181
# ZooKeeper quorum peers
server.1=172.19.72.155:2888:3888
server.1=172.19.72.156:2888:3888
server.1=172.19.72.157:2888:3888

起動と検証

別のモードを使用してFlinkYarn Sessionを開始します。送信後、yarnアプリケーションがyarnに正常に送信されたことを示すプロンプトが表示され、IDが返されます。yarnapplication-killapplication_idを使用して、yarnで送信されたタスクを停止します。

yarn-session.sh -n 3 -jm 700 -tm 700 -s 8 -nm FlinkOnYarnSession -d –st

組み込みの単語頻度統計のユースケースを直接送信して、オンヤーンモードが正常に構成されているかどうかを確認できます。

~/bin/flink run -m yarn-cluster -yn 4 -yjm 2048 -ytm 2048 ~/flink/examples/batch/WordCount.jar

総括する

上記は基本的にビッグデータプラットフォーム(バッチとストリームを含む)の基本的なコンポーネントの展開を完了します。要約すると、Apache Hadoopに基づく一括展開はより面倒であり、コンポーネントを自分で適応させる必要があり、コンポーネントの構成はより面倒であり、現在完成しているコンポーネントは次のとおりです(スパークとフリンクインヤーンモードにはプロセスがありません):

おすすめ

転載: blog.csdn.net/yezonggang/article/details/106916047