インストールのStreamSets 025-ビッグデータのETLツールとサブスクリプションのMySQLのbinlog

これは、25の(翻訳を含む)テクニカルライティングプログラムを主張する小さなターゲット999、週2の最小値を設定しています。

本論文では、CDH6.2 + StreamSets3.9を説明しています。

StreamSetsは、大規模なデータ収集とデータ処理ツールです。あなたは、可視化、データパイプライン(パイプライン)の設計とスケジューリングをドラッグ&ドロップすることができます。その特徴は以下のとおりです。

  • ビジュアルインターフェースのドラッグアンドドロップ操作、速いです。
  • 共通のデータ処理(データ・ソース、データ操作、データ出力)のためのよりよいサポート。
  • 内蔵の監視、データストリームを観察することができます。

同様のオープンソース製品は、ApacheのNiFi  、オンラインNiFiの比較とのStreamSets  オープンソースETL:ApacheのNiFi VS Streamsets  (オンライン中国語版の翻訳版)

もっと国内の連絡先ETLツールとすることができる  データX  、  やかん  、Sqoopここでは単純な比較、あるデータ統合ケトル、sqoop、DATAX、streamSetsの比較は 

インストールStreamSets 3.9

インストールパッケージの小包をダウンロード

archives.streamsets.com/index.html  ダウンロード3.9


そして、例えば、紙centos7.6のためには、http wwwディレクトリでサーバーにアップロードします

wget -P /var/www/html/streamsets3.9.0/ https://archives.streamsets.com/datacollector/3.9.0/parcel/manifest.json
wget -P /var/www/html/streamsets3.9.0/ https://archives.streamsets.com/datacollector/3.9.0/parcel/STREAMSETS_DATACOLLECTOR-3.9.0-el7.parcel.sha
wget -P /var/www/html/streamsets3.9.0/ https://archives.streamsets.com/datacollector/3.9.0/parcel/STREAMSETS_DATACOLLECTOR-3.9.0-el7.parcel
复制代码

設定CSD

streamsets.com/opensource  ダウンロード

wget -P /opt/cloudera/csd/ https://archives.streamsets.com/datacollector/3.9.0/csd/STREAMSETS-3.9.0.jar
cd /opt/cloudera/csd/
sudo chown cloudera-scm:cloudera-scm STREAMSETS-3.9.0.jar && sudo chmod 644 STREAMSETS-3.9.0.jar
systemctl restart cloudera-scm-server
复制代码

小包の配布パッケージをダウンロードしてください





ダウンロードして起動しますが、私は実際にテストしたとき、SHA1SUMチェック失敗した結果として合計サイズ、4.6gの、実際のダウンロード後、5.2gの、レポート

Cmのホスト、 ls -lah /opt/cloudera/parcel-repo  

ダウンロード  archives.streamsets.com/datacollect ...  の下には/ opt / Clouderaの/小包-レポにコピー


あなたは何もありませんし、このページをダウンロードして、ハッシュエラーに報告し、直接交換後、またはプロンプトハッシュしようとした場合は、この時間の間に再びダウンロードする]をクリックし、それが配布になります。
次のように活性化した後、



作成されます

使用するのは簡単streamsets

オープンstreamsets、デフォルトのユーザ名とパスワードadmin / adminに



公式チュートリアル、リファレンス  基本的なチュートリアル

この記事では、MySQLバイナリログデータの同期を購読説明します

MySQLのバイナリログ

オープンビンログ

MySQLは(サーバーIDなしで5.7の点に注意してください。正常に起動しない)コンフィギュレーションファイル、my.cnfファイルを修正し、mysqldの中で増加します

server-id=1
log-bin=mysql-bin
binlog_format=ROW
复制代码

同期アカウントを作成して設定します

GRANT ALL on slave_test.* to 'slave_test'@'%' identified by 'slave_test';
GRANT SELECT, REPLICATION CLIENT, REPLICATION SLAVE on *.* to 'slave_test'@'%';
FLUSH PRIVILEGES;
复制代码

MySQL JDBCドライバをインストールします。

wget -P /opt/cloudera/parcels/STREAMSETS_DATACOLLECTOR/streamsets-libs/streamsets-datacollector-mysql-binlog-lib/lib/ https://repo1.maven.org/maven2/mysql/mysql-connector-java/5.1.47/mysql-connector-java-5.1.47.jar
复制代码

再起動streamsets

パイプラインを作成します。

MySQLのバイナリログ解析や処理を設定します






ターゲット側の設定

ラン

テスト

ここではMySQLのツールを使用して測定した圧力くる  mysqlslap.exe テストのためには、

bin/mysqlslap --user=root --password=xxxxxx --concurrency=50 --number-int-cols=5 --number-char-cols=20 --auto-generate-sql --number-of-queries=100000 --auto-generate-sql-load-type=write --host=192.168.0.123 --port=3306
--user 用户(需要有建库建表权限)
--password 密码
--concurrency 并发数
--number-int-cols 表内有5个数字列
--number-char-cols 表内有20个字符串列
--auto-generate-sql 自动生成脚本
--number-of-queries 总执行次数
--auto-generate-sql-load-type=write 只执行写入操作
--host mysql 主机
--port 端口
复制代码

以下のモニタリング報告があります

一般的なエラー

    ![image.png](https://cdn.nlark.com/yuque/0/2019/png/226273/1561021775509-fa60a34d-8e71-4e30-aa65-88a23521fb26.png)
复制代码


マニュアルからの一貫性のない同期エラー


オフセットを設定します。

エラー場合はPipeline Status: RUNNING_ERROR: For input string: ""xxxx"   、my.cnfファイルを変更します

server-id=1
log-bin=mysql-bin
binlog_format=ROW
sync_binlog=1
binlog_gtid_simple_recovery=ON
log_slave_updates=ON
gtid_mode=ON
enforce_gtid_consistency=ON
复制代码

参考資料

ます。https://juejin.im/post/5d0b5bbcf265da1b7f29850aで再現

おすすめ

転載: blog.csdn.net/weixin_34148340/article/details/93165174