社内のビッグデータツールは基本的にLinux上に構築されており、以前はLinux仮想マシン上にパソコンを構築していましたが、実行中にメモリがいっぱいになってしまったので、今回はwin10上に直接環境を構築してみました。
インターネット上にはすでに多くのチュートリアルがあるため、ここでは詳しく説明しません。いくつかの重要なポイントがあると思います: 1. ツール間のバージョンの対応; 2. 環境変数; 3. 権限; 4. 設定ファイル
今回の構成は以下の通りです。
win10家庭版、java 1.8.0_40、hadoop 2.7.6、mysql 5.7.17、hive-2.1.1、scala-2.11.8、spark 2.3.0、python 3.6.5
遭遇する問題の 99% は以前に遭遇したことがあり、解決策があると言われていますが、問題を正確に特定するための知識でもあります。
1. mysql、hive、および hadoop を構成した後、hive クエリは正常ですが、値を挿入するとエラーが報告されます。
org.apache.hadoop.hive.ql.exec.mr.mapredtask からのコマンド ライン リターン コード 2。インターネット上で解決策が見つかりませんでした。
Hadoop インターフェイスに移動して履歴を表示し、例外メッセージ: CreateSymbolicLink error (1314): ?????????? を表示します。
その理由は、Windows アカウントにシンボル テーブルを作成する権限がないためです。https: //liuhuiyao.blog.csdn.net/article/details/86697374を参照してください。
win10 home editionなのでグループポリシー gpedit.msc はありません。 https://blog.csdn.net/u013642500/article/details/80138799を参照してください。
2. pycharm で pyspark を実行する
「py4j」という名前のモジュールがありません。spark/python/lib の py4j フォルダーを Anaconda3\Lib\site-packages に配置します。
検索中に有効な SPARK_HOME が見つかりませんでした (Windows の pycharm) 参考https://www.pianshen.com/article/82521714106/