コンテンツ
1.カイリンの紹介
Apache Kylinは、Hadoopビッグデータプラットフォームに基づくオープンソースのオンライン分析処理(OLAP)エンジンです。多次元キューブプリコンピューティングテクノロジーを使用して、ビッグデータのSQLクエリ速度を前の1分または1時間レベルから1秒未満のレベルに向上させます。
1.開発履歴
eBayが直面する問題:データの指数関数的成長に直面して、従来のアーキテクチャは垂直方向にしか拡張できず、必然的に「ボトルネック」に遭遇します。ただし、大規模なデータストレージを提供できるHadoopビッグデータプラットフォームがあり、分析では、BIプラットフォームと比較することはできません。ドッキングは十分に成熟しておらず、効率的なインタラクティブクエリを提供できません。
- 2013年半ば、eBayはビッグデータプロジェクトを立ち上げました。その一部は、HadoopでのBIに関する事前調査でした。広範な分析とテストの結果、超大規模データセットで第2レベルのクエリパフォーマンスを提供できるだけでなく、BIプラットフォームと完全に統合できるプロジェクトは市場にありませんでした。eBayチャイナセンターオブエクセレンスは小さなチームを編成し、OLAP-on-Hadoopソリューションを単独で実装することを決定しました。
- 2014年9月末に、コードネームがKylinのビッグデータプラットフォームがeBay内で正式にリリースされました。
- 2014年10月1日、KylinプロジェクトリーダーのHan Qingは、プロジェクトのソースコードをgithub.comと正式にオープンソースに提出しました。
- 2014年11月にApacheインキュベータープロジェクトに正式に参加しました
- 2015年11月、Apache Software Foundationは、ApacheKylinが正式にトップレベルのプロジェクトになったことを発表しました。これは、中国の人々が主導する最初のトップレベルのApacheオープンソースプロジェクトでもあり、国際的なオープンソースコミュニティに大きな影響を与えています。
- 2016年3月、ApacheKylinのコア開発者によって設立された新興企業であるKyligenceが正式に設立されました。
- 2015年と2016年には、InfoWorldのBossieAwardによる「BestOpenSource BigDataToolAward」を2年連続で受賞しました。これが長年にわたる受賞者のリストです:https://www.infoworld.com/article/2688545/infoworld-bossies.html
2.仕組み
Apache Kylinの動作原理は、本質的には多次元キューブ分析であるMOLAP(多次元オンライン分析処理)キューブです。その動作原理は、データモデルに対してキューブの事前計算を実行し、計算結果を使用してクエリを高速化することです。プロセスは次のとおりです。
(1)データモデル(現在、スタースキーマとスノーフレークモデルをサポート)を指定し、ディメンションとメジャーを定義します。
(2)キューブを事前計算し、すべてのキューブを計算して、マテリアライズドビューとして保存します。
(3)クエリを実行するときは、直方体を読み取り、処理操作を実行してクエリ結果を生成します。
3.基本アーキテクチャ
Kylinのアーキテクチャ全体は、オンラインクエリとオフライン構築の2つの部分に分けることができます。
- オフラインビルド:ビルドエンジンはデータソースからデータを抽出し(データはスタースキーマまたはスノーフレークモデルに準拠しています)、キューブをビルドします。ユーザーは、MapReduceまたはSparkを使用してビルドすることを選択できます。構築されたキューブは右側のストレージエンジンに保存されます。現在、HBaseがデフォルトのストレージエンジンです。
- オンラインクエリ:構築が完了した後、ユーザーはRESTAPIおよびJDBC/ODBCを介してクエリおよび分析を行うことができます。
4.機能
- 標準SQLインターフェイス:Kylinは、内部ではCubeテクノロジをコアとして使用しますが、外部ではMDX(MultiDimensional eXpression)を使用しませんが、外部サービスのメインインターフェイスとして標準SQLを使用します。これは主に、ほとんどのアナリストが最も精通しているツールが依然としてSQLであり、SQLがほとんどのアプリケーションで使用されるプログラミングインターフェイスでもあることを考慮しています。
- 非常に大きなデータセットのサポート:ビッグデータをサポートするKylinの機能は、現在のすべてのテクノロジーの中で最も進んでいる可能性があります。早くも2015年には、eBayの本番環境は、数百億のレコードの第2レベルのクエリをサポートでき、その後、モバイルアプリケーションのシナリオで数千億のレコードの第2レベルのクエリのケースがありました。
- 1秒未満の応答:Kylinは、事前計算の恩恵を受ける優れたクエリ応答速度を備えています。接続や集計などの多くの複雑な計算がオフラインの事前計算プロセスで完了しているため、必要なクエリ時間が大幅に短縮されます。計算の速度と応答速度が向上します。
- スケーラビリティと高スループット:シングルノードのKylinは、1秒あたり70のクエリを実行でき、Kylinクラスターを構築することもできます。
- BIツールの統合:Kylinは、次のような既存のBIツールと統合できます。
- ODBC:Tableau、Excel、PowerBIなどとの統合
- JDBC:Saiku、BIRTなどのJavaツールとの統合。
- RestAPI:JavaScript、Webページとの統合
2.Kylinのインストール
1.環境への準備
インストールにはHDPやCDHなどのディストリビューションを使用することを公式に推奨しています。この記事では、インストールにApacheバージョンを使用します。各依存関係のバージョンは次のとおりです。
- Hadoop 2.7.7:Hadoopインストールチュートリアルを参照できます:https://blog.csdn.net/tangyi2008/article/details/121908766
- Zookeeper:ZooKeeperのインストールチュートリアルを参照してください:https://blog.csdn.net/tangyi2008/article/details/121984758
- HBase 1.1.13:HBaseインストールチュートリアルを参照できます:https://blog.csdn.net/tangyi2008/article/details/122593037、ブログ投稿のバージョンは2.1.9であることに注意してください。これは、次のように置き換えることを忘れないでください。 1.1.13
- Hive 2.3.9:Hiveインストールチュートリアルを参照できます:https://blog.csdn.net/tangyi2008/article/details/123368215
この記事では、当面の間、SparkやKafkaなどの依存関係を使用しません。
バージョンの選択は非常に重要です。互換性のあるバージョンのセットがない場合は、この記事を参照して選択すると、実行できます(その時点で、hbase-2.1.9およびhbase-1.7を使用するときに発生するさまざまな問題。 .1バージョンは解決できませんでした。そして、最終的にHBase 1.1.13に変更されました。すべてが機能します)
2.カイリン
ダウンロードアドレス:https://archive.apache.org/dist/kylin/
この記事で選択したバージョンは次のとおりです。apache-kylin-3.1.3-bin-hbase1x.tar.gz
対応するバージョンのKylinをダウンロードした後、それをサーバーにアップロードし、この記事を~/soft
ディレクトリにアップロードします。この記事は次のことに同意します。
- チュートリアルで使用されるユーザー名は
xiaobai
- インストールパッケージの場所
/home/xiaobai/soft
- インストールされたディレクトリ
/home/xiaobai/opt
- ホスト名
node1
ソフトリンクのアップロード、解凍、作成
tar -xvf apache-kylin-3.1.3-bin-hbase1x.tar.gz -C ~/opt
cd ~/opt
ln -s apache-kylin-3.1.3-bin-hbase1x kylin
環境変数を構成する
vi ~/.bashrc
ファイルの最後に追加します。
export KYLIN_HOME=/home/xiaobai/opt/kylin
export PATH=$KYLIN_HOME/bin:$PATH
コマンドを実行して有効にしますsource ~/.bashrc
3.開始
Kylinを起動する前に、Hadoop(hdfs、yarn、jobhistoryserver)、Zookeeper、およびHbaseを起動する必要があります。
起動シーケンス全体は次のとおりです。
zkServer.sh start
start-dfs.sh
start-yarn.sh
mr-jobhistory-daemon.sh start historyserver
start-hbase.sh
kylin.sh start
4.ログインWebページ
次のWebページにアクセスしてログインします:http:// node1:7070 / kylin /、初期アカウントはADMIN
で、パスワードはKYLIN
[外部リンクの画像転送に失敗しました。ソースサイトにヒル防止メカニズムがある可能性があります。画像を保存して直接アップロードすることをお勧めします
キューブ構築とクエリ分析に関連するコンテンツは後で更新します。
3.関連リソース
この記事の関連リソースは、ネットワークディスクに配置されています。
链接:https://pan.baidu.com/s/1kjcuNNCY2FxYA5o7Z2tgkQ
提取码:nuli