機械学習ライブラリMlib
MLibは、スパーク機械学習ライブラリです。その目標は、機械学習を使いやすく、スケーラブルにすることです。高レベルの観点から、次のツールが提供されています。
機械学習アルゴリズム:分類、回帰、クラスタリング、協調フィルタリングなど
特徴処理:特徴の抽出、変換、次元削減および選択
パイプライン:パイプラインの構築ツール、評価、最適化
永続性:アルゴリズム、モデル、パイプラインの保存と読み込み
ツールセット:線形代数、統計、データ処理など
spark2.0以降、RDD APIに基づくspark.mllibパッケージはメンテナンス段階に入りました。spark mlパッケージのAPIは、データフレームに基づいています。
MlibのRDDベースのAPIは、spark3.0で削除される予定です。