利益GitHubの2000+スター、ALINK 11ダブルデータ「ゲーム」を打つ方法を学ぶアリクラウドプラットフォームのオープンソース・マシン?| AI技術の生態系に...


ご宿泊のお客様|ヤン、記者|郭ルイ

出品 | CSDN(ID:CSDNnews)

「AI技術エコシステム論」のインタビュー部分は、人々の打ち上げCSDN数百万で重要な部分であるAIの取り組みを学びます。大規模なコーヒーAI生態学の上部では、起業家は、業界KOLのインタビューは、将来の動向、実用的な技術と育っての経験を決定するために、業界のための考え方を反映しています。2020年に、CSDNは、インタビューに1000個の+の文字を行い、最も影響力のある人物のマップとAI業界のパノラマのAI生態を概説シリーズを形成します! 

第九この記事のインタビューのシリーズ、アリによって、シニア専門家のアルゴリズム、ALINKの創設者ヤン -オンのインタビュー、綿密なバッチフロープラットフォーム学習つのマシン ALINKの「舞台裏」を

AI万人の人々が、あなたが撮影している学びます!記事のコメントを参加、メッセージのために選択されたコメントエリア、299元の値を取得するには、「2020 AIの開発者百万人大会」のライブオンラインチケット。

たびに買い物データは、技術プラットフォーム「ゲーム」です。昨年、二から一一、アリの電子商取引プラットフォームLynxはなり再びデータの記録を設定し、強力なシステム処理性能は、業界無限の憧れをさせることです。ボリュームを処理する単一日のデータは970Pに達しB、第2ピークデータにつき25までを億、そして4%ヘルプLynxのCTRの増加に製品の推奨-データのこのシリーズの背後に、なくてはならないアリNKサポート。

FLINKからの産業は、バッチアルゴリズムをサポートしているため、マシン1つのプラットフォームストリーミング学習アルゴリズム、ALINKベースの開発、豊富なコンポーネントライブラリのアルゴリズムと便利な操作のフレームワークを提供し、現在は、アリ内部検索広く使用されています推奨、リアルタイムのオンライン広告と他のコア事業と同様に、カフカ、HDFSとHBaseのためのサポートとオープンソースのデータ・ストレージ・プラットフォームのシリーズ。

この記事では、CSDNの名誉をインタビューするL のK-侵襲最初のヤンを、彼はフロントラインの観点から開発された、私たちは、このオープンソースの機械学習プラットフォーム、との技術的なパスを理解し、一般的なアプリケーションストーリーの内容及び開発計画を。

ヤン、アリババグループのシニア・コンピューティングアルゴリズムの専門家プラットフォーム部門の機械学習ALINKの創設者、機械学習アルゴリズムでは、機械学習アルゴリズムプラットフォームPAIベースを担当するアリの雲。

ALINKは背景導出アルゴリズム開発エンジニアの需要を:

人工知能とビッグデータ時代の到来の上昇に伴って、機械学習は、より広範で多様なシーンを処理することができます。モデルの直接対流予報、リアルタイムのデータに必要なリアルタイムの要件を達成するだけでなく、零細企業のアプリケーションやサービスでのモデルのアプリケーションに機能を持たせるために、バッチデータ処理のためのニーズを構築します。優れた業績を達成するために、アルゴリズムのエンジニアは、分散クラスタが当たり前になってきている使用して、大きなデータセットを扱う必要性、より複雑なモデルを試してみる必要があります。ためには、速やかに、より多くの、市場の変化に対応しますストリーミングデータを直接処理するオンライン学習、リアルタイムの更新モデルの事業の選択。

ヤンは、広範で多様なアプリケーションシナリオ新興機械学習のために「私たちのチームは、ヘルプの開発者に高性能アルゴリズムのコンポーネントと便利なプラットフォームを感じ、研究開発プラットフォームアルゴリズムに従事してきた」と説明し、彼と2017年にチームを導いたことで、エンドのビジネスプロセスに簡単にビルド最後にデータ分析とアプリケーション開発者を作り、機械学習アルゴリズムのプラットフォームに基づいてFLINKの新世代の開発を始めました。

何ALINK正確に?

FLINKは、豊富なコンポーネントライブラリのアルゴリズムと便利な操作フレームワーク、開発者はデータ処理をカバーする債券を構築することができます提供し、機械学習アルゴリズムプラットフォームの新世代を開発したリアルタイム計算エンジンに基づいて、2017年の初めからALINKアリババコンピューティングプラットフォーム部門PAIチーム、フィーチャーエンジニアリング、モデルのトレーニング、全体のプロセスのモデル予測アルゴリズムモデルの開発。プロジェクトはALINKに設定し、名前は、関連する(アリババ、アルゴリズム、AI、FLINK、ブリンク)から公開部分を撮影したものです。

統合の利点の面でFLINKバッチの流れで、できALINKは、バッチフロータスクのための一貫性のある動作を提供します。ヤンは、初期の2017年に、彼らはFLINKは、研究チームによってライブラリそのALINKプラットフォームを開発した機械学習アルゴリズムに基づいて再設計されたように、バッチは、統合の基盤となるエンジンのFLINK優れた性能の利点および側面を流し見たと指摘しました。その後、アリグループの内部のオンラインでの2018年のプラットフォーム、および改善し、完璧を続け、運動アリは、複雑なビジネスシナリオの内部で育ちました。

「最初の業界は、両方のバッチアルゴリズムをサポートするため、アルゴリズムをストリーミング機械学習プラットフォームは、ALINKはPythonインタフェースを提供し、開発者が簡単にできFLINK構築アルゴリズムモデルの技術的背景を必要としません。」

ヤンは導入によると、ALINKは広くオンラインリアルタイムでアリババの検索、推奨事項、広告や他のコア事業で使用されてきました。猫の終了処理データのダブル11、シングル日の量を以前の時代には第2ピークデータごとに最大25億に、970PBに到達します。ALINKは成功し、リアルタイムのトレーニングで、超大規模データの試練に耐え、そしてヘルプが4%CTR(財のクリックコンバージョン率)を向上させます。

ALINK特長

1、アルゴリズムの豊富なライブラリ

ALINKは、大規模なバッチアルゴリズムを持ち、助けにアルゴリズムをストリーミングすることは、プロセスを介して、データ処理、エンジニアリング機能、モデルのトレーニング、予測、エンドツーエンドのデータとアプリケーション開発者を分析します。以下に示すように、オープンALINKアルゴリズムモジュールを提供し、各モジュールはフローおよびバッチアルゴリズムを含みます。このような線形回帰として、線形回帰は、回帰予測線形バッチ訓練、ストリーミング線形回帰予測とバッチが含まれます。

2、フレンドリーな経験

PyAlinkだけでなく、支持体には、スタンドアローンの実行を、ヤンが発現「より良いインタラクティブでビジュアル体験を提供するために、我々はまた。PyAlinkオープンソースは、ユーザーがPyAlink ALINK Pythonのパッケージを介してノートブックの方法を使用することができます導入している」、とも提出クラスタリングをサポートそして全体的なアルゴリズムはALINKパイソンにシームレスに流れるように、オペレータ(ALINK事業者)とデータフレームインターフェースを開きます。PyAlinkはまた、UDFまたはUDTFを呼び出すためのPython関数の使用を提供します。図のノートブックのPyAlinkは、予測モデルのトレーニングを示し、次の、そして予測処理の結果をプリントアウト。

3、及び比較スパーク

オフライン学習アルゴリズムの観点では、SparkML性能比較とALINK下図にほぼ等しいが、いくつかの古典的なアルゴリズムの性能比較を与えます:

アルゴリズムスパークの個々のパフォーマンスよりも弱い、フィギュア、ALINKアルゴリズム凌駕最もスパークから見ることができ、全体的にかなりのレベルです。

しかし、「機能の完全性、ALINKの優位性の観点から」スパークをカバーに加えて、ALINKアルゴリズムは、混合バッチ実行、オンライン学習、および他の中国語の単語を流し、ストリーミングアルゴリズムが含まれています。

オープンロードのアリとALINK

2018年、2017年と比較して、前の6年間でよりGitHubの新しいアクティブユーザーは、40%組織コードリポジトリの30%を添加しました。世界的な傾向から、傾向は間違いなくオープンソース・ソフトウェアの開発です。中国では、アリは、オープンソースのビジネスに最も顕著な貢献です。アリ、アリによって作成されたオープンソース・プロジェクトの数が多いトップ10の国内オープンソースプロジェクトは、レポートのGitHubオープンソースエコロジー経済統計によると、ありますが、アリはGitHubの上で6オープンソースプロジェクトがあります。

オープンソースALINKに入れる前に、ヤンは、最初に関連するFLINKとFlinkMLを導入しました。「FLINKは、データのためのフレームワークを分散コンピューティングオープンソースで処理し、バッチ指向のデータがFLINKフローマシン学習シナリオに基づいて問題を解決することを望んで、私たちは、優れた性能FLINKエンジンについて楽観的である、処理ストリーム。」FlinkML FLINKは、機械学習アルゴリズムに来ます図書館、旧バージョンと新バージョンへ。「ALINKを行う前に、我々は最初に慎重に、その後FlinkMLを学ぶ(すなわちFlinkML古いバージョン)の場合は、それが唯一のサポートデータ構造へのアルゴリズムの10種類以上をサポートしていますが、アルゴリズムのパフォーマンスの最適化で行うが比較的小さい十分に一般的ではありませんが、そしてそのコードはまた、長い時間のために更新されません。そう、私たちは、アップグレード、レガシーFlinkMLを改善するアイデアをあきらめた、ベースFLINKは、現在のALINKの開発に続いて、機械学習アルゴリズムライブラリの再設計・開発することを決めました。」

ALINKが密接に開発し、FLINKコミュニティのプロセスに関連付けられてきた、FLINKフォワードは年次総会では、チームは、技術的な問題を議論のフィードバックや提案を取得するには、プロジェクトの進捗報告されています。連続強化とALINK機能の向上に伴い、「ALINKが成長しているオープンソースのコミュニティで歓迎され、私たちはALINK FlinkMLへのオープンソースコードを促進し、より密接FLINKコミュニティを開始しました。」

同時に、問題FlinkMLの遺産を意識コミュニティの多くの人々、新FlinkMLの全体的な破棄、建設を決定レガシーFlinkML。「我々は積極的に共有にALINKのAPIの設計を経験し、新しいFlinkMLのAPIの設計に参加し、コンセプトのparamsなどALINKは、コミュニティを採択しました。新しいバージョンFlinkML貢献アルゴリズムコードの開始後、アルゴリズムベースフレームを含め、基礎を40以上のPRを提出しましたいくつかのツールとアルゴリズム。 "

ALINKは、機械学習アルゴリズムの多くが含まれている、FlinkML貢献の過程で、コミュニティのディスカッションコミッタの設計とコードレビュー、より良いコードに役立ちますプロセスが、限られたリソースのコミッタコミュニティによるのニーズは、コードが完全にFlinkMLに貢献していますプロセスには長い時間が続きます。「一人でALINKオープンソースが良い解決策れる」アルゴリズムを実装し、FlinkMLに貢献していき、同時に行うことができ、「現時点では、ユーザーがアップに使用することができ、他の方法があるかどうかを検討しなければなりません」。ユーザーからのフィードバックの使用は、より良いアルゴリズムを改善するのに役立ちます。

このアイデアはFLINK Forwordアジア2019の会議で、ALINKが正式にオープン宣言し、内部アリをサポートするためのアクセスを、コミュニティの支持を獲得しました。

現在、ALINKオープンソースは4ヶ月以上、オープンソースコミュニティでALINKの人気はこの時間の間にますます高くなっているされてきた、GitHubの上ALINKは2000以上のスター、400回フォークを持っています。ヤンはこれまでのところ、私たちのオープンソースのユーザーベースはほぼ1,000人を持っている」、叫んだ、とコミュニティの開発者の数はALINKにコード化アルゴリズムを提出しており、ALINK ALINKユーザーコミュニティの数十があります私たちは改善、バグにアルゴリズムまたはアルゴリズムを提案しました.Alink開発チームが共同開発ALINKプラットフォームを促進するために、また積極的にコミュニティの相互作用である求められています。「一方で、ALINKチームが積極的にコミュニティヘルプの数百人のユーザーは、彼らが使用中ALINKアルゴリズムに遭遇する問題を解決するため、ALINKを使用して、コミュニティをサポートしています。一方、提案したアルゴリズムのバグとアルゴリズムの改善ユーザーコミュニティのニーズのために、ALINK初めてこれらのニーズの改善とバグスケジュールにチームの応答、およびタイムリーにオープンソースコミュニティへの開発が完了した後、ユーザーコミュニティのニーズに対応します。

「ALINKオープンソースは、最初の結果を達成しているが、我々はまだFlinkMLコードに貢献している、」ヤンは最終的に、彼は共同に一緒にFLINKプロジェクト、希望とコミュニティの仕事に、より優れた機械学習アルゴリズムに貢献したいと言いましたFLINK機械学習コミュニティは、エコ発展と繁栄を促進します。

【終わり】

よりエキサイティング推奨

スマート服を着混雑市場、OPPOができなく入ってくるキラー?

トップレベルの在庫のためのAndroidのアプリケーション開発フレームワークは、あなたのための権利が常にあります

企業のMicrosoftの買収は人ですか?クラックへソニー・プログラムは、ハッカーが彼の頑丈なプログラムの生活を見て、小説を書きます!

プログラマはなぜ明確に「ベストプラクティス」を反対する必要がありますか?

時間半のトレーニング億のスケールマッピングの知識、オープンソースアマゾンAI知識表現の枠組み埋め込まれたマップDGL-KE

78%の「デビュー」5年間の採用率は、成功Kubernetesのためのレシピは何ですか?

警告!新しいトリックの出現:偽の二次元コードジェネレータは$ 460万ドルを首尾よく盗むされています!

今日の福祉:コメントエリア選択したメッセージは、オンライン299元、「2020 AIの開発者百万会議」の値を取得し、ライブチケットを指先を来て、あなたはそれを言いたい書き留め。

続けるのは素晴らしい、オリジナルを読むためにクリック!

それぞれ「見た目」のあなたのポイント、私は真剣に好きなように

リリース1931元の記事 ウォンの賞賛40000 + ビュー1804万+

おすすめ

転載: blog.csdn.net/csdnnews/article/details/105384199