機械学習/推奨システム/推薦システムのアルゴリズムエンジニアインタビューガイド

インタビューガイド

  • 1、機械学習/推奨システム/推薦システムのアルゴリズムエンジニア面接スキルマップ
  • 2、知識、ツール、ロジック、ビジネス面の質問
  • 3、履歴書の執筆と採用ニーズ
  • 4、推薦図書のWebサイト

1、機械学習/推奨システム/推薦システムのアルゴリズムエンジニア面接スキルマップ

知識、ツール、ロジック、ビジネス:しかし、脇に特定のジョブの要件、わずかに高い角度、機械学習/推薦システムのアルゴリズムの観点からこの問題を見ては、R&Dエンジニアの技術的な品質は、基本的には以下の4つの領域に分けることができます。

[投棄外国チェーンの写真が失敗し、発信局は、直接アップロード(IMG-tap2Qtke-1583898506454)(/ユーザ/ huxinghui /ライブラリ/ Application Support / typora-ユーザー画像/画像-20190707142046599ダウン画像を保存することが推奨され、セキュリティチェーン機構を有していてもよいです.PNG)]

最低限の要件に基づいて、容量の要件アルゴリズムエンジニアが比較的包括的です。あなただけも再び改善しなければならない資格「エンジニア」とアルゴリズムの基礎を達成する能力であってはならないので、アルゴリズムのエンジニア、いわゆる。また、大規模なデータ・エンジニアは、ビッグデータツールやプラットフォーム、知識やロジック相対プロミネンスのレベルの研究者を向上させるためにもっと注意を払います。

ここでは、関連する要件、一般的な要件は、それがフィールドを離れたくないためにであるかどうか、です。そして、このようなシステムエンジニアなどの特定分野での徹底した仕事の推奨事項は、いくつかの特定の能力を持っている必要があります。

知識:主にあなたの知識と準備金ML理論(40%)を指し、

  • 関連する知識+の深学習機械学習知識ベース
  • CTR主流モデル、原則と推薦アルゴリズムモデルの技術的な詳細など

ツール:あなたの実際のビジネスフレームワークツールにMLの知識(30%)

  • このようなコーディング能力、火花、tensorflow、サービス提供のツールとして

論理:論理的に関連するベースアルゴリズム(10%)

  • 共通の基本的な算術の問題、論理的な質問間の進化的関係、モデルは、容量を最優先を与えることを検討します

ビジネス:業界のビジネスモデルの深い理解、およびビジネスモデルのアルゴリズムの改良を見つける能力(20%)

  • こうしたビジネスモデルのターゲットに応じて機種をお勧めシナリオと要件、理解ビジネスの動向を、建物などの記事によると、

ペン関連のインタビューの質問アルゴリズム2.1推薦システム

11.あなたが他のモデルのいずれかを使用している場合は交換するか、あなたがどうなるかXGBoost XGBoostを改善し、なぜですか?(ビジネスロジック+ +知識)

(項目とユーザベースに基づいて)1、協調フィルタリングは、原則として、ItemCF、UserCF、SVD行列分解を説明しなければなりませんか?

2、次の方法を推奨、推薦結果は)最高の多様性:( Bであります

A.コンテンツベースの推薦

B.ユーザベースの協調フィルタリング勧告

記事に基づくC.協調フィルタリングの推薦

D.ホットオファー

3、(:等、マトリックス分解、フィルタリングなど)少なくとも2つのアルゴリズム馴染みの推薦システムを使用する原理を説明

図4は、協調フィルタリング推薦システムは、多くの場合、メモリベース協調フィルタリング、協調フィルタリングモデルとハイブリッドモデルを含む、使用されています。次の文は正しくありません(C)

  • 協調フィルタリングの項目に基づいてユーザの協調フィルタリングの推薦に基づいて勧告をフィルタリングメモリベースのコラボレーションです
  • これは、両方の効果により達成するために、典型的には、両方のモデルハイブリッドモデルの長所を兼ね備え
  • より良いコールドスタートメモリベース協調フィルタリングの問題を解決することができます
  • メモリベース協調フィルタリングは比較的簡単ですが、新しいデータをより簡単に追加することができます

5は、協調フィルタリング、推薦システムは、非常に古典的なアルゴリズムで構成され、それは協調フィルタリングとユーザベースの協調フィルタリングの項目に基づいて、分割されました。その本質は、ユーザーにさらに関連アイテムをお勧めします、記事や記事の類似性と、ユーザとユーザとの間の類似度を計算することにより、ユーザーの関心を予測することです。以下の質問に答えるために上記の知識を使用してください:

(1)既存の5人のユーザA、B、C、D、E; 3つの項目X、Y、Z、サイト上でのユーザーの買い物履歴や人々の肖像画のラベルを解析することで、様々なアイテムのさまざまなユーザーの関心の分析インデックス。利息インデックスは、次の表を参照してください。

バツ とともに
A 3 4 3
B 2 4 4
C 3 5 4
D 2 2 3
E 4 1 4

Eは現在推奨カメラは、カメラ内の関心のA、B、C、D三種類M、N既知のユーザを必要とされ、Oスコアリングは、以下:

M N ザ・
A 3 4 3
B 5 1 2
C 2 5 5
D 4 2 3

詳細な回答加工を施し、Eカメラに与えられた最高のオーダーをお勧めしてください。

(2)上記のような問題では、我々はどのようなより良いソリューションのコールドスタートの問題のために、その後、強力に依存している過去のデータをユーザーのために、協調フィルタリングを見つけることができますか?

6、ビデオ証言シーンはあまりにもビデオ勧告を集中し、システムがランダムある程度のを介してユーザに驚きの発見の感覚をもたらすように、ユーザーエクスペリエンスを弱体化する傾向があります。推奨される場面を想定すると、計算A及びBは、現在のユーザのマッチングから、2本のユーザのビデオがシステムAがBを生成するために、均一に0〜0.8の最終スコアに分配ランダムに生成し、0.8ポイントと0.2ポイントであったです0〜0.2の最終スコアの均一な分布は、最終的な画分Bの確率スコアは、(B)よりも大きいです

1/2、1 / 8,1 / 16,1 / 4

7は、しばしばメモリベース協調フィルタリングを含む協調フィルタリング推薦システム、及び協調フィルタリングモデルに基づいて、ハイブリッドモデルで使用され、次の文は正しいです

  • モデルベースの協調フィルタリングは、より良いスパースデータの問題を扱うことができます
  • モデルのコンテンツベースの協調フィルタリング不要な情報項目
  • より良いコールドスタートメモリベース協調フィルタリングの問題を解決することができます
  • メモリベース協調フィルタリングは比較的簡単ですが、新しいデータをより簡単に追加することができます

8、行列分解の話

9、簡単にword2vec;トークがウィンドウサイズパラメータをスライドし、サンプルの負の数との比率を設定するステップと、埋め込みの品質を測定する方法を学びます

コンテンツに基づいて、(1)、(2)協調フィルタリングに基づく:10は、推薦システムのアルゴリズムの話をどのように分割することができるメモリ(UB IB)に基づいて、モデル(MF)に基づきます

11、LR導出処理

図12に示すように、構造を説明すると、どのように格納されていますか?この設定を使用すると、図の深さ/幅優先横断を達成しない、深さ優先探索は、スタック構造を実現し、最初のトラバーサルは、キュー構造によって達成しました

13、作業の詳細な説明、全体的な枠組みを引き出しますか?

14、ランダムフォレストは、それを理解する必要がありますか?私は、サンプリングの方法は戻ってそれがあります知っていますか?与えられたn個のボールは、交換にサンプリングしました。ボールがあるとき、nが無限大になる傾向とき確率は何である取るためではありませんか?

15、キーワード抽出方法?TF-IDFは、それを改善していますか?どのように向上させるには?そしてTextRank差?

16、UserCF、ItemCF式?推薦コンテンツとの間の差に基づいて原則違い?

2.2機械学習関連の問題

キー:

  • 線形回帰、ロジスティック回帰
  • ディシジョン・ツリー関連するアルゴリズム:決定木、ランダムフォレスト、GBDT、XGboost
  • クラスタリングアルゴリズム関連
  • ニューラルネットワーク:NN関連する基本原則
  • 最適化アルゴリズム:正則、勾配降下など

1.GBDT原理**(知識)**

2.どのようにツリーノードの特徴選択を分割するには?(知識)

3.書き込みとジニ指数情報ゲイン式と例示

(知識)

4.差ツリーの分類と回帰ツリーがどのようなものですか?(知識)

5.比較して、ランダムフォレスト、および説明するためにどのようなモデル6.Biasと分散**(知識)**

どのような経験**(ツール)のパラメータチューニング7.XGBoost **

8.XGBoost正則はどのように達成するか(ツール)**です**

並列化部分9.XGBoostは** **(ツール)を達成する方法であります

在庫過剰適合の10なぜ予測される厳しい浮き沈みは通常表示されます

(ビジネス)

定義1.softmax機能とは何ですか?(知識)

2.ニューラルネットワークなぜ勾配現象が消えるのでしょうか?(知識)

3.一般的な活性化機能は何ですか?特徴は何ですか?(知識)

4.勾配降下の導出の活性化機能を選択してください。(知識+ロジック)

何5.Attentionメカニズム?(知識)

6.アリは注意メカニズムの推奨モデルを導入する方法ですか?(知識+ビジネス)

どのようなビジネスロジック7.DINは、注意メカニズムの導入に基づいていますか?(ビジネス)

ユーザーは8.DIN、商品埋め込むましたが、あなたが知っている方法を埋め込む明確に2 9.を話してくださいます。(知識)

10.あなたがモデル**(ツール+事業を)学ん同様のDIN、このような深さを提供するにはどうすればよいです**

より多くのインタビューの質問を見つけるために、関連する情報を検索するには:「百枚の顔機械学習を」

ここに画像を挿入説明
ここに画像を挿入説明
ここに画像を挿入説明
ここに画像を挿入説明

2.3フレームワーク

  • ビッグデータ関連のフレームワーク:スパーク、HBaseの、ハイブ、カフカ
  • ディープ学習フレームワーク:TensorFlow

2.4ビジネスプロセス

  • プロジェクト概要

3、履歴書の執筆には、プロジェクトを導きます

[投棄外国チェーンの写真が失敗し、発信局は、直接アップロード(IMG-SqzZrOGr-1583898506457)(/ユーザ/ huxinghui /ライブラリ/ Application Support / typora-ユーザー画像/画像-20190707142936815ダウン画像を保存することが推奨され、セキュリティチェーン機構を有していてもよいです.PNG)]

[投棄外国チェーンの写真が失敗し、発信局は、直接アップロード(IMG-Ng4WcsKx-1583898506458)(/ユーザ/ huxinghui /ライブラリ/ Application Support / typora-ユーザー画像/画像-20190707142956053ダウン画像を保存することが推奨され、セキュリティチェーン機構を有していてもよいです.PNG)]

[画像のダンプはチェーンが失敗し、発信局は、直接アップロード(IMG-5PPr06i6-1583898506458)(/ユーザ/ huxinghui /ライブラリ/ Application Support / typora-ユーザー画像/画像-20190707143034611ダウン画像を保存することが推奨され、セキュリティチェーン機構を有していてもよいです.PNG)]

(雇用方位選択性の増加に基づいて削除、変更)第二に、スキルの習得

関連する学習1、機械、モデル、アルゴリズム理論、特徴処理

2、深い学習勧告は、関連する基礎をお勧めします

図3に示すように、大きなデータフレーム、データベースを使用して

  • numpyの熟練の使用科学技術計算ツール、データ操作やデータのように、収集、処理、清掃、可視化、構造化セットのためのパンダのデータ解析パッケージ、matplotlibのデータ可視化ツール。
  • 身近Scikit学習機械学習の枠組み、マスターK-隣人、線形回帰、LogisticsRegression、RidgeRegression、LassoRegression、ディシジョン・ツリー、ベイズ、SVM、K-手段機械学習アルゴリズム。
  • データ次元削減のためのPCAに泊まりました。
  • プロジェクトの特性(REF、chi2)の使用で能力。
  • データセット(ヌル処理、データの正規化及び標準化)に精通している基本的な処理方法
  • 生成された原因と解決策を過剰適合おなじみunderfitting、。
  • 熟練したアプリケーショングリッド検索要素、クロスバリデーション、混同行列モデルのパラメータ調整と評価モデル。
  • そのようなRF(バギング)、GBDT(ブースティング)アルゴリズムのような分類アルゴリズムの馴染みの人気の統合。
  • 建物及び関連コンポーネント(糸、HDFS、MapReduceの)、開発のおなじみのHadoopを使用します。
  • データ取得ツールの水路熟練使用;
  • HBaseのは、MySQL、等、並びにHivesqlの製剤を使用してデータベースに精通しています。
  • 使い慣れたカフカメッセージ処理ツール。
  • 身近スパーク、スパークSQL、スパークストリーミングアーキテクチャモデルと使用。
  • Linuxシステムの熟練した使用は、使い慣れた従来のシェルコマンドLinuxでは、あなたは、開発環境のLinuxシステムを設定することができます。
  • データ移行ツールsqoopの使用をマスター。
  • おなじみの深さは、フレームワークTensorFlowを学びます。

第三に、書かれたプロジェクトの説明(増加した選択性は削除されたプロジェクトの特性に応じて変更されました)。

1、商品説明

サンプル:

ダークホース能力を強化するために、分散コンピューティング環境で、リアルタイムコンピューティングとオフラインのコンピューティングを統合するラムダ・アーキテクチャを使用して、ユーザーと大規模な文書の膨大な数の上に構築された見出し推薦システム、;ユーザーのクリック、閲覧、収集およびその他の行為水路のコレクションを使用するには、利用者の肖像画や記事を確立します肖像画は、とHDFSクラスタに保存されている。HBaseのクラスタに保存されているHIVE特性中央オフラインスパークSQL、確立計算; ALS、LR、ワイド&深いな機械学習と深い学習として、推薦アルゴリズムを達成するために、顧客による知的な勧告を何千人もの人々の千匹の顔を推奨します効果。

プロジェクトの説明:このプロジェクトは、パーソナライズされた推薦システムです。このプロジェクトは、協調フィルタリングとユーザーエクスペリエンスを向上させ、ユーザーの粘りと時間を増加させるため、コンテンツベースの推薦の組み合わせによって補完オフライン勧告に基づく、リアルタイムの推奨事項、です。主なプロセスは、リアルタイムお薦めやその他の部品を加工するポートレートブック、ログデータをモデル化し、ビジネスデータ処理が含まれます。

項目説明

プロジェクトの説明:ホームユーザー、店舗のサービス、プラットフォームの顧客調査、コミュニティ機能のための議論の主題を提供します。愛はまだ家、ユーザーのコンバージョン率を向上させ、企業収益の改善、CTRを達成するための主要なALSモデルの作成、製品のリコール、を含む、ユーザーエクスペリエンスを向上させるために設計された推薦システムを広告していることはロジスティック回帰、データ処理、リアルタイムの勧告などのオフラインキャッシュに基づく推定値

プロジェクトの説明:主にユーザーの行動データの収集によるプロジェクト、ユーザはしばしば懸念やコンテンツだけでなく、利用者の年齢分布、端末装置は、各ユーザのユーザ肖像画の確立、トレーニングモデルを通じて、完全な推薦システムに耳を傾けます。目的は、より正確なプッシュを達成することである、ビジネスに影響を与えることなく、正確なプッシュのために、ユーザーの粘りを増加させました。

ビデオサイトの増加によって、より良い満たす顧客体験の度に順番に、映画の勧告は、我々はこの問題を解決することができます。ユーザーの性別、年齢、多次元データ分析上の動画、評価、プラス情報の種類によると、ユーザーは、ユーザーに良いを与え、お勧めの映画、ビルド顧客パーソナライズされた推薦システムの同じタイプを達成するために、推奨好きな映画を達成することができますの

分類、分析及び勧告の結果、およびデータユーザの行動のために、常にユーザーの肖像画を向上させます。

典型的なソーシャルネットワーキング友人は、設計と開発プロジェクトをお勧めします。このシステムは、ユーザの視点であるすぐに彼らのような考えを持つ見つけ、ユーザーが友達になる可能性があります。友人は、友人の共通の利益を共通円を持って、二度を含める項目を推奨パーソナルプロファイルとして推奨戦略を訪れ、アップ円を読んで、買い物を人々に、そして非パーソナライズされた勧告のラベル。新しいユーザーまたは古いユーザーが迅速ユーザー粘度を高めるために、システムで独自の社会的なサークルを設定できるかどうか。

プロジェクトは、メーカーが推奨する一般的な電気的なプロジェクトである、ユーザーの閲覧履歴を含め、システムは主に、ユーザーが開こうとしてより多くの速度を見つけることができるように、商品のユーザーに推奨されており、消費財を購入することができ、ユーザーは、このプロジェクトは、ユーザーの行動に基づいています対応する重み、収集、共有、購入およびその他の行為は、各ユーザの行動は、協調フィルタリング、パーソナライズ勧告の重いアプリケーションを与え、最近の売上高は、ユーザーのデフォルトのコレクションで、このような歴史的な販売による非パーソナライズされた勧告などの指標のコレクションをランク付け推奨品店のアドレスフィルタリング

2、インフラプロジェクトや技術のポイント

プロジェクトアーキテクチャ:水路+カフカ+ HDFS +スパーク+スパークをストリーミングSQL + HBaseの+ TensorFlow

フリュームログデータを使用して1は、HDFSに収集されたユーザ行動データを収集します

2、水路によってHDFSにユーザ行動データを収集しました。

メッセージキューに水路ユーザ行動収集したログをドッキング3、カフカ。

4、スパークリアルタイムリコールセットにリアルタイムで更新、リアルタイムの機能で更新カフカ送信クリックログを、ストリーミング処理を、

1。クリックストリームログ水路を通じて取得したデータ、およびMySQLの静的データsqoopへのアクセス。

2。HDFSは、データウェアハウスハイブを構築するためにデータを保存します。

3。データを処理するため、スパークによるデータファイルを読み出します。

4。最終的にはHBaseの中に保存するHBaseのデータへとRedisの保存

5、火花オフラインファイルはtfrecordsを保存しました

6、トレーニングTensorFlow推定にモデルを使用して

7、TFは、モデルの展開にサービスを提供します

10、記事のテキストキーワード、キーワード構文、TFIDF、TextRank使用

図11は、テキストベクトルが計算されるword2vec

図12は、タグ記憶HBaseの、タグ、ラベルおよび歴史的比較に、減衰係数がマージ

3、プロジェクトの事業開発:

社会的なクラスは、物品の電気の供給、情報クラスの勧告で推奨、推奨されます

4、推薦図書のWebサイト

図書

「推薦システムのシステムと深い学習。」

「百台の顔機械学習」

「機械学習」 - ズハウ・ジワ

Webサイトのペーパー:

最新の推奨システム論文のモデル変更のダイナミクスを理解します。新しい構造を学ぶためにいくつかの新しい年

インタビューの質問は、コミュニティをお勧めします:

公開された698元の記事 ウォンの賞賛929 ビュー120 000 +

おすすめ

転載: blog.csdn.net/qq_35456045/article/details/104793376