大規模モデルのインタビューの頻度の高い質問の分類
2023-08-27 13:03に上海で公開された オリジナルのインターネット継続学習サークル
最近は大型モデル関連の求人が多く、大型モデルに関する面接も当初は改善されてきましたが、大型モデルの面接に関してよくある質問を編集部がまとめてみましたので参考にしてください。問題はそれほど多くありませんが、頻度が高いことは間違いありません。関連する機会を探している学生が良い結果をもたらすことを願っています。同時に、皆さんも公式アカウントに注目して、バックグラウンドで議論するメッセージを残してください。
インターネット継続学習サークル
清華大学コンピューター学部の卒業生によって設立されました。985 の大学と海外の修士号および博士号の 70%、インターネットエリートと自営業の起業家の 30%、継続的な学習者の独占的なサークルです。インターネット情報、科学研究、就職活動などに重点を置きます。まず道具を認識し、文学と芸術がそれに続き、20年間の進化に伴走します。
31のオリジナルコンテンツ
一般公開なし
-
GPTとバートの違いは何ですか?
-
NLP のどのシナリオが大規模モデルに適していませんか?
-
ChatGPTのメリットとデメリットは?
-
GPTシリーズの進化?
-
現在の大規模モデルのほとんどがデコーダのみのアーキテクチャであるのはなぜですか?
-
LLaMAの主な構造は?
-
回転位置コーディングはどのように機能しますか?
-
RMSNorm と LayerNorm の違いは何ですか?
-
GLM は 3 つのアーキテクチャをどのように組み合わせますか?
-
エンコーダーの注意とデコーダーの注意の違いは何ですか?
-
大型モデルの一般的な微調整方法?
-
LoRAの原理は一般的にどの層で使われているのでしょうか?
-
なぜ低位行列は表現力が弱いのでしょうか?
-
ChatGPT のトレーニング手順は?
-
RLHF の段階は何ですか?
-
PPOの原則?
-
コンテキスト学習が効果的なのはなぜですか?
-
ChatGPTの思考連鎖能力はどのようにして得られるのでしょうか?
-
ChatGPT と instructGPT の違いは何ですか?
-
BPE、ワードピース、センテンスピースの違いは何ですか?
-
注意の複雑さ? 注意力の最適化?
-
マルチヘッドセルフアテンションコードの実装?
-
自注意パラメータ計算?
-
注目されるQKVの意味と機能とは何ですか?
-
アテンションマスクはどのように実装されますか?
-
レイヤー正規化の最適化?
-
レイヤー正規化とバッチ正規化の違いは何ですか?
-
位置エンコード方式の比較?
-
デコード方式の比較?
-
バートのメリットとデメリットは?MLM と NSP の 2 つのタスクに対するその後の改善はありますか?
-
自社開発の大型模型を中国でやる意義とは何でしょうか?