大模型面试高频问题整理
原创 互联网持续学习圈 互联网持续学习圈 2023-08-27 13:03 发表于上海
最近大模型相关的招聘非常多,大模型相关的面试也初步完善,小编整理了一些大模型面试常见问题,供大家参考。问题不多,但绝对高频。希望在找相关机会的同学能有好的收获。同时也欢迎大家关注公众号,在后台留言讨论!
互联网持续学习圈
清华大学计算机系校友创办。70% 985高校及海外硕博,30% 互联网精英及自主创业者,持续学习者的专属圈。专注互联网资讯、科研、求职等。器识其先,文艺其从,陪你进化二十年。
31篇原创内容
公众号
-
GPT和Bert的区别?
-
NLP哪些场景不适用大模型?
-
ChatGPT的优缺点?
扫描二维码关注公众号,回复: 16444912 查看本文章 -
GPT系列的演进?
-
为什么现在的大模型大多是decoder-only的架构?
-
LLaMA的主要结构?
-
旋转位置编码的原理?
-
RMSNorm和LayerNorm的区别?
-
GLM是如何结合三种架构的?
-
encoder的attention和decoder的attention的区别?
-
常见的大模型finetune方法?
-
LoRA的原理,一般用在什么层?
-
低秩矩阵为什么表达能力弱?
-
ChatGPT的训练步骤?
-
RLHF分为几个阶段?
-
PPO的原理?
-
为什么in-context learning有效?
-
ChatGPT思维链能力是如何获取的?
-
ChatGPT和 instructGPT的区别?
-
BPE、wordpiece、sentencepiece的区别?
-
attention的复杂度?attention的优化?
-
Multihead self-attention代码实现?
-
self-attention参数量计算?
-
attention中QKV的含义和作用?
-
attention mask是如何实现的?
-
layer normalization的优化?
-
layer normalization和batch normalization的区别?
-
位置编码的方式对比?
-
Decoding方式对比?
-
Bert的优缺点?MLM和NSP两个任务后续的改进?
-
国内做自研大模型的意义?