大模型面试高频问题整理

大模型面试高频问题整理

原创 互联网持续学习圈 互联网持续学习圈 2023-08-27 13:03 发表于上海

最近大模型相关的招聘非常多,大模型相关的面试也初步完善,小编整理了一些大模型面试常见问题,供大家参考。问题不多,但绝对高频。希望在找相关机会的同学能有好的收获。同时也欢迎大家关注公众号,在后台留言讨论!

互联网持续学习圈

清华大学计算机系校友创办。70% 985高校及海外硕博,30% 互联网精英及自主创业者,持续学习者的专属圈。专注互联网资讯、科研、求职等。器识其先,文艺其从,陪你进化二十年。

31篇原创内容

公众号

  1. GPT和Bert的区别?

  2. NLP哪些场景不适用大模型?

  3. ChatGPT的优缺点?

    扫描二维码关注公众号,回复: 16444912 查看本文章
  4. GPT系列的演进?

  5. 为什么现在的大模型大多是decoder-only的架构?

  6. LLaMA的主要结构?

  7. 旋转位置编码的原理?

  8. RMSNorm和LayerNorm的区别?

  9. GLM是如何结合三种架构的?

  10. encoder的attention和decoder的attention的区别?

  11. 常见的大模型finetune方法?

  12. LoRA的原理,一般用在什么层?

  13. 低秩矩阵为什么表达能力弱?

  14. ChatGPT的训练步骤?

  15. RLHF分为几个阶段?

  16. PPO的原理?

  17. 为什么in-context learning有效?

  18. ChatGPT思维链能力是如何获取的?

  19. ChatGPT和 instructGPT的区别?

  20. BPE、wordpiece、sentencepiece的区别?

  21. attention的复杂度?attention的优化?

  22. Multihead self-attention代码实现?

  23. self-attention参数量计算?

  24. attention中QKV的含义和作用?

  25. attention mask是如何实现的?

  26. layer normalization的优化?

  27. layer normalization和batch normalization的区别?

  28. 位置编码的方式对比?

  29. Decoding方式对比?

  30. Bert的优缺点?MLM和NSP两个任务后续的改进?

  31. 国内做自研大模型的意义?

猜你喜欢

转载自blog.csdn.net/sinat_37574187/article/details/132524774
今日推荐