LLM的理论古往今来(持续更新ing...)

诸神缄默不语-个人CSDN博文目录

要真说追是很难追上的,反正就……
作为一个笔记集锦。

最近更新时间:2023.6.12
最早更新时间:2023.6.7

文章目录

2023年

  1. 综述
    1. (人大高瓴人工智能学院)《A Survey of Large Language Models》及其中文版《大语言模型综述》
      A Survey of Large Language Models
      https://github.com/RUCAIBox/LLMSurvey/blob/main/assets/LLM_Survey_Chinese_0418.pdf
  2. The Curse of Recursion: Training on Generated Data Makes Models Forget:(第一个版本的标题比较劲爆)大意就是说用LLM生成的数据再训练LLM会使LLM效果越来越烂
  3. Intelligence Primer
  4. 长文本
    1. Blockwise Parallel Transformer (BPT):Blockwise Parallel Transformer for Long Context Large Models
    2. The Impact of Positional Encoding on Length Generalization in Transformers:比较了不同PE的长度泛化效果
  5. (2023 ACL) Sen2Pro: A Probabilistic Perspective to Sentence Embedding from Pre-trained Language Model:将句子表征为向量空间的probability density distribution。这个方法不用retrain,可以直接插到LLM上
  6. 为什么现在的LLM都是Decoder only的架构? - 知乎

2019年

  1. Adapter:怎么说呢感觉就是在LLM里新加了一个模块,然后只调这个模块,不调全局参数。
    这样使得微调效率upup
    1. 论文
      1. (2019 ICML) Parameter-Efficient Transfer Learning for NLP adapters
    2. 介绍博文:NLP中的Adapters是什么? | Finisky Garden

猜你喜欢

转载自blog.csdn.net/PolarisRisingWar/article/details/131095096
今日推荐