要真说追是很难追上的,反正就……
作为一个笔记集锦。
最近更新时间:2023.6.12
最早更新时间:2023.6.7
2023年
- 综述
- (人大高瓴人工智能学院)《A Survey of Large Language Models》及其中文版《大语言模型综述》
A Survey of Large Language Models
https://github.com/RUCAIBox/LLMSurvey/blob/main/assets/LLM_Survey_Chinese_0418.pdf
- (人大高瓴人工智能学院)《A Survey of Large Language Models》及其中文版《大语言模型综述》
- The Curse of Recursion: Training on Generated Data Makes Models Forget:(第一个版本的标题比较劲爆)大意就是说用LLM生成的数据再训练LLM会使LLM效果越来越烂
- Intelligence Primer
- 长文本
- Blockwise Parallel Transformer (BPT):Blockwise Parallel Transformer for Long Context Large Models
- The Impact of Positional Encoding on Length Generalization in Transformers:比较了不同PE的长度泛化效果
- (2023 ACL) Sen2Pro: A Probabilistic Perspective to Sentence Embedding from Pre-trained Language Model:将句子表征为向量空间的probability density distribution。这个方法不用retrain,可以直接插到LLM上
- 为什么现在的LLM都是Decoder only的架构? - 知乎
2019年
- Adapter:怎么说呢感觉就是在LLM里新加了一个模块,然后只调这个模块,不调全局参数。
这样使得微调效率upup