各种预训练模型的理论和调用方式大全

诸神缄默不语-个人CSDN博文目录

本文主要以模型被提出的时间为顺序,系统性介绍各种预训练模型的理论(尤其是相比之前工作的创新点)、调用方法和表现效果。

最近更新时间:2023.5.17
最早更新时间:2023.5.10

  1. Bert
  2. Roberta
  3. XLNet
  4. Longformer
    序列长度必须是512的整数倍1
    1. 中文版:ValkyriaLenneth/Longformer_ZH
      tokenizer必须要用BertTokenizer2
  5. UniLM
    【论文解读】UniLM:一种既能阅读又能自动生成的预训练模型
  6. SciBert
  7. RPT
  8. NEZHA
  9. 百度系:ERNIE-百度,文心一言
  10. ERNIE-清华
  11. DistilledBert
  12. Bart
  13. CPT
  14. Pegasus
  15. OpenAI系
    ChatGPT 3.5 API的调用不全指南(持续更新ing…)
    1. GPT-2
    2. GPT-3
    3. GPT-3.5
    4. ChatGPT
      1. InstructGPT
      2. CodeX
        1. ChatGPT技术解析系列之:赋予GPT写代码能力的Codex - 知乎
        2. pass@k
  16. Bard

  1. https://github.com/huggingface/transformers/blob/main/src/transformers/models/longformer/modeling_longformer.py
    在这里插入图片描述 ↩︎

  2. 参考我在该项目下提出的issue:如直接使用LongformerTokenizer会报此错,是否需要使用BertTokenizer? · Issue #2 · ValkyriaLenneth/Longformer_ZH ↩︎

猜你喜欢

转载自blog.csdn.net/PolarisRisingWar/article/details/130533565