LLaMA: Open and Efficient Foundation Language Models

业界资讯 2023-08-25 19:54:40 阅读次数: 0

背景

用最少的计算资源，解决了LLM大模型预测问题，训练了一些列的LLaMa模型，在参数量比较少的情况下，达到业界大模型效果。
主要贡献就是提升了LLM模型的训练速度和效率，在小容量的基础上，大大提升了模型的效果。
同时由于模型结构更小更简单，大大提升了推理速度。

数据

预训练的数据都是业界公开的数据结合，比较透明。
在这里插入图片描述

模型结构

主体模型结构还是transformer经典模型结构，但是进行了优化，比如说不是在每一层的output结果上进行norm正则化，而是在input层进行norm正则化。替换了激活函数等。
在这里插入图片描述

优化器

在这里插入图片描述

训练加速优化

使用了《SELF-ATTENTION DOES NOT NEED O(n2) MEMORY》思想，对self-attention进行了内存优化，将内存使用量从O(n2)简化到了O(log(n))，大大降低了模型内存占用量，有效提升了长序列处理的能力。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/WitsMakeMen/article/details/131606157

LLaMA Open and Efficient Foundation Language Models

LLaMA: Open and Efficient Foundation Language Models

【LLM系列之LLaMA】LLaMA: Open and Efficient Foundation Language Models

一个开源的大型语言模型LLaMA论文简单解读，LLaMA: Open and Efficient Foundation Language Models

Code Llama: Open Foundation Models for Code

LLaMA 2: Open Foundation and Fine-Tuned Chat Models

LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-into Attention论文解读

LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

VL 模型 Open-Set Domain Adaptation with Visual-Language Foundation Models 论文阅读笔记

PMC-LLaMA: Towards Building Open-source Language Models for Medicine

AMiner推荐论文：Hierarchical Transformers Are More Efficient Language Models

SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models

LONGQLORA: EFFICIENT AND EFFECTIVE METHOD TO EXTEND CONTEXT LENGTH OF LARGE LANGUAGE MODELS

Baichuan 2: Open Large-scale Language Models

【LLM】大语言模型学习之LLAMA 2：Open Foundation and Fine-Tuned Chat Model

论文解读：Factuality Enhanced Language Models for Open-Ended Text Generation

LLMs之Baichuan 2：《Baichuan 2: Open Large-scale Language Models》翻译与解读

[论文笔记]Baichuan 2: Open Large-scale Language Models

ChatGPT’s One-year Anniversary: Are Open-Source Large Language Models Catching up?

【NLP】Conditional Language Models

The rise of language models

Open Letter to the Linux Foundation

LLM | A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models论文详解

转：Language Models as Knowledge Embeddings

Adapting Language Models to Compress Contexts

Challenges and Applications of Large Language Models

A Survey of Large Language Models Attribution

Large Language Models in Finance: A Survey

Mesh基础模型（Foundation models）（一）

Language Models, Agent Models, and World Models: The LAW for Machine Reasoning and Planning

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)