[Курс серии «Большие модели AIGC» 3-2] Отечественная большая модель с открытым исходным кодом: ChatGLM

Рекомендуемая колонка: «Большая модель AIGC».
Эта колонка посвящена изучению и обсуждению самых передовых технологических тенденций и областей применения, включая, помимо прочего, ChatGPT и Stable Diffusion. Мы углубимся в разработку и применение крупномасштабных моделей и связанной с ними технологии искусственного интеллекта, генерируемого контента (AIGC). Благодаря углубленному техническому анализу и обмену практическим опытом он призван помочь читателям лучше понять и применить последние разработки в этих областях.

1. ГЛМ

https://arxiv.org/pdf/2103.10360.pdf
GLM — это аббревиатура от General Language Model, представляющая собой среду предварительного обучения общей языковой модели. Его основная цель — выполнить предварительное обучение посредством заполнения пробелов авторегрессии, чтобы решить проблему плохой производительности существующих структур предварительного обучения в таких задачах, как понимание естественного языка (NLU), безусловная генерация и условная генерация.
В частности, GLM работает путем случайного маскировки последовательных токенов в тексте и обучения модели последовательному восстановлению этих замаскированных частей. Эта цель авторегрессионного заполнения пробелов позволяет GLM лучше фиксировать зависимости между токенами в контексте и обрабатывать пробелы переменной длины. GLM повышает производительность предварительного обучения заполнению пробелов за счет добавления 2D-позиционного кодирования и обеспечения произвольного порядка пробелов.
Вставьте сюда описание изображения

Эта диаграмма иллюстрирует процесс предварительного обучения GLM, а конкретное объяснение следующее:
a) Исходный текст: задан исходный текст, например [x1, x2, x3, x4, x5, x6]. В этом примере мы случайным образом выбрали два последовательных фрагмента слова [x3] и [x5, x

Supongo que te gusta

Origin blog.csdn.net/u011239443/article/details/132522269
Recomendado
Clasificación