Рекомендуемая колонка: «Большая модель AIGC».
Эта колонка посвящена изучению и обсуждению самых передовых технологических тенденций и областей применения, включая, помимо прочего, ChatGPT и Stable Diffusion. Мы углубимся в разработку и применение крупномасштабных моделей и связанной с ними технологии искусственного интеллекта, генерируемого контента (AIGC). Благодаря углубленному техническому анализу и обмену практическим опытом он призван помочь читателям лучше понять и применить последние разработки в этих областях.
1. ГЛМ
https://arxiv.org/pdf/2103.10360.pdf
GLM — это аббревиатура от General Language Model, представляющая собой среду предварительного обучения общей языковой модели. Его основная цель — выполнить предварительное обучение посредством заполнения пробелов авторегрессии, чтобы решить проблему плохой производительности существующих структур предварительного обучения в таких задачах, как понимание естественного языка (NLU), безусловная генерация и условная генерация.
В частности, GLM работает путем случайного маскировки последовательных токенов в тексте и обучения модели последовательному восстановлению этих замаскированных частей. Эта цель авторегрессионного заполнения пробелов позволяет GLM лучше фиксировать зависимости между токенами в контексте и обрабатывать пробелы переменной длины. GLM повышает производительность предварительного обучения заполнению пробелов за счет добавления 2D-позиционного кодирования и обеспечения произвольного порядка пробелов.
Эта диаграмма иллюстрирует процесс предварительного обучения GLM, а конкретное объяснение следующее:
a) Исходный текст: задан исходный текст, например [x1, x2, x3, x4, x5, x6]. В этом примере мы случайным образом выбрали два последовательных фрагмента слова [x3] и [x5, x