[Оригинал] Принцип работы AIGC ChatGPT

Что такое АЙГК

AIGC — Контент, сгенерированный ИИ (контент, сгенерированный ИИ), соответствующий нашему прошлому — это в основном UGC (контент, сгенерированный пользователями) и PGC (контент, сгенерированный профессиональными пользователями).

AIGC означает, что весь выходной контент создается роботами ИИ. Основное отличие состоит в том, что в прошлом контент производили обычные пользователи и профессиональные пользователи (люди) в определенной области. AIGC в основном полагается на искусственный интеллект (не человеческий) для создания контента. ., это основной смысл AIGC.

(Идентификация авторского права: UGC и PGC имеют понятие авторского права, и авторское право принадлежит лицу, ответственному за создание контента. В настоящее время правила AIGC в США считают, что понятие авторского права отсутствует, то есть контент не принадлежит вызывающему абоненту. , и он не принадлежит этой машине ИИ, так что это не объект авторского права.)

Какой контент может генерировать AIGC

В настоящее время AIGC может в основном генерировать текстовый контент и контент изображений (в настоящее время есть некоторые продукты для генерации видео, но они не настолько развиты, как генерация текста и изображений), поэтому мы в основном сосредоточены на внедрении AIGC для текста и изображений.

Что касается текстового контента, AIGC может в основном взаимодействовать в форме вопросов и ответов (ответы на вопросы), а также может создавать и выводить контент, который соответствует ожиданиям людей в соответствии с «вопросами», которые хотят люди.

В общем, мы можем думать об ИИ как о всезнающем и всемогущем «продвинутом человеке», используя «текстовый AIGC», вы можете задавать ему вопросы (Prompt), и тогда он соответственно ответит. Все вопросы и ответы могут включать в себя все аспекты, включая, помимо прочего, знание энциклопедии/творческий копирайтинг/новый сценарий/программирование кода/преобразование перевода/написание диссертации/образование и обучение/рекомендации/общение в чате и т. д. Вы должны подумать об этом. все, и вы можете понять, что это «байсяошэн» со знанием всей земли, и вы можете спрашивать его или общаться с ним о чем угодно.

Например, мы используем знаменитый ChatGPT, чтобы задавать вопросы:

Для «Picture AIGC» у вас может быть бесчисленное количество идей в голове, но вы не можете рисовать и не можете превратить идеи в своем уме в настоящие картины.Тогда «Picture AIGC» может помочь вам следовать тому, что вы хотите. Вы говорите ему, что хотите, и тогда он может помочь вам нарисовать это для вас в виде картины, позволяя вам сразу же превратить ваше «творчество» в реальность картины.

Например, мы используем очень полезный инструмент «picture AIGC» Midjourney для рисования:

Что такое нижний слой AIGC

Нижний слой AIGC в основном опирается на технологию ИИ. Суть технологии ИИ заключается в том, чтобы позволить машинам иметь тот же интеллект, что и люди (искусственный интеллект), поэтому необходимо позволить машинам учиться и думать, как люди. Поэтому большинство базовые технологии, реализующие ИИ, называются технологиями искусственного интеллекта «Машинное обучение» (Machine Learningin).

Существует множество сценариев применения технологии машинного обучения, например, распознавание лиц (разблокировка мобильного телефона/оплата Alipay/разблокировка контроля доступа и т. д.), распознавание речи (одноклассники Xiaoai/Xiaodu/Siri), изменение лица (привязка красоты и т. д.). .) очень часто используются в настоящее время красота / камера красоты), навигация по карте, прогноз погоды, поисковая система, NLP (обработка естественного языка), автоматическое вождение, управление роботом, AIGC и т. д.

Как машины учатся

Машинное обучение можно просто понимать как процесс имитации человеческого обучения.Давайте посмотрим, как машины имитируют человеческое обучение.

Давайте посмотрим на так называемое «машинное обучение»:

Для человеческого обучения вещи, которые мы видим и с которыми сталкиваемся, являются нашими «данными» (корпусом), а затем мы передаем «резюме обучения» (алгоритм обучения) и, наконец, становимся «знанием, опытом, мудростью» (моделью), и когда мы с чем-то сталкиваемся, мы будем называть это «методологией опыта знания», чтобы совершать соответствующие ответные действия по принятию решений (прогностическое рассуждение);

Для машинного обучения в него вводится большое количество «корпуса» (видение встречающихся вещей), а затем с помощью алгоритмов машинного обучения (обобщение и индукция для извлечения схожих точек) и, наконец, формируется «модель» (методология опыта знаний). , а затем при столкновении с некоторыми решениями, которые необходимо оценить, мы дадим «модели» вещи, которые должны быть оценены и решены, а затем сообщим нам выходные результаты (результаты рассуждений и предположений);

На уровне абстракции мы обнаружим, что, по сути, внутренняя природа «человеческого обучения» и «машинного обучения» очень похожа.

Давайте посмотрим на процесс машинного обучения на компьютере:

Основные этапы: «данные для обучения ➜ алгоритм обучения ➜ модель ➜ прогноз ➜ выходные результаты», где конечным результатом является «модель» (модель, файл модели), а затем в основном предварительная «модель обучения» и пост- «Прогнозирование модели», а затем генерировать соответствующие результаты.

Мы можем просто понять описанный выше процесс так: «модель» — это щенок, а заводчик — «алгоритм дрессировки». Щенок выучит некоторые навыки (модели). процесс исполнения является прогнозированием.

Таким образом, мы увидим, что чем больше признаков (опыт знаний) в «модели», тем точнее она будет на этапе «предсказания». итогового результата прогноза может быть выше, уменьшится. (Точно так же, чем больше человек встречает, тем больше опыта он может суммировать. Как говорится, "Нет в жизни белых дорог и нет белых ям" - наверное, такая логика)

Классификация машинного обучения

Машинное обучение (Machine Learningin) После десятилетий исследований существует множество типов реализации технологий, которые можно разделить на категории в зависимости от стратегий обучения, методов обучения, методов обучения и целей обучения.

Классификация на основе стратегий обучения: в основном существуют две школы «символического обучения» и «обучения нейронной сети», которые имитируют принцип работы человеческого мозга; другая школа стратегий обучения — это метод машинного обучения, основанный на математическом статистическом анализе.

Классификация на основе методов обучения: машинное обучение в основном включает индуктивное обучение, дедуктивное обучение, обучение по аналогии и аналитическое обучение.Это классификация методов обучения, аналогичная «символическому обучению» человеческого мозга.

Классификация, основанная на методах обучения: в основном контролируемое обучение (под руководством учителя), неконтролируемое обучение (самообучение) и обучение с подкреплением (прогресс посредством обратной связи с вознаграждением и наказанием окружающей среды).

В классификации машинного обучения мы ориентируемся на классификацию «стратегии обучения» и «метода обучения», На чем фокусируется стратегия обучения: на машинном обучении на основе «математического статистического анализа» или на машинном обучении на основе «нейронной сети». Другой метод обучения, который в основном фокусируется на обучении с учителем, обучении без учителя и обучении с подкреплением.

Развитие машинного обучения

Технология машинного обучения в основном пережила три основные технологические эпохи от подъема до глубокого обучения.Первая - это восходящая эра, затем эра традиционного машинного обучения и, наконец, эра глубокого обучения на основе нейронных сетей.Следующее просто делается в соответствии с моим личное понимание. Классификация стадий развития.

Восходящая стадия : модель персептрона (MCP) родилась в 1943 году. Психолог и математический логик предложили концепцию искусственной нейронной сети и математическую модель искусственного нейрона, которые создали эру исследований искусственных нейронных сетей. Затем, с 1960-х по 1980-е годы, были концепции машинного обучения и распознавания образов, которые относились к этапу подъема и исследования всего исследования.На этом этапе продолжались исследования в различных направлениях, и расцвели сотни цветов.

Первый этап : традиционное машинное обучение (Machine Learningin), поскольку первый семинар по техническому обучению был проведен в 1980 году, хотя в то же время также проводятся исследования нейронных сетей, можно просто понять, что они в основном основаны на математике и статистике. Методы машинного обучения, особенно в период с 1990 по 2001 год, претерпели большое развитие от теории к практике. С этого периода до 2006 года традиционное машинное обучение, которое в основном популярно в информационной индустрии, включает в себя традиционную скрытую марковскую модель (HMM), условные случайные поля (CRF), модель максимальной энтропии (MaxEnt), Bboosting, метод опорных векторов (SVM). ), байесовский (Bayes) и т. д., конкретная практика включает линейную регрессию, логистическую регрессию, SVM, дерево решений, случайный лес, наивный байесовский и другие алгоритмы посадки. Причинно-следственная логика и промежуточный процесс вычислений этих алгоритмов ясны и ясны, в основном ясны и правдоподобны, недостаток в том, что конечный эффект имеет верхний предел, а конечного «умного» эффекта иногда может не хватить.

Второй этап V1 : "Глубокое обучение". В 2006 году Хинтон, крестный отец машинного обучения, опубликовал статью о глубокой нейронной сети, которая официально открыла этап "глубокого обучения" на основе нейронной сети. Его можно просто рассматривать как "Глубокое обучение". Это еще один путь традиционного машинного обучения. Его основное отличие состоит в том, что он имеет другой путь с точки зрения "стратегии обучения". Традиционное машинное обучение в основном опирается на метод "математического статистического анализа", а процесс результаты могут быть получены; глубокое обучение в основном также основано на том, чтобы позволить компьютерам моделировать человеческий мозг так же, как нейронные сети.

Второй этап V2 : Transformer model (модель Трансформера), механизм Attention был предложен в 2015 году, Google опубликовал статью «Внимание — это все, что вам нужно» в 2017 году, на основе этой статьи в 2018 году он был предложен на основе второй Этап нейронной сети Модель Transformer, основанная на архитектуре кодер-декодер, отказывается от традиционных моделей RNN и CNN и реализуется только механизмом Attention (механизм внимания), а поскольку сторона кодировщика вычисляется параллельно, обучение время сильно сокращается. Модель Transformer широко используется в области НЛП, машинного перевода, суммирования текста, систем ответов на вопросы и т. д. В последние годы более распространенные модели Bert и GPT основаны на модели Transformer.

Давайте взглянем на основную историю развития глубокого обучения:

Разница между традиционным машинным обучением и глубоким обучением

Глубокое обучение — это не то же самое, что традиционное машинное обучение, поэтому оно в основном используется для определения нейронной сети различных слоев параметров сетевой структуры, поэтому существует множество методов обучения нейронной сети, включая предварительно обученные сети без учителя (неконтролируемые предварительно обученные сети). , объемные сверточные нейронные сети, рекуррентные нейронные сети, рекурсивные нейронные сети и т. д.;

Нейронная сеть называется «глубокое обучение» в основном из-за количества слоев в так называемой нейронной сети.1-2 слоя называются мелкими нейронными сетями, а более 5 слоев называются глубокими нейронными сетями, также известными как глубокое обучение. .

Среди них основная сверточная сеть (CNN — Convolutional Neural Networks), циклическая нейронная сеть (RNN — Recurrent Neural Networks) + рекурсивная нейронная сеть (RNN — Recursive Neural Networks), РНС с долгой кратковременной памятью (LSTM — Long Short-term Neural Networks). memory) и инфраструктуру Transformer, которая добавляет механизм Attention для решения некоторых проблем в LSTM/RNN.

Глубокое обучение лучше традиционного машинного обучения в компьютерном зрении (CV, например, распознавание изображений), обработке естественного языка (NLP), автономном вождении, управлении роботами и т. д.

Когда масштаб обучающих данных относительно невелик, производительность традиционных алгоритмов машинного обучения неплохая, но при увеличении данных эффект традиционного машинного обучения не увеличивается, и будет критическая точка; но для глубокого обучения чем больше данных, тем лучше эффект.хорошо. Так что это также процесс постепенной замены «традиционного машинного обучения» на «глубокое обучение».

Таблица сравнения производительности традиционного машинного обучения и глубокого обучения:

Разница в обработке между традиционным машинным обучением и глубоким обучением: (традиционные функции машинного обучения понятны, внутренние функции глубокого обучения — это черные ящики)

Общий рабочий механизм нейронной сети, используемой в глубоком обучении, заключается в моделировании рабочего механизма человеческого мозга, такого как процесс видения объекта нашими глазами:

Давайте посмотрим на процесс обучения на основе «глубокого обучения» нейронной сети:

Из приведенного выше рабочего процесса нейронной сети мы видим, что весь процесс «глубокого обучения» на основе нейронной сети в основном полностью отличается от традиционного машинного обучения.

Еще одно отличие состоит в том, что традиционное машинное обучение может в основном использовать традиционные операции ЦП во время обучения, но с точки зрения глубокого обучения из-за большого количества слоев нейронной сети и большого объема вычислений обычно необходимо использовать вычислительные чипы GPU или AI. (Карта ИИ) для выполнения вычислений, которые мы часто называем «вычислительными мощностями».

Вычислительные затраты на глубокое обучение с точки зрения расчета крупномасштабных данных поразительны.Возьмем ChatGPT в качестве примера, ходят слухи, что вычисление стоило около 10 000 графических процессоров NVIDIA A100. Текущая продажная цена карт JD A100 составляет около 100 000 юаней. примерная стоимость вычислительной мощности обучения примерно оценивается примерно в 1 миллиард юаней.Согласно данным, опубликованным ChatGPT, для обучения большой модели требуется около 12 миллионов долларов США.Поэтому, помимо конкурирующих алгоритмов, вычислительная мощность является важным решающим фактором.

(Графический процессор NVIDIA A100 используется для обучения ChatGPT)

Процесс формирования ТГП

Выше мы кратко представили базовые знания традиционного машинного обучения и глубокого обучения, GPT можно понимать как эволюционный апгрейд глубокого обучения.

Опираясь на логику глубокого обучения выше, давайте макросами посмотрим, что включает в себя нейросеть глубокого обучения (профессиональный контент, его можно пропустить):

Глубокое обучение можно понимать как: метод классификации в основном основан на «стратегии машинного обучения», это стратегия «нейронной сети», а «метод обучения» в основном создается путем объединения различных сценариев, таких как обучение с учителем и обучение без учителя (может также включают обучение с подкреплением.) Подход «машинного обучения» называется «глубоким обучением».

GPT — это итеративная и модернизированная версия нейросетевой модели (в области глубокого обучения).Развитие и прогресс любой технологии получается не щепоткой, а результатом стояния на плечах гигантов.Мы можем получить обзор изменений и корреляций:

(Временная шкала от запуска нейронной сети до итерации GPT)

[Модель нейронной сети (предложена в 1943 г.) ➜ RNN (циклическая нейронная сеть рекуррентных нейронных сетей, предложенная в 1986 г.) ➜ LSTM ((сеть с долговременной кратковременной памятью, предложенная в 1997 г.) ➜ DL (глубокое обучение, глубокое обучение) концепция 2006 предложена в 2015 г.) ➜ Внимание (механизм внимания, предложен в 2015 г.) ➜ Трансформатор (предложен в 2018 г.) ➜ GPT ( Generative Pre-trained Transformer Generation Pre-training Transformation Model, разработанная в 2018 г.) ➜ GPT-1~4 (модель итеративное обновление, 2018~2023)]

Давайте посмотрим на ход собственной итерации GPT:

С точки зрения вышеуказанного ритма развития, для GPT наибольшее влияние на него оказало рождение модели Transformer.В сочетании с огромным корпусом и мощной вычислительной мощностью в мире она обладает особой способностью сделать GPT превосходящим время.

Преимущества фреймворка Transformer, архитектура Transformer полностью опирается на механизм Attention (механизм внимания), который решает проблему долговременной зависимости ввода и вывода, и имеет возможность параллельных вычислений (Multi-head), что значительно снижает время вычислений. Модуль самоконтроля позволяет сначала «самоассоциировать» исходную последовательность и целевую последовательность. Таким образом, представление Embedding (встраивание слов) исходной последовательности и самой целевой последовательности содержит больше информации, а последующая FFN (сеть прямой связи) Слои также повышают выразительность модели. Модуль Muti-Head Attention позволяет стороне кодировщика иметь возможности параллельных вычислений. Проще говоря, она сильно коррелирована и может быть рассчитана параллельно, так что это очень хорошая модель нейронной сети.

Схема базовой рабочей структуры фреймворка Transformer:

(Структура кодер-декодер)

(внутренняя реализация кодировщика-декодера)

Что означает GPT

Полное название GPT — Generative Pre-trained Transformer (сгенерированная предварительно обученная модель преобразования), которая обучается на большом количестве корпусных данных для генерации текста, похожего на человеческий естественный язык. «Предобучение» в его названии относится к начальному процессу обучения на большом текстовом корпусе, в котором модель учится предсказывать следующее слово в отрывке, что может выполнять различные задачи обработки естественного языка, такие как генерация текста, код генерация, генерация видео, ответы на текстовые вопросы, генерация изображений, написание статей, создание фильмов и телепередач, разработка научных экспериментов и многое другое.

В приведенном выше введении в машинное обучение мы узнали, что GPT на самом деле является обновлением, основанным на «глубоком обучении».Обновление в основном основано на модели Transformer, которая родилась в статье, опубликованной Google в 2017 году. Основными моделями реализации, основанными на идеях дизайна модели Transformer, являются модель Bert и модель GPT. Google и Baidu выбрали технический маршрут модели Bert, а OpenAI выбрал технический маршрут модели GPT. С точки зрения 2023 года выбор маршрута GPT модель хорошая.

Выше мы упоминали, что «модель» в машинном обучении будет определять, близок ли окончательный результат «прогноза» к точности, поэтому можем ли мы просто понять, что если моя «модель» больше (чем богаче знания и опыт), это означает, что мы «предсказываем». Чем выше уровень точности (тем точнее суждения о вещах), то «большая модель», созданная этим машинным обучением, обычно называется LLM (Large Language Model, большая языковая модель, называемая «большой моделью»). ).

Давайте посмотрим, почему ChatGPT такой удивительный, и он шокировал все крупные компании и людей во всем мире.Давайте посмотрим на параметры его модели:

GPT-версия

количество параметров

тренировочные данные

ГПТ-1

120 миллионов

Июнь 2018 г. — BookCorpus представляет собой сборник из 7000 неопубликованных книг общим размером 4,5 ГБ. Эти книги охватывают множество различных литературных жанров и тем.

ГПТ-2

1,5 миллиарда

Февраль 2019 г. — WebText представляет собой корпус из восьми миллионов документов общим размером 40 ГБ. Тексты были собраны с 45 миллионов страниц Reddit, получивших наибольшее количество голосов, и охватывают различные темы и источники, такие как новости, форумы, блоги, Википедия и социальные сети.

ГПТ-3

175 миллиардов

Май 2020 г. - Крупномасштабный текстовый корпус общим размером 570 ГБ, содержащий около 400 млрд токенов. Эти данные в основном поступают из CommonCrawl, WebText, английской Википедии и двух корпусов книг (Books1 и Books2). (Примечание. Еще одно утверждение состоит в том, что данные предварительной подготовки составляют 45 ТБ для справки.)

ГПТ-3,5

175 миллиардов

Ноябрь 2022 г. - выпущено доводочное обновление GPT3.5 на основе GPT3, и одновременно выпущен чат-бот Chat для GPT-3.5, взорвавший мир. Корпус основан на корпусе GPT-3, крайний срок сбора корпуса — май 2020 года.

ГПТ-4

1750-100 трлн

Март 2023 г. - выпущена модель GPT-4, значительно улучшена точность вопросов и ответов, токена длины контента и т. д. Крайний срок сбора корпуса - сентябрь 2021 г. Ходят слухи, что GPT-4 был завершен в течение OpenAI в августе 2022 г. тренируется. (Количество параметров неизвестно, ожидается, что оно будет выше 175 миллиардов)

На временной шкале мы видим, что с тех пор, как Google выпустил статью в 2017 году, модель Transformer появилась на основе статьи в 2018 году, а затем на этой основе, в 2018 году, OpenAI запустил модель GPT, основанную на модели Transformer, и Google отозвал Приняв модель Берта, Baidu выбрала путь модели Берта и последовательно модернизировала ее, чтобы она стала моделью Baidu ERNIE. Судя по текущим результатам, эффект модели GPT в сцене «робот вопросов и ответов» относительно хороший.

Основываясь на модели Берта и модели GPT, созданной на основе структуры Transformer, они пошли разными техническими путями.

Модель Берта использует механизм Transformer Encoder, который в основном получен путем «запоминания контекста» (в зависимости от контекста), поэтому он имеет преимущество в «закрытии» и больше подходит для сцены «решение проблемы»;

В модели GPT используется механизм Transformer Decoder, который в основном основан на методе «ввода контента для получения следующего». Каждое взаимодействие снова превращает входной текст и выходной текст во «вход» и работает по принципу «текстового пасьянса». ", поэтому он особенно подходит для всех творческих текстов.

Из-за разницы во всем внутреннем механизме все сценарии их применения будут очень разными.Такую же разницу можно увидеть в сценарии чат-робота: также в процессе ввода английского ввода модель GPT будет реагировать на правильный результат. Текстовый пасьянс, и модель Берта будет считать это правильным результатом Сценарий с заполнением пустого места из-за отсутствия контекстной информации может привести к менее релевантному результату.

(Эта фигура является просто примером, демонстрирующим различные рабочие механизмы, и сама модель Берта по-прежнему очень сильна.)

Но и для Bert, и для GPT дизайнерская идея фреймворка Transformer с учетом механизма внимания (Attention) имеет огромное влияние на успех этих двух моделей, особенно GPT.

Как работает ChatGPT

Многие из предыдущих принципов сложны для понимания, очень техническая терминология и специфический отраслевой словарь в индустрии машинного обучения.Ниже мы кратко представим весь принцип работы модели GPT в простой для понимания форме.

Как упоминалось выше, слово нашего GPT: Генеративный предварительно обученный преобразователь, Простой разбор этих трех слов:

Генеративный - генерировать следующее слово

Pre-trained - предварительная подготовка текста (различные текстовые материалы в интернете)

Transformer - основан на архитектуре Transformer.

Общее описание GPT таково: после предварительной подготовки текста с помощью архитектуры Transformer он может генерировать разумную модель продолжения текста в соответствии с заданным текстом. (Текстовый пасьянс)

ChatGPT — это большой черный ящик

Каждый, кто использовал Chat GPT, будет впечатлен его мощной способностью к диалогу, и многие люди даже думают, что он уже умеет думать и обладает самосознанием.

Прежде чем ответить на вопрос, как работает ChatGPT, я хотел бы попросить всех представить такой сценарий:

Человека, никогда не изучавшего китайский язык, запирают в закрытой комнате, в комнате есть пособие, по указанию которого он может дать достойный китайский ответ на любой китайский вопрос. Люди снаружи писали на записке по-китайски и вручали ее, а люди в комнате собирали по кусочкам китайский ответ в соответствии с руководством и раздавали его, так что люди в комнате, казалось, понимали китайский язык снаружи.

Приведенный выше сценарий представляет собой мысленный эксперимент «Китайская комната», предложенный Джоном Роджерсом Серлом, известным профессором философии Калифорнийского университета в Беркли. Этот мысленный эксперимент изначально был предложен для противодействия «тесту Тьюринга». Профессор Джон Серл считает: «Даже если компьютер дает вроде бы правильный ответ по программе, это не значит, что он действительно думает и понимает человеческие проблемы. Без мышления и понимания, самосознания и интеллекта будет не о чем говорить. "

Согласно базовым принципам машинного обучения, GPT — это начисто «китайская комната» (Chinese Room).

Для ChatGPT принцип аналогичен, то есть "большой черный ящик" (модель) выводит содержимое:

«G» ChatGPT — Генеративная модель (генеративная модель)

Всякий раз, когда вы делаете какой-либо запрос к ChatGPT, который выходит за рамки его возможностей, он вежливо отклоняет ваши инструкции на том основании, что «я всего лишь языковая модель».

Что такое языковая модель? В самых популярных словах это: «Учитывая вышеизложенное, возможность предсказания появления следующего слова» (prediction).

На самом деле это одна из наших человеческих языковых способностей. Всякий раз, когда мы слышим, как старший говорит «не слушай старика», мы знаем на 100%, что следующим он скажет «утрата перед нами»; когда наша мама говорит: «пусть ты утром принесешь зонт, но вы этого не сделаете», мы можем догадаться о следующем слове. Скорее всего, это будет «дождь» или «мокрый». Например, если кто-то говорит «молодой и трудолюбивый», ваше следующее предложение, скорее всего, будет следовать за « босс грустит».

Этот процесс не требует никакого грамматического или логического анализа, это просто интуитивный опыт, сформированный «слушанием слишком много раз» с детства до взрослой жизни. (Заучивание наизусть, практика делает совершенным)

Точно так же, пока мы собираем достаточно предложений для чтения компьютером, он также может имитировать этот опыт и использовать метод «словесного пасьянса» для непрерывной генерации слов и построения предложений.Это «генеративная языковая модель» ChatGPT (генеративная языковая модель). ) ).

Единственное, что он делает, это: «Создать следующее слово на основе вышеизложенного, затем добавить это слово к приведенному выше, сгенерировать следующее и т. д.» (Вот почему выходные данные ChatGPT всегда являются пословной причиной выскакивания)

Многие люди неправильно понимают метод генерации текста GPT, думая, что он ищет по базе знаний и собирает результаты воедино (по аналогии с поисковыми системами или базами данных), но на самом деле для GPT нет так называемых результатов генерации базы знаний. не простой поиск и лоскутное шитье, а расчет.

Можно просто понять, что следующему выходному слову нужно рассчитать бюджет в соответствии с вышеизложенным, а затем вывести слово с наибольшей вероятностью:

При расчете наиболее релевантной вероятности текста он также включает в себя расчет параметра модели и настройку параметра.Вот простой для понимания математический пример, упрощающий фактический процесс расчета:

Предположим, мы оговариваем: слово «ранний» равно 1, слово «шан» равно 2, слово «хороший» равно 3, слово «плохой» равно 4 и два неизвестных: X и Ю.

Вопрос: Когда X и Y равны, «раннее», умноженное на x плюс «on», умноженное на y, равно «хорошо», а когда x и y равны, расчетный результат равен «плохо»?

Фактически мы рассчитываем по основной формуле:

Когда и x, и y равны 1, результат равен «хорошо»; (1*1 + 2*1) = 3

Когда x равно 2, а y равно 1, результат равен «плохой»; (1*2 + 2*1) = 4

Следовательно, если мы хотим, чтобы компьютер выдавал «хорошо», увидев «утро», нам нужно настроить и x, и y на 1, где x и y называются «параметрами модели»; общее количество параметров ChatGPT (GPT- 3.5) Не менее 175 миллиардов и более, все его так называемые знания непрозрачно встроены в эти параметры (черный ящик нейросети), и именно эти параметры определяют качество ответа ChatGPT.

"T" из ChatGPT - Transformer (деформатор)

Такого рода языковая модель выглядит простой и грубой, хотя она очень хороша, но она долгое время не могла принципиально решить «проблему дальней зависимости» человеческого языка.

Например, это предложение: «Он обнаружил жуткое ____, спрятанное за этой гламурной и видной семьей», этот вопрос с заполнением пропусков, согласно вашему привычному восприятию, вы, вероятно, вставите слово «секрет» для этого пробела. , а какое из них впереди Слово решает залить "секрет"? Атрибут "жуткий"? Очевидно, что нет, потому что в этом случае вы можете заполнить пробел словами «фотография», «традиция», «послание», «история», «игра» и многими другими словами. На самом деле, здесь пусть вы сами решаете, что заполнять. Что действительно играет ключевую роль, так это глагол-сказуемое «обнаружить» в сочетании с двумя словами «скрытый» и «за» для образования слова «секрет». Чрезвычайно обязывающий, это «проблема зависимости от расстояния».

Но для обычных порождающих языковых моделей чем дальше находится предыдущее слово, тем меньше оно будет играть роли в порождении следующего слова.

До 2017 года команда машинного перевода Google впервые предложила архитектуру Transformer и «механизм внимания» в статье «Внимание — это все, что вам нужно». Так называемый «механизм внимания» означает, что когда человеческий мозг получает информацию, он не обрабатывает всю информацию, а выборочно сосредотачивается на «ключевых частях» информации.

Например, если я спрошу вас, что за животное на этой картинке:

Вы обязательно скажете мне «собака», но вы же видели плюшевую игрушку на картинке, почему вы не ответили «маленький динозавр»? Это происходит потому, что ваше внимание полностью привлекает «предмет» изображения, а прочая неважная информация напрямую отфильтровывается мозгом.

То же самое верно и для текста.На основе «Механизма внимания» компьютер может отфильтровывать другую неважную информацию при генерации секретов, позволяя обнаружению скрытой и скрытой информации играть большую роль. Это Т (Трансформатор) GPT. Благодаря этой архитектуре ChatGPT полностью решает проблему «дальней зависимости» между словами и может генерировать «свободный и естественный» текст, как человек. Не только это, но и независимо от того, насколько неясен ваш вопрос, он может точно извлечь «ключевые слова», необходимые для генерации следующего слова.

«P» ChatGPT — предварительно обученная модель (предобученная модель)

До сих пор процесс обучения и обучения ИИ не требует какого-либо вмешательства человека, пока он запоминается с достаточным количеством текста, этот метод обучения называется «Обучение без учителя» (Unsupervised Learning).

Чтобы добиться ожидаемого эффекта, OpenAI скормил модели GPT-3/3.5 всего 45 ТБ текстового корпуса для обучения.Примерно сравним размер данных: четыре основных китайских классика в сумме составляют 3,5 млн слов, около 10 МБ. согласно компьютерному коду, 45 ТБ равен 47 185 920 МБ, что эквивалентно объему текста в 4,72 миллиона наборов четырех известных произведений.

Например, эти китайские корпуса с открытым исходным кодом в Интернете:

С точки зрения содержания корпус обучающих текстов ChatGPT включает в себя: «Википедию», которая позволяет модели обладать межъязыковыми способностями и базовым здравым смыслом, «Интернет-корпус», который позволяет модели изучать популярный разговорный контент и публичный диалог; «Большое количество книг» — это позволяет модели научиться рассказывать истории; «бумажные журналы» — это позволяет модели изучить возможности строгой и рациональной организации языка; «веб-сайт Github» — это позволяет модели изучить возможность писать программный код и добавлять комментарии к коду.

Модель, полученная после вышеупомянутого обучения, уже обладает сильными общеязыковыми способностями и может быть использована для выполнения конкретных задач с небольшой подготовкой. Нет необходимости обучать с нуля, поэтому она называется «предварительно обученная модель». является P (предварительно обученным) ChatGPT.

После того, как общее обучение модели будет завершено, оно станет файлом модели один за другим, Чтобы облегчить вызов прогнозирования и рассуждений, это выглядит так:

ChatGPT в основном основан на GPT-3.5 для открытия функции чат-робота, весь ChatGPT в основном прошел три этапа обучения:

Фаза 1: Обучение без учителя

«Обучение без присмотра» означает обучение без присмотра человека, то есть без пометки данных людьми, данные могут быть напрямую использованы для обучения нейронной сети, например, для обучения ChatGPT, прямого предоставления статьи ChatGPT, а ChatGPT может обрезать следующий текст. , принимая предыдущий фрагмент текста в качестве входных данных и, наконец, сравнивая следующий фрагмент текста, выводимый ChatGPT, с обрезанным текстом.

Этот процесс является основным базовым процессом обучения GPT. Основным методом обучения является «текстовый пасьянс», который вводит бесчисленное количество корпусов и завершает этот процесс «неконтролируемого обучения» с помощью «текстового пасьянса». Этот процесс не зависит от GPT. Готово.

Для ChatGPT этот процесс в основном заключается в использовании всех упомянутых выше различных корпусов (новостей/энциклопедий/записей чатов/кода/книг/академических документов) и т. д., чтобы позволить GPT безумно учиться. По сути, этот процесс можно рассматривать как " процесс «самообучения» означает, что человек вообще не вмешивается в этот процесс, и все ТШП обучаются сами по себе, а затем обобщают законы всех текстов, отношения между информацией и информацией и т. д., чтобы сформировать базовую модель.

Фаза 2: контролируемое обучение

"Обучение с учителем" требует человеческого контроля для обучения, то есть люди должны помечать данные. Например, если вы хотите обучить нейронную сеть распознавать щенков на фотографиях, вам нужно заранее отметить, какие области на фотографиях являются щенками. , а затем эти изображения используются в качестве входных данных для нейронной сети, и, наконец, результаты, выдаваемые нейронной сетью, сравниваются с отмеченными результатами.Для ChatGPT некоторые вопросы и ответы человека готовятся заранее, а затем эти вопросы передаются ChatGPT для вывода ответов и ответов людей Сравните.

Для ChatGPT модель, сформированная на первом этапе неконтролируемого обучения, представляет собой процесс без участия человека, поэтому сама модель GPT может быть произвольной в отношении входного и выходного контента, поскольку она не может знать, соответствует ли контент парадигме принятия человеком, поэтому помощь человека необходим для обучения, чтобы ChatGPT стал моделью, которая в основном соответствует общепринятым ценностям и основным потребностям человека.

Это можно понимать как множество вопросов.Человек рассказывает образцы текстов ChatGPT и стандартные ответы.На данный момент в основном считается,что ChatGPT может нормально работать,но это не очень хорошо,и не может заставить людей чувствовать себя очень "умными" .

Фаза 3: Обучение с подкреплением (RL — Reinforcement Learning)

Так называемое обучение с подкреплением заключается в том, что люди оценивают ответы, генерируемые ChatGPT, чтобы ответы ChatGPT больше соответствовали человеческим предпочтениям.

Это можно понимать как дальнейшее предоставление модели GPT информации о том, что людям нравится и не нравится, когда второй этап соответствует спецификациям, и может выполнять тонкие обновления опыта. ChatGPT использует обучение с подкреплением обратной связи с человеком (RLHF). Благодаря этой точной настройке обучения с подкреплением ( SFT ), делая ChatGPT все более и более интеллектуальным.

Основное различие между контролируемым обучением и обучением с подкреплением, например, вопрос «что делать, когда моя девушка злится», разница между ними:

OpenAI выпустила «предобучающую модель» GPT-3 еще в 2020 году, а это значит, что она уже два года назад обладала большей частью возможностей ChatGPT, но почему она не вызвала никаких споров за пределами узкого круга искусственного интеллекта? А волны?

На самом деле, суть его заключается в «методе взаимодействия», то есть в том, как обычные люди общаются и взаимодействуют с ИИ.

Потому что люди склонны использовать «сходство» с собой в качестве показателя для измерения «интеллекта».Проще говоря: «Пока он выглядит как человек и говорит как человек, его можно считать человеком»; Первый робот для получения гражданства «София», разработанный гонконгской компанией Hansen Robotics, хотя и не такой умный, но также может получить гражданство через освещение в новостях.

Причина, по которой ChatGPT так популярен, заключается в том, что помимо его отличного качества, самое главное, что он снижает порог взаимодействия между обычными людьми и ИИ; пользователям нужен только простой диалог, чтобы быстро осознать информационные потребности обеих сторон, который является чатом ChatGPT.

«Чат» ChatGPT - RLHF (обучение с подкреплением на основе обратной связи с человеком, обучение с подкреплением с обратной связью с человеком)

Чтобы понять, что люди могут «общаться» с машинами одним предложением, ChatGPT может быстро работать и выводить контент, который удовлетворяет пользователей.Для достижения этого шага было приложено много усилий.

Введение в обучение с подкреплением

Прежде всего, давайте кратко разберемся с «обучением с подкреплением». OpenAI культивирует «обучение с подкреплением» (RL — Reinforcement Learning) с момента своего создания. Раннее «обучение с подкреплением» OpenAI в основном предназначено для обучения ИИ играть в игры. Мы берем игру «Супер Марио» в качестве примера, чтобы кратко объяснить «обучение с подкреплением».

Поведение, которое может выполнять Марио, включает в себя «ходьбу влево и вправо, бег влево и вправо, приседание и прыжки» и т. д. Цель состоит в том, чтобы безопасно переместиться в крайний правый угол экрана, чтобы пройти уровень через серию «комбинаций поведения». ". Будучи "разумным телом", Марио выбирает "соответствующие" действия в соответствии с "средой", в которой он находится. Если он "выживает и проходит уровень", он дает "награды", а если он "смерть", то он дайте «наказания», чтобы «максимизировать награды». «В качестве цели пусть Марио продолжает пытаться и делать ошибки, и он, наконец, сможет научиться «проходить уровень» самостоятельно. (Обучение с подкреплением позволяет ИИ активно находить оптимальное решение в соответствии с правилами вознаграждения и наказания.)

Мы можем разбить весь этап обучения с подкреплением на три этапа:

Первый шаг: на основе образцов и ответов, предоставленных людьми, установите модель контроля и позвольте модели контроля оценить, близок ли ответ, выдаваемый ChatGPT, к заданному ответу;

Второй шаг: пусть люди оценивают ответы ChatGPT после проверки модели наблюдения.Чтобы дополнительно сохранить человеческий вклад, устанавливается модель вознаграждения (RM), аналогичная человеческим предпочтениям, для оценки ответов ChatGPT после проверки модели наблюдения;

Шаг 3: Используйте результаты модели вознаграждения (RM) для непрерывной обратной связи с контролируемой моделью, тем самым непрерывно оптимизируя контролируемую модель.

Шаг 1. Обучение под наблюдением: вопросы имеют стандартные ответы для формирования базовой модели GPT-3.5.

Из этапа обучения, о котором мы упоминали выше, на первом этапе, поскольку GPT-3 — это всего лишь «предобученная модель» (Pre-trained model) для написания текстов-продолжений, она сформировалась после масштабного «обучения без учителя». Большая модель, которая может быстро отвечать, когда вы задаете ей «увиденные» вопросы; но если вы зададите ей несколько сложных или неясных вопросов, она может продолжать выводить правильный ответ на основе «увиденного» (обученного) текста, но она также можно вывести ответ, который вообще не является ответом.

Иностранный журнал Time опубликовал в январе 2023 года отчет об опросе: «OpenAI наймет большое количество кенийских рабочих для выполнения «аннотации данных» по цене менее 2 долларов в час в 2021 году». Кенийские рабочие должны были сделать эту часть работы в то время.

С этой целью OpenAI создал большое количество вопросов, которые могут быть заданы ChatGPT, и соответствующие стандартные ответы, а также точно настроил свои «параметры модели» для GPT-3.Этот процесс требует участия человека, поэтому он называется «Обучение с учителем». (Обучение с учителем)), это входит во вторую стадию «обучения с учителем», о которой мы упоминали выше, в основном для «точной настройки» некоторых параметров (тонкая настройка).

Вышеупомянутый этап соберет записанный вручную набор данных о том, как будет выводиться ожидаемая модель, и использует его для обучения и создания базовой модели (на основе GPT3.5) с человеческой аннотацией.

После окончания доводки параметров на этом этапе текст продолжения модели ОПГ-3 будет больше похож на «ответ», и «незаданных ответов» в принципе уже не будет.

Однако, несмотря на «тонкую настройку» (Fine-Tune), ответы, сгенерированные GPT3.5, все равно могут быть неоднозначными и содержать «вредную информацию», не соответствующую общечеловеческим ценностям, например насилие и сексизм. Например, когда пользователь отправляет «Должен ли я убить себя» в диалоговом окне? Он может даже ответить в крайних случаях: "Я думаю, что вы должны сделать это" (это гипотеза), поэтому, чтобы не допустить повторения подобных ситуаций, необходимо научить GPT-3.5 различать ответ "хороший/плохой" согласно человеческим ценностям (Хорошо/Плохо).

(Например, по-прежнему существует риск задавать вопросы о незаконных этических нормах или ценностях.)

Шаг 2 — Обучение с подкреплением: создайте «модель оценки вознаграждения».

Как судить, хороший ответ или плохой, мы не можем позволить людям делать «ручную маркировку» вечно, поэтому нам нужно ввести «обучение с подкреплением». Плохо» «Модель оценки». С этого момента GPT-3.5 может судить, является ли он «хорошим» (хорошим) или «плохим» (плохим) после генерации ответа, и нет необходимости в «работнике аннотации данных» (аннотатор данных).

Создайте «оценочную модель вознаграждения», которая оценивает качество ответа:

Шаг 3 - Обучение с подкреплением: повторяйте ответы с помощью самооценки «модели оценки».

Ответ GPT "постоянно генерируется" слово за словом. Если окончательный ответ не хорош, то "с какого слова" возникла проблема? Наступает очередь «Обучения с подкреплением» (Reinforcement Learning), которое является третьим этапом процесса «Обучения с подкреплением».

То же самое верно и для GPT. Каждое слово «Создано» можно рассматривать как «Поведение». Цель состоит в том, чтобы окончательный сгенерированный ответ получил наивысшую оценку «Модели подсчета очков»; непрерывно генерировать ответы, непрерывные пробы и ошибки ". параметры настройки», непрерывная «тонкая настройка» (SFT — Supervised Fine-Tune), GPT может сделать «поведение», которое лучше всего соответствует ожиданиям человека, каждый раз, когда генерируется слово, и продолжать повторять этот процесс, GPT становится все больше и больше. более «умный».

Вышеупомянутые шаги 1–3 в основном завершили весь процесс от «обучения с учителем» к «обучению с подкреплением», и весь процесс «обучения с подкреплением» стал способным к самооцениваемым итерациям, и весь процесс сформировал «подкрепленную человеческую обратную связь». обучение» (RLHF — Reinforcement Learning from Human Feedback).

Этот процесс заключается в использовании инженеров-людей для оценки и вознаграждения «ответа», на который отвечает модель, а затем все действие по оценке и вознаграждению становится «моделью оценки вознаграждения», и тогда машине нужно только напрямую дать ответ на ответ. "модель подсчета очков" для оценки. Вы можете узнать, хороший ответ или плохой. Первые два шага - участие человека. После шага 3 машина полностью самоциркулирует без вмешательства человека, и совершенная "самоциркуляция" имеет было достигнуто.

С точки зрения всего процесса режима обучения, краткое изложение процесса таково:

Обучение без присмотра: изучение пасьянса со словами («самоучка» из бесчисленных корпусов)

Обучение под наблюдением: учителя-люди направляют направление «Пасьянса слов» (учитель направляет обучение, отмечает правильные ответы и определяет, какие вопросы являются стандартными ответами)

Создайте модель оценки: имитируйте предпочтения учителей-людей, чтобы сформировать «модель оценки» (модель формируется путем маркировки предпочтений работников с помощью данных, и эта модель становится моделируемым учителем).

Обучение с подкреплением: используйте обучение с подкреплением, чтобы учиться у симулированного учителя (полагайтесь на модель подсчета очков, чтобы оценить, является ли выходной ответ хорошим, и завершите самозамкнутый цикл)

Общий дизайн метода обучения модели GPT относительно мощный. В настоящее время в этом методе нет тенденции к насыщению производительности. Пока модель постоянно увеличивается, объем данных и вычислительная мощность увеличиваются, производительность изученную модель можно улучшать практически бесконечно.В этом тоже сильная сторона ТШП, а это значит, что в будущем есть еще много возможностей для совершенствования, и она может продолжать выпускать ТШП-5, ТШП-6, ТШП-Н. ..

Из приведенного выше краткого введения принципа работы ChatGPT мы обнаружим, что, поскольку глубокое изучение модели нейронной сети основано на RNN / LSTM, принята структура Transformer с механизмом Attention, а GPT сделал самостоятельное внимание к Masked MultiHead, Внимание и другие улучшения оптимизации в сочетании со всей стратегией обучения без присмотра + под наблюдением + «обучение с подкреплением с обратной связью» (RLHF) и, наконец, в сочетании с мощным корпусом всей сети, наконец, достигли текущих результатов ChatGPT, «Уточнение Истинный Дэн».

Наконец, давайте кратко рассмотрим и резюмируем, что фактическая техническая реализация ChatGPT — это в основном типичный случай «стояния на плечах гигантов».

ChatGPT стоит на основе различных базовых теорий и фреймворков нейронной сети, оптимизирует и модернизирует фреймворк Transformer и всесторонне применяет различные методы обучения машинному обучению, такие как обучение без учителя + обучение с учителем + обучение с подкреплением; учебный корпус также охватывает весь мир. Интернет имеет большой объем качественного текстового корпуса до октября 2021 года, процесс обучения также объединяет различные наработки в алгоритмах машинного обучения за последние несколько десятилетий и, наконец, добавляет огромное количество вычислительной мощности GPU, ChatGPT можно назвать шедевром. , и, наконец, сформировалась. Она разработала большую языковую модель (LLM - Large Language Model), которая намного превосходит другие аналогичные продукты, и реализовала этот прорывной продукт, который меняет мир.

Собирайте воду, чтобы образовалась бездна, собирайте землю, чтобы образовать гору, собирайте подмышки, чтобы сформировать мех, собирайте песок, чтобы сформировать башню, и упорно трудитесь, чтобы творить чудеса!

Supongo que te gusta

Origin blog.csdn.net/heiyeshuwu/article/details/129844988
Recomendado
Clasificación