Что OpenAI сделал правильно?

Автор | Ли Цзяньчжун

Произведено | Публичный аккаунт "Li Jianzhong Yansi"

Благодаря серии прорывов в технологиях и продуктах искусственного интеллекта OpenAI взорвал развитие общего искусственного интеллекта (AGI), который генеральный директор Microsoft Сатья Наделла назвал «технологической волной, сравнимой с промышленной революцией». Технологический маршрут AGI, основанный на большой языковой модели, разработанной OpenAI, фактически объявил конец других технологических маршрутов ИИ, так что он может сам изменить курс всей области, что беспрецедентно в истории технологий. Как стартап с двумя-тремя сотнями человек (когда в конце прошлого года был запущен ChatGPT, команда OpenAI насчитывала около 270 человек), как она преодолела все препятствия на арене ИИ, где многие гиганты много лет соревновались и выиграли святой Грааль общего искусственного интеллекта? Будь то в Силиконовой долине или в Китае, многие люди спрашивают:

Почему такая стартап-компания, как OpenAI, стоит за такой эпической революцией, как AGI? Что OpenAI сделал правильно?

Я отслеживаю и исследую промышленное развитие в области ИИ с 2016 года. Причиной ежегодного проведения Глобальной конференции по технологиям машинного обучения (ML-Summit) является участие многих экспертов OpenAI, в том числе Ильи Суцкевера (главный научный сотрудник), Лукаш Кайзер (соавтор Трансформера), Андрей Карпати (соучредитель), Ян Гудфеллоу (отец GAN) и др. часто контактируют и общаются. Я давно заметил OpenAI, индивидуальную «гетерогенность» в области ИИ.

Если я оглянусь назад на историю развития индустрии искусственного интеллекта и на множество ключевых решений, сделанных OpenAI на историческом пути, я почти поражен, обнаружив, что как начинающая компания OpenAI выбрала «сложный, но правильный» без колебаний на каждой критической развилке дороги». Оглядываясь назад на эти «трудные и правильные» выборы в истории развития OpenAI, я думаю, что сегодня они станут важным источником вдохновения для многих наших коллег в области ИИ.

Видение и миссия: мечи к общему искусственному интеллекту

"Наша цель — развивать искусственный интеллект таким образом, чтобы это приносило пользу всему человечеству. Сегодняшние системы ИИ удивительны, но многие из них работают плохо. Но в будущем ИИ вполне может сравняться с человеческими способностями практически во всех интеллектуальных задачах. Результат этого предприятия неясен, а работа сложна, но мы считаем, что наши цели и структура верны».

Этот отрывок является выдержкой из блога «Видение и миссия», опубликованного командой основателей OpenAI вскоре после его создания в декабре 2015 года. Прочитав ее восемь лет спустя, чувство все еще искреннее и волнующее.

OpenAI смог выдвинуть мощное «видение и миссию» «общего искусственного интеллекта», когда вся область ИИ была окутана различными туманами в 2015 году, что было основано на твердой вере команды основателей в искусственный интеллект, глубокое понимание и текущие исследования. Основываясь на этом, я называю их в совокупности «волей» для общего искусственного интеллекта. Такая «сила воли» помогает OpenAI снова и снова оставаться на правильном пути развития искусственного интеллекта.

«Видение и миссия» в сегодняшнем стремительном кругу венчурного капитала легко могут быть отчуждены как «обманывание венчурных капиталистов и рисование тортов для сотрудников». Но если вы изучите историю развития человеческой науки и технологий, вы обнаружите, что выдвижение сильного «видения и миссии» в какой-либо области является отличительной чертой того, чтобы быть пионером в этой области. И наоборот, все революционные вещи чрезвычайно сложны. Без сильного руководства «видение и миссия» легко сдаться и рухнуть, сталкиваясь с трудностями. Итак, для тех основателей, у которых есть твердая вера, я призываю всех говорить о вашем «видении и миссии». Я также надеюсь, что наш венчурный капитал и средства массовой информации будут поощрять и поддерживать «видение и миссию» предпринимателей, а не высмеивать их.

Я часто думаю, что если бы время отодвинулось в 2015 год, если бы два мальчика, 30-летний Сэм Альтман и 29-летний Илья Суцкевер, рассказали об упомянутом выше «видении и миссии» на одном из наших предприятий капитальной деятельности, неужели он не утонул бы в слюне всех «больших начальников»? Дело в том, что OpenAI получила около 100 миллионов долларов США в виде пожертвований, когда была создана, в то время OpenAI создавалась как некоммерческая организация.

Технический маршрут 1: обучение без присмотра

Вскоре после создания OpenAI он сделал ставку на «обучение без учителя» под руководством Ильи Суцкевера. Друзья, знакомые со сферой исследований ИИ, знают, что сегодняшнее, казалось бы, ни с чем не сравнимое правильное решение в 2015-2016 годах точно не было столь очевидным. Потому что в сфере искусственного интеллекта в то время было популярно «обучение с учителем» посредством метода маркировки данных, и эффект был лучше во многих вертикальных областях, таких как рекомендательные системы и машинное зрение.

Однако «обучение без учителя» было очень незрелым с точки зрения теоретических прорывов и инженерных технологий того времени, и эффект был сильно снижен, что было типичным «немейнстримом». Однако «обучение без учителя», которое не требует ручной маркировки данных, обладает сильной универсальностью и легко расширяется.Благодаря крупномасштабному предварительному обучению данных модель может изучить богатые человеческие знания, содержащиеся в данных, чтобы она могла выполнять хорошо справляйтесь с различными заданиями.покажите свои умения. Для цели «общий искусственный интеллект» «обучение без учителя», очевидно, имеет «универсальность задачи» и возможность быстрого «масштабирования (расширения)» на основе массивных данных.

Глядя на это сегодня, многие методы «обучения с учителем» были сильно отвергнуты «обучением без учителя» OpenAI, но выбор «обучения без учителя» в то время, очевидно, был «трудным, но правильным» решением. Видение AGI неотделимо.

Технический маршрут 2: генеративная модель

Когда в 2016 году стали популярны различные задачи «распознавания» (такие как визуальное распознавание, распознавание речи и т. д.), OpenAI процитировал известного физика Фейнмана в начале «Генеративных моделей», опубликованных в июне 2016 года. Известная цитата «Что я не могу создать, Я не понимаю. Если я не могу создать, я не могу понять». Он также фокусирует исследования OpenAI на генеративных задачах.

В то время, хотя был удивительный момент изобретенной Яном Гудфеллоу ГАН (генеративной конфронтационной сети), ее необъяснимости и ее «полезности» по сравнению с задачами распознавания, в целом мейнстримная индустрия искусственного интеллекта на самом деле очень полезна для генерации суждение о формуле модели «трудно, но не очень полезно».

Однако, прочитав статью «Генеративные модели», мы видим, что команда OpenAI считает генеративную модель «единственным путем для AGI», и вы можете оценить выдающиеся и самостоятельные характеристики команды OpenAI. зависимый.

Третий технический путь: естественный язык

Хотя глубокое обучение вошло в отрасль и стало основным методом в 2012 году, машинное зрение вскоре стало более зрелой областью с лучшими эффектами и более сильными возможностями монетизации. Хотя Илья Суцкевер также прославился в области машинного зрения благодаря участию AlexNet в конкурсе ImageNet, OpenAI не выбрала зрение в качестве основного направления после некоторых попыток, а предпочла сделать ставку на более сложный и рискованный «естественный язык».

По сравнению со зрением, речью и другими областями обработка естественного языка долгое время считалась относительно отсталой областью, потому что задачи на естественном языке имеют огромную сложность и пространство для решения, а многие методы хороши для одной задачи, но не годятся для другой задачи. , Бедный, изменчивый. В отрасли также бытует мнение, что обработка естественного языка — это «Святой Грааль» в области искусственного интеллекта.

Пробуя OpenAI Gym (платформа для обучения с подкреплением с открытым исходным кодом) и OpenAI Five (использующая обучение с подкреплением для игр Dota2), OpenAI продвигается все дальше и дальше в решении задачи использования неконтролируемого обучения для естественного языка. Особенно в 2017 году генеративный подход к прогнозированию следующего персонажа обзоров Amazon дал отличные результаты.

Почему OpenAI сделал ставку на естественный язык? Перефразируя известного философа Витгенштейна, «границы языка — это границы мира». По словам Ильи Суцкевера, «язык — это отображение мира, а ТШП — это сжатие языка». Что касается человеческого интеллекта, естественный язык является ядром ядра, в то время как другое зрение, голос и т. д. являются лишь вспомогательными материалами для естественного языка.

Именно из-за верной ставки на пути от естественного языка к ОИИ 12 июня 2017 года была выпущена основополагающая статья Google Transformer «Внимание — это все, что вам нужно». По словам Ильи Суцкевера, статья была опубликована для На следующий день его первой реакцией после того, как он увидел газету, было «вот оно». Модель Transformer теоретически подрывает предыдущее поколение методов обработки естественного языка, таких как RNN и LSTM, и устраняет некоторые ключевые препятствия, мешающие команде OpenAI исследовать область естественного языка.

К сожалению, теоретическая модель Transformer не получила должного внимания в Google, но благодаря ей команда OpenAI почувствовала себя сокровищем. Эта сцена очень похожа на визит Джобса к компьютеру Alto научно-исследовательского института Xerox PARC в 1979 году. После графического интерфейса (GUI) и мыши он вернулся в Apple и начал делать ставку на графический интерфейс и открыл эру персональных компьютеров. Лидерство Xerox PARC Однако огромный вычислительный потенциал, раскрываемый графическим интерфейсом для широкой публики, проявлялся медленно. Семь соавторов, которые лично создали Transformer, также покинули Google один за другим.Некоторые присоединились к OpenAI (включая нашего основного докладчика на Глобальной конференции по технологиям машинного обучения 2021 года и исследователя OpenAI Лукаша Кайзера), а некоторые основали новые компании при поддержке Silicon. Valley VC Поколение компаний искусственного интеллекта. Это немного похоже на вчерашнее появление «восьми предателей» Fairchild Semiconductor в Силиконовой долине.

Четвертый технический маршрут: декодер

После того, как Transformer открыл теоретическое окно большой языковой модели, большая языковая модель разработала три маршрута. Первый тип — маршрут Encoder-Only (кодировщик), представленный Google BERT и ELECTRA; второй тип — маршрут Encoder-Decoder (кодек), представленный Google T5 и BART; третий тип основан на OpenAI GPT Decoder-Only ( декодер) представленный маршрут.

Из этих трех маршрутов маршрут Encoder-Only подходит для задач понимания, с ним сложно справиться с генеративными задачами, и он не обладает хорошей масштабируемостью и адаптивностью.Хотя Google BERT когда-то был популярен в некоторых подполях, сейчас он почти в мейнстриме.Точка заброшенности. Маршрут Encoder-Decoder подходит для конкретных задач сценария, но его универсальность и масштабируемость относительно плохи. Маршрут Decoder-Only в первую очередь очень подходит для генерации задач, и в то же время он обладает хорошей универсальностью для различных задач, а также имеет высокую масштабируемость (масштабируемость) в инженерии, что очень подходит для расширения масштаба модель.

Основываясь на этих характеристиках, если целью является общий искусственный интеллект AGI, то маршрут только для декодера, очевидно, является лучшим выбором. Из приведенного выше эволюционного дерева большой языковой модели видно, что путь «только декодер», выбранный GPT, явно ведет к развитию и процветанию большой языковой модели.

Технический маршрут пятый: от обучения с подкреплением к согласованию

После прохождения вышеперечисленных ключевых технических вариантов обучения без учителя, генеративных моделей, естественного языка и декодеров модель GPT явно находится на пути к AGI. Но мощь ТШП также вызывает некоторые новые опасения: принесет ли ее мощь опасность для людей, разрушит ли человеческие ценности, поможет ли злу, нарушить общественный порядок или даже угрожает выживанию человечества?

Это серьезное нарушение видения и миссии OpenAI. Как привести сильные модели GPT в соответствие с человеческими ценностями и социальными нормами? Как стать «полезным для человечества» после того, как стал могущественным? Технические проблемы должны решаться технологиями. В это время пригодились давние навыки обучения с подкреплением OpenAI, накопленные в ходе раннего обучения интеллектуальных агентов игры Dota. Добавляя обучение с подкреплением на основе отзывов людей (RLHF, Reinforcement Learning from Human Feedback) после предварительного обучения, ИИ учат быть «хорошим ИИ», полезным для людей, и устанавливаются барьеры, чтобы предотвратить его использование для зло. В этом отношении OpenAI думает очень далеко и много вкладывает, что достойно его «видения и миссии».

Инженерная мудрость: закон масштаба

Если мы оглянемся назад на серию технических решений, сделанных OpenAI в истории, мы обнаружим, что почти все решения были сделаны по принципу «выгодно ли это общему масштабу искусственного интеллекта», и это не было связано с « может ли технология быть реализована быстро» в то время, «является ли она мейнстримом», «проста ли она в использовании», «будет ли мгновенный эффект» совершенно не имеет значения.

Любой, кто занимался технической архитектурой или бизнес-стратегией, также знает, что «быстрое и простое расширение» — это «железный закон» хорошей технической архитектуры или бизнес-модели. Этот железный закон распространяется и на развитие общего искусственного интеллекта. Команда OpenAI прекрасно об этом знает. В 2020 году они даже опубликовали известную статью «Законы масштабирования для моделей нейронного языка», в которой обобщаются законы масштабирования между параметрами модели, размером набора обучающих данных, входной вычислительной мощностью (операций с плавающей запятой FLOP в секунду) и сетевой архитектурой.

На самом деле, в дополнение к закону масштаба модели, OpenAI обладает очень глубоким пониманием и мудрым выбором различных сил масштаба на пути к ОИИ.

Мудрость продукта: от суперприложений к экологическим платформам

От запуска GPT 1.0 компанией OpenAI в 2018 году до разработки GPT 3.0 в 2020 году OpenAI уже выиграла такой козырь, как большая языковая модель, но то, как разыграть эту карту, также очень важно. В истории есть много игроков, хорошо владеющих техникой, но при этом плохо играющих. С точки зрения мощного видения «общего искусственного интеллекта» OpenAI трудно не быть платформенной компанией. Однако большинство компаний, которые начинали как платформы в истории науки и техники, потерпели неудачу на поле боя. Напротив, большинство успешных компаний, занимающихся платформенной технологией, начали с создания «суперприложений».

После того, как президент YC, ведущего инкубатора в Силиконовой долине, закалил его, другая душа OpenAI, генеральный директор Сэм Альтман, конечно же, является мастером продуктовой стратегии. OpenAI решил начать с ChatGPT, «суперприложения». Всего за несколько месяцев оно набрало сотни миллионов пользователей, большое количество интерактивных данных и сильно привлекло внимание бренда. Только тогда следующие ChatGPT API, плагины Ждите серию щедрых макетов платформы. Судя по текущим новостям с разных каналов, у OpenAI еще много больших подвижек в своих продуктах, давайте подождем и увидим.

Кстати, в предыдущей статье «Продукт-макет и парадигма в эпоху AGI» я также более подробно рассказал о своих мыслях об инновациях продуктов в эпоху AGI.

Дизайн акций: лимит прибыльных компаний

Сначала OpenAI была создана как некоммерческая организация, и первоначальные средства были собраны за счет пожертвований. Однако ясно, что команда основателей недооценила инвестиции в оборудование и таланты, необходимые для разработки ОИИ, и переоценила выполнение пожертвований (многие из пожертвований, обещанных в первые дни, не были на месте). Поэтому в марте 2019 года OpenAI изменила свою структуру корпоративного управления и превратила ее в компанию с «ограничением прибыли», приняв инвестиции в размере 1 миллиарда долларов США от Microsoft.

«Ограниченная прибыль» предусматривает, что акционеры, инвестирующие в OpenAI, получат в будущем не более чем в 100 раз больше суммы инвестиций от OpenAI. Превышение будет контролироваться некоммерческой организацией OpenAI Nonprofit.

Этот гениальный дизайн акционерного капитала может не только привлечь инвестиции, необходимые для OpenAI, но и помешать AGI стать слишком мощным и получить огромную прибыль. Сбалансируйте противоречие между коммерческой поддержкой, необходимой для развития ОИИ, и грандиозным видением ОИИ, приносящего пользу всему человечеству. Я думаю, что, оглядываясь на историю несколько лет спустя, этот дизайн акций также является великим изобретением в истории бизнеса. Основатель и генеральный директор Сэм Альтман не использует акционерный капитал, не ищет коммерческой выгоды, а также достоин восхищения своей приверженностью использованию ОИИ для изменения мира.

Стратегический дизайн: сочетание вертикального и горизонтального

Если OpenAI сравнить с маленьким динозавром в эпоху ИИ, то Google и Microsoft, которые долгое время вкладывали значительные средства в область ИИ и имеют рыночную стоимость в триллионы, очевидно, являются двумя большими динозаврами. в эпоху ИИ. «Спойлер», такой как OpenAI, будет сожжен, если на него нацелится один из двух больших динозавров. И у OpenAI, очевидно, достаточно предусмотрительности и изысканного стратегического дизайна для спора между AI Warring States, вызванного запуском «популярных приложений», таких как ChatGPT.

Прежде всего, благодаря стратегическому сотрудничеству с Microsoft, большим динозавром, OpenAI не только получила десятки миллиардов долларов в виде ценных средств на разработку, но также расширила возможности поиска Microsoft Bing через GPT, перехватила Google, большого динозавра, а также расширила возможности GPT за счет Чтобы получить соответствующую прибыль на рынке B-end (облачный сервис Azure, Office 365 и т. д.), о котором я не смогу заботиться какое-то время, но я могу сосредоточиться на рынке C-end как на точка входа для создания экологической платформы в эпоху ОИИ.Глаза разбегаются.

Эта комбинация умелого использования «дилеммы инноватора» гиганта позволяет начинающей компании, в которой работает всего более 300 человек и оценивается менее чем в 30 миллиардов долларов США, одновременно использовать две технологии с рыночной стоимостью в триллионы долларов США и почти 200 000 сотрудников.Глядя на всю историю бизнеса, стратегическое расположение гигантского крокодила беспрецедентно и великолепно.

Структура команды: академический + инженерный + продукт + бизнес

Прочитав это, многие друзья могут спросить, каково происхождение OpenAI и как He De может быть таким прочным? Другого секрета нет, самое дорогое в технологических компаниях — это талант. У OpenAI есть команда соучредителей, которой достаточно, чтобы гордиться миром ИИ.

Генеральный директор № 1 Сэм Альтман бросил Стэнфорд, чтобы основать Loopt в возрасте 20 лет, и продал компанию за 43 миллиона долларов в 2012 году. В 2014 году Грэм, основатель YC, который был на 20 лет старше его и крестный отец предпринимательства в Силиконовой долине, убедил его сменить его на посту президента YC. Грэм очень рано разглядел выдающийся талант Сэма Альтмана, в его глазах Сэм Альтман был будущим Джобсом Кремниевой долины. Предпринимательский опыт Сэма Альтмана и YC в Силиконовой долине сформировал его лучшие таланты в модели продукта, бизнес-стратегии, инвестициях и финансировании.

Илья Суцкевер, главный научный сотрудник позиции 2, является близким учеником Джеффри Хинтона, отца глубокого обучения, прославился на конкурсе ImageNet, позже присоединился к Google Brain, изобрел Seq2Seq для значительного улучшения машинного перевода и участвовал в разработка TensorFlow и AlphaGo. Он «новаторский герой» в академической области глубокого обучения.

Президент Грег Брокман ранее основал известную платежную компанию Stripe и занимал должность технического директора, обладает сильными инженерными навыками и опытом создания технической команды с нуля до единицы. Это долгосрочная основа инженерных технологий OpenAI. Кроме того, сбор блестящих звезд, таких как Андрей Карпати, Джон Шульман, Лукаш Кайзер и т. д., делает OpenAI одним из лучших талантов ИИ в мире с точки зрения плотности. Структура команды OpenAI также отражает предпринимательскую перспективу OpenAI AGI: ученые, инженеры, продукты и бизнес — четыре столпа незаменимы, и каждый из них очень силен.

Помимо сосредоточения внимания на ОИИ, OpenAI и Сэм Альтман также инвестировали во многие компании, такие как ядерный синтез, квантовые вычисления и криптовалюты, и сделали крупномасштабные планы будущих изменений, таких как энергия, вычислительная мощность и распределение богатства. Каждый из них указывает на будущее AGI.

Подводя итог, можно сказать, что OpenAI сыграл хорошую роль, будь то ключевой выбор в нескольких ответвлениях в технологии или в продукте, разработке, капитале, стратегии и команде.Это компания, достойная исследования и внимания.Мы заглядываем в окно в эпоху ОИИ.

об авторе

Ли Цзяньчжун Булан, основатель и главный технический эксперт, председатель Глобальной конференции по технологиям машинного обучения. Он обладает обширным опытом и глубокими исследованиями в области искусственного интеллекта, инновационных продуктов и бизнес-моделей. В последние годы исследования методов искусственного интеллекта, основанные на больших языковых моделях, связанные с ними исследования и консультации привлекли большое внимание со стороны отрасли. С 2005 по 2010 год он был самым ценным техническим экспертом Microsoft и региональным техническим директором. Имея почти 20-летний опыт работы в области технологий и продуктов, он предоставляет высококачественные инновационные продукты и консультирует по технической стратегии для известных брендов, включая многие компании из списка Fortune 500.

Примечание: эта статья воспроизводится из публичного аккаунта WeChat "Li Jianzhong Yansi" с авторизацией. Если вам нужно перепечатать, обратитесь к другой стороне для авторизации!

[ Обмен событиями ] Глобальная конференция по технологиям машинного обучения (ML-Summit) пройдет 20–21 октября 2023 г. в отеле Westin Jinmao в Пекине. Лозунг этой конференции — «Принимая эру революции AGI», посвященной инженерной практике, в общей сложности восемь тем: «Эволюция передовых технологий больших моделей, практика проектирования систем больших моделей, практика разработки приложений больших моделей, AIGC и машинное зрение, отраслевые приложения и практика AIGC, AIGC обеспечивает преобразование разработки программного обеспечения, эксплуатацию и обслуживание больших моделей ML / LLM Ops, инфраструктуру ИИ для крупных моделей ». За подробностями обращайтесь на официальный сайт: http://ml-summit.org/ (или перейдите по оригинальной ссылке)

Что OpenAI сделал правильно?

рекомендация