Бессерверная система вывода большой модели

Нажмите, чтобы просмотреть полный обзор мероприятия: https://my.oschina.net/u/4489239/blog/11105657

Нажмите, чтобы перейти к предварительному просмотру конференции Шэньчжэнь Юаньчуан 18 мая: https://www.oschina.net/event/2332004

20 апреля в Ухане успешно прошла 102-я Юаньчуанская конференция. В этом выпуске эксперты по искусственному интеллекту из Уханьского научно-исследовательского института искусственного интеллекта, Huawei, MindSpore, JD Cloud и Gitee AI выступают с докладами на тему [Конкуренция крупных моделей и оптимизация производительности]. В настоящее время некоторые модели или платформы предоставляют отдельным пользователям некоторую бесплатную вычислительную мощность для использования технологии больших моделей. Gitee.AI, как платформа агрегирования крупных моделей, также предоставляет бесплатную вычислительную мощность отдельным пользователям. Линь Цзячжэнь, эксперт-консультант Gitee AI и Института высокопроизводительных вычислений Университета Цинхуа, выступил с программной речью на тему «Большая модель бессерверной системы вывода».
 
Линь Цзячжэнь отметил, что Gitee.AI в настоящее время объединяет более 2000 моделей, но свободные вычислительные ресурсы ограничены. Поэтому необходимо более эффективно распределять эти бесплатные вычислительные ресурсы среди разработчиков по требованию, что на данный момент является очень сложной задачей. проблемы. Например, когда в прошлом для внешней разработки использовалась контейнерная технология, замена, замена и пробуждение одного контейнера происходили очень быстро. Однако в эпоху больших моделей это стало затруднительно. Включение и ожидание модели затрудняют управление заменой и заменой контейнеров в прошлом. Сцена столь же эффективна.
 
Бессерверный искусственный интеллект имеет четыре основных преимущества, включая простоту развертывания, готовое использование, снижение затрат на использование вычислительной мощности, охват основных моделей и поддержку различного вычислительного оборудования. Существует проблема с текущим механизмом моделирования или способом приобретения и использования вычислительной мощности, то есть пользовательские программы, модели и чипы вывода привязаны к контейнеру, занимают аппаратный чип и используют службы вычислительной мощности. Бессерверный механизм вывода интегрирует и оптимизирует ресурсы вычислительной мощности, уменьшает связь между приложениями, моделями и вычислительной мощностью за счет нескольких уровней дезагрегации, распределяет вычислительную мощность по требованию и улучшает использование ресурсов.
 
Архитектура бессерверной системы разделена на три уровня. Самый нижний уровень — уровень компилятора. Загрузка модели в контейнере изменена на режим вызова удаленного сервиса через rpc. Интерфейс не изменен, но заменен на. Внутренний вывод для реализации модели и деполимеризации. RPC передается механизму вывода на верхнем уровне. Механизм вывода — это кластер, где фактически происходят вычисления. Этот уровень дезагрегирует данные и вычислительную мощность. Например, предположим, что десять карт удовлетворяют запросу планирования из 3000 моделей. В настоящее время невозможно жестко загрузить большую модель на одну карту. Необходимо временно и динамически загружать нужную модель в соответствии с требованиями. Таким образом, рассчитанные веса чипа и модели деагрегируются, и модель помещается в TanserGraph, который представляет собой гетерогенную систему памяти, которая может поддерживать деагрегацию чипов и моделей вычислительной мощности. На верхнем уровне выполняются бессерверный уровень, приложение, вывод и агрегация.
 
Основная возможность архитектуры бессерверной системы — гетерогенная взаимосвязанная память для решения проблемы веса модели. Общая архитектура центра обработки данных имеет некоторые ограничения, такие как низкое использование ресурсов и ограниченная масштабируемость оборудования. Технология дезагрегации может физически отделить каждый компонент в общей архитектуре и использовать определенное соединение для связи интерфейса управления (плоскости управления) каждого компонента и данных. интерфейс (плоскость данных) для реализации выделения и расширения различных ресурсов по требованию. Кроме того, дезагрегация памяти также имеет преимущества для приложений в облачных сценариях, включая улучшение использования ресурсов облачной среды и упрощение удовлетворения растущего спроса на ресурсы памяти.
 
Однако существующая иерархическая система памяти не подходит для высокой аппаратной гибкости в рамках архитектуры дезагрегации, а масштабируемость системы также ограничена. Более того, из-за ограничений внутренней структуры системы возможности существующего интерфейса управления памятью ограничены. Гетерогенная взаимосвязанная память может решить эти проблемы посредством трех звеньев: статистики доступа к оборудованию, программируемых стратегий и миграции страниц. Если взять в качестве примера ЦП, то для статистики доступа на основе PEB поддерживается аппаратное обеспечение для сбора статуса доступа к памяти работающей программы, записи инструкций, TID, адреса назначения и т. д., а затем загрузки весов модели по требованию.
 
Кроме того, архитектура бессерверной системы также имеет различные другие возможности, такие как технология оптимизации компиляции многоуровневых нейронных сетей на основе MLIR и облегченный механизм системного обслуживания на основе технологии изоляции пользовательского пространства. Бессерверный механизм вывода построен на основе двух основных технологий интеллектуальной собственности. Кроме того, он также объединяет различные современные технологии оптимизации систем вывода.
 
В настоящее время Llama 3 запущена на Gitee AI. Скопируйте ссылку ниже в свой браузер и войдите на платформу, чтобы испытать ее (пригласительный код: llama3):
https://ai.gitee.com/hf-models/shenzhi-wang/Llama3-8B-Chinese-Chat
 
Отсканируйте QR-код, чтобы посмотреть запись лекции «Бессерверная система вывода больших моделей» ⬇️
Старшеклассники создают свой собственный язык программирования с открытым исходным кодом в качестве церемонии совершеннолетия – резкие комментарии пользователей сети: Опираясь на защиту, Apple выпустила чип M4 RustDesk. Внутренние услуги были приостановлены из-за безудержного мошенничества. Юнфэн ушел из Alibaba. В будущем он планирует выпустить независимую игру на платформе Windows Taobao (taobao.com). Возобновить работу по оптимизации веб-версии, место назначения программистов, Visual Studio Code 1.89 выпускает Java 17, наиболее часто используемую версию Java LTS, в Windows 10 есть доля рынка составляет 70%, Windows 11 продолжает снижаться. Open Source Daily | Google поддерживает Hongmeng, чтобы взять на себя управление; Rabbit R1 с открытым исходным кодом поддерживает телефоны Android. Microsoft Haier Electric закрыла открытую платформу;
{{o.name}}
{{м.имя}}

рекомендация

отmy.oschina.net/u/4489239/blog/11105667