Выпущен «Отчет об испытаниях отечественной продукции LLM»!

Сегодня на отечественном рынке представлено более 100 крупносерийных модельных изделий. В связи с этим Xinhuanet и авторитетная организация совместно выпустили «Отчет о тестировании отечественного LLM-продукта», в котором представлены пять параметров для выбора крупной модели в отрасли, включая безопасность контента, вопросы и ответы на основе здравого смысла, математические операции, понимание прочитанного и субъективный вопрос и ответ.

В отчете используются Wenxin Yiyan и GPT-3.5 в качестве примера для оценки четырех известных больших моделей.Результаты показывают, что Baidu Wenxin Yiyan имеет самый высокий комплексный балл, превосходя GPT-3.5 и занимая первое место среди отечественных больших моделей.

Выпущен «Отчет об испытаниях отечественной продукции LLM»!  Выпущен «Отчет об испытаниях отечественной продукции LLM»!Выпущен «Отчет об испытаниях отечественной продукции LLM»!  Выпущен «Отчет об испытаниях отечественной продукции LLM»! 

 

Выпущен «Отчет об испытаниях отечественной продукции LLM»!  Выпущен «Отчет об испытаниях отечественной продукции LLM»!

Ценность контента является важным фактором для предприятий при выборе крупной модели.

Крупные модели обладают хорошей универсальностью и универсальностью. Обычные люди могут получить услуги и функции продуктов, которые им нужны, с помощью простых вопросов и ответов. Однако в разных странах и регионах существуют разные правовые культуры, социальные обычаи и этика. Таким образом, на один и тот же вопрос ответ, данный большой моделью, может вызвать различные социальные реакции, которые могут иметь положительные последствия или отрицательные противоречия, а некоторые культурные предрассудки могут даже привести к групповым конфликтам.

Таким образом, содержание является важным фактором при выборе большой модели. В отчете об оценке Xinhuanet есть два аспекта содержания. Первый вопрос и ответ о безопасности контента, который включает в себя несколько аспектов, таких как идеология и незаконная порнография, а второй вопрос и ответ на здравый смысл, охватывающие знания здравого смысла, такие как китайская культура, история, география и жизнь. Гэ Чжэньбинь, директор по технологиям Интернета вещей в Xinhuanet, сказал: «Контент, создаваемый большой моделью, должен соответствовать местным законам и социальным моральным требованиям. Можно сказать, что каждой стране нужна большая языковая модель, которая «более подходит для свою собственную историю и культуру».

Контент также очень важен для отрасли: одни компании вовлечены в национальную экономику и жизнеобеспечение людей, а другие опираются на «унаследованные формулы» для формирования уникальной конкурентоспособности. Чжао Цзычжун, декан Научно-исследовательского института новых медиа Университета коммуникаций Китая, сказал: «Это проверка сервисных возможностей больших моделей с точки зрения информационной безопасности, защиты данных и настройки. Большие модели должны иметь отраслевые и возможности обслуживания на основе сцен для удовлетворения требований различных компаний».

Вэнь Синь назвал «наиболее подходящим для Китая».

В настоящее время от государственных учреждений до корпоративных компаний существует острая потребность в некоторых стандартах и ​​методах оценки пригодности больших моделей.

Гэ Чжэньбинь, технический директор по Интернету вещей в Xinhuanet, считает, что для оценки больших моделей очень важны пять аспектов: один из них — это возможность контролировать безопасность генерируемого контента, который включает в себя такие аспекты, как идеология, политическая система и незаконная порнография. , Суть социальной цивилизации; вторая - это способность делать выводы и вычислять здравый смысл, затрагивая многие области, такие как природа, культура, география, история и жизнь. Необходимо досконально понимать здравый смысл этих аспектов в во избежание создания несоответствующих результатов содержания; семантическое понимание текста. Это может проверить, является ли содержание, создаваемое большой моделью, правильным и разумным, а также является ли оно убедительным; четвертое — способность к математическим операциям и математическим рассуждениям; пятое — способность субъективного мышления, которое проверяет, может ли большая модель точно понимать местные обычаи или традиционную культуру.

Отчет об оценке Xinhuanet показывает, что Wenxinyiyan имеет очевидные преимущества в безопасности, здравом смысле, математике и чтении благодаря своим преимуществам в китайских поисковых системах и моделях алгоритмов. Рассчитывается средний балл по пяти измерениям.Комплексный балл Wenxin Yiyan составляет 94,7 балла, занимая первое место, что выше, чем 76,9 балла GPT-3,5. Это показывает, что текущий Wenxin Yiyan превзошел модель GPT-3.5 с точки зрения общих возможностей (китайская обработка).

Выпущен «Отчет об испытаниях отечественной продукции LLM»!  Выпущен «Отчет об испытаниях отечественной продукции LLM»!

 

 

(Отчет о тестировании Xinhuanet: Baidu Wenxin заняла первое место по общей оценке)

Обладая вышеуказанными характеристиками, компания Wenxinyiyan заняла лидирующие позиции в категории «наиболее подходящие для Китая», занимая ведущие отечественные крупномасштабные модели.

Чжао Цзычжун, декан Исследовательского института новых медиа Университета коммуникаций Китая, предположил, что предпринимателям, разработчикам, а также малым и средним предприятиям не нужно создавать собственные крупномасштабные модели от 0 до 1. Они могут создавать интеллектуальные приложения на основе крупномасштабных моделей Wenxin, чтобы избежать повторного создания колес. Сосредоточьтесь на инновациях, в которых вы хороши. Тот, кто первым создаст приложение, отвечающее потребностям пользователей, воспользуется возможностью для развития.

рекомендация

отblog.csdn.net/yaxuan88521/article/details/132354971