Сегодня на отечественном рынке представлено более 100 крупносерийных модельных изделий. В связи с этим Xinhuanet и авторитетная организация совместно выпустили «Отчет о тестировании отечественного LLM-продукта», в котором представлены пять параметров для выбора крупной модели в отрасли, включая безопасность контента, вопросы и ответы на основе здравого смысла, математические операции, понимание прочитанного и субъективный вопрос и ответ. |
В отчете используются Wenxin Yiyan и GPT-3.5 в качестве примера для оценки четырех известных больших моделей.Результаты показывают, что Baidu Wenxin Yiyan имеет самый высокий комплексный балл, превосходя GPT-3.5 и занимая первое место среди отечественных больших моделей.
Ценность контента является важным фактором для предприятий при выборе крупной модели.
Крупные модели обладают хорошей универсальностью и универсальностью. Обычные люди могут получить услуги и функции продуктов, которые им нужны, с помощью простых вопросов и ответов. Однако в разных странах и регионах существуют разные правовые культуры, социальные обычаи и этика. Таким образом, на один и тот же вопрос ответ, данный большой моделью, может вызвать различные социальные реакции, которые могут иметь положительные последствия или отрицательные противоречия, а некоторые культурные предрассудки могут даже привести к групповым конфликтам.
Таким образом, содержание является важным фактором при выборе большой модели. В отчете об оценке Xinhuanet есть два аспекта содержания. Первый вопрос и ответ о безопасности контента, который включает в себя несколько аспектов, таких как идеология и незаконная порнография, а второй вопрос и ответ на здравый смысл, охватывающие знания здравого смысла, такие как китайская культура, история, география и жизнь. Гэ Чжэньбинь, директор по технологиям Интернета вещей в Xinhuanet, сказал: «Контент, создаваемый большой моделью, должен соответствовать местным законам и социальным моральным требованиям. Можно сказать, что каждой стране нужна большая языковая модель, которая «более подходит для свою собственную историю и культуру».
Контент также очень важен для отрасли: одни компании вовлечены в национальную экономику и жизнеобеспечение людей, а другие опираются на «унаследованные формулы» для формирования уникальной конкурентоспособности. Чжао Цзычжун, декан Научно-исследовательского института новых медиа Университета коммуникаций Китая, сказал: «Это проверка сервисных возможностей больших моделей с точки зрения информационной безопасности, защиты данных и настройки. Большие модели должны иметь отраслевые и возможности обслуживания на основе сцен для удовлетворения требований различных компаний».
Вэнь Синь назвал «наиболее подходящим для Китая».
В настоящее время от государственных учреждений до корпоративных компаний существует острая потребность в некоторых стандартах и методах оценки пригодности больших моделей.
Гэ Чжэньбинь, технический директор по Интернету вещей в Xinhuanet, считает, что для оценки больших моделей очень важны пять аспектов: один из них — это возможность контролировать безопасность генерируемого контента, который включает в себя такие аспекты, как идеология, политическая система и незаконная порнография. , Суть социальной цивилизации; вторая - это способность делать выводы и вычислять здравый смысл, затрагивая многие области, такие как природа, культура, география, история и жизнь. Необходимо досконально понимать здравый смысл этих аспектов в во избежание создания несоответствующих результатов содержания; семантическое понимание текста. Это может проверить, является ли содержание, создаваемое большой моделью, правильным и разумным, а также является ли оно убедительным; четвертое — способность к математическим операциям и математическим рассуждениям; пятое — способность субъективного мышления, которое проверяет, может ли большая модель точно понимать местные обычаи или традиционную культуру.
Отчет об оценке Xinhuanet показывает, что Wenxinyiyan имеет очевидные преимущества в безопасности, здравом смысле, математике и чтении благодаря своим преимуществам в китайских поисковых системах и моделях алгоритмов. Рассчитывается средний балл по пяти измерениям.Комплексный балл Wenxin Yiyan составляет 94,7 балла, занимая первое место, что выше, чем 76,9 балла GPT-3,5. Это показывает, что текущий Wenxin Yiyan превзошел модель GPT-3.5 с точки зрения общих возможностей (китайская обработка).
(Отчет о тестировании Xinhuanet: Baidu Wenxin заняла первое место по общей оценке)
Обладая вышеуказанными характеристиками, компания Wenxinyiyan заняла лидирующие позиции в категории «наиболее подходящие для Китая», занимая ведущие отечественные крупномасштабные модели.
Чжао Цзычжун, декан Исследовательского института новых медиа Университета коммуникаций Китая, предположил, что предпринимателям, разработчикам, а также малым и средним предприятиям не нужно создавать собственные крупномасштабные модели от 0 до 1. Они могут создавать интеллектуальные приложения на основе крупномасштабных моделей Wenxin, чтобы избежать повторного создания колес. Сосредоточьтесь на инновациях, в которых вы хороши. Тот, кто первым создаст приложение, отвечающее потребностям пользователей, воспользуется возможностью для развития.