¡Se publica el "Informe de prueba de producto LLM nacional"!

El mercado nacional de hoy tiene más de 100 productos modelo a gran escala en la línea. En este sentido, Xinhuanet y una organización autorizada publicaron conjuntamente un "Informe de prueba de producto LLM nacional", que proporcionó cinco dimensiones para que la industria elija un modelo grande, que incluye seguridad de contenido, preguntas y respuestas de sentido común, operación matemática, comprensión de lectura y pregunta y respuesta subjetiva.

El informe toma Wenxin Yiyan y GPT-3.5 como ejemplo para evaluar cuatro modelos grandes bien conocidos. Los resultados muestran que Baidu Wenxin Yiyan tiene la puntuación integral más alta, superando a GPT-3.5 y ocupando el primer lugar en modelos grandes nacionales.

¡Se publica el "Informe de prueba de producto LLM nacional"!  ¡Se publica el "Informe de prueba de producto LLM nacional"!¡Se publica el "Informe de prueba de producto LLM nacional"!  ¡Se publica el "Informe de prueba de producto LLM nacional"! 

 

¡Se publica el "Informe de prueba de producto LLM nacional"!  ¡Se publica el "Informe de prueba de producto LLM nacional"!

El valor del contenido es un factor importante para que las empresas elijan un modelo grande

Los modelos grandes tienen buena versatilidad y generalización. La gente común puede obtener las funciones de los servicios y productos que desea a través de preguntas y respuestas simples. Sin embargo, diferentes países y regiones tienen diferentes culturas legales, costumbres sociales y ética. Por lo tanto, para una misma pregunta, la respuesta dada por el gran modelo puede desencadenar diferentes retroalimentaciones sociales, que pueden tener efectos positivos o controversias negativas, y algunos prejuicios culturales pueden incluso conducir a conflictos grupales.

Por lo tanto, el contenido es una consideración importante al elegir un modelo grande. En el informe de evaluación de Xinhuanet, hay dos dimensiones de contenido. La primera es la pregunta y respuesta sobre la seguridad del contenido, que incluye múltiples dimensiones, como la ideología y la pornografía ilegal, y la segunda es la pregunta y respuesta de sentido común, que abarca conocimientos de sentido común como la cultura, la historia, la geografía y la vida chinas. Ge Zhenbin, director de tecnología de Internet de las cosas en Xinhuanet, dijo: "El contenido generado por el modelo grande debe cumplir con las leyes locales y los requisitos morales sociales. Se puede decir que cada país necesita un modelo de lenguaje grande que sea 'más adecuado para su propia historia y cultura'".

El contenido también es muy importante para la industria. Algunas empresas están involucradas en la economía nacional y el sustento de la gente, mientras que otras confían en "fórmulas heredadas" para formar una competitividad única. Zhao Zizhong, decano del Instituto de Investigación de Nuevos Medios de la Universidad de Comunicación de China, dijo: "Esto pone a prueba las capacidades de servicio de los modelos grandes en términos de seguridad de la información, seguridad de los datos y personalización. Los modelos grandes deben estar orientados a la industria y Capacidades de servicio basadas en escena para cumplir con los requisitos de diferentes empresas".

Wen Xin dijo "el más adecuado para China"

En la actualidad, desde las agencias gubernamentales hasta las empresas empresariales, existe una necesidad urgente de algunos estándares y métodos para juzgar la idoneidad de los modelos grandes.

Ge Zhenbin, director técnico de Internet de las cosas en Xinhuanet, cree que cinco dimensiones son muy importantes para evaluar modelos grandes: una es la capacidad de controlar la seguridad del contenido generado, que involucra dimensiones como la ideología, el sistema político y la pornografía ilegal. El resultado final de una civilización social; el segundo es la capacidad de inferir y calcular el sentido común, que involucra muchos campos como la naturaleza, la cultura, la geografía, la historia y la vida. Es necesario comprender a fondo el sentido común de estos aspectos en para evitar generar resultados de contenido inapropiados; Comprensión semántica del texto. Esto puede probar si el contenido producido por el modelo grande es correcto y razonable, y si es persuasivo; el cuarto es la capacidad de operaciones matemáticas y razonamiento matemático; el quinto es la capacidad de pensamiento subjetivo, que prueba si el modelo grande puede comprender con precisión las costumbres locales o la cultura tradicional.

El informe de evaluación de Xinhuanet muestra que Wenxinyiyan tiene ventajas obvias en seguridad, sentido común, matemáticas y lectura debido a sus ventajas en los motores de búsqueda y modelos de algoritmos chinos. Se calcula el puntaje promedio de las cinco dimensiones. El puntaje integral de Wenxin Yiyan es de 94.7 puntos, ocupando el primer lugar, que es más alto que los 76.9 puntos de GPT-3.5. Esto muestra que el Wenxin Yiyan actual ha superado al modelo GPT-3.5 en términos de capacidad general (procesamiento chino).

¡Se publica el "Informe de prueba de producto LLM nacional"!  ¡Se publica el "Informe de prueba de producto LLM nacional"!

 

 

(Informe de prueba de Xinhuanet: Baidu Wenxin ocupó el primer lugar en puntaje integral)

Con el desempeño anterior, Wenxinyiyan ha tomado la posición de liderazgo en el aspecto de "más adecuado para China", liderando los modelos domésticos a gran escala.

Zhao Zizhong, decano del Instituto de Investigación de Nuevos Medios de la Universidad de Comunicación de China, sugirió que los empresarios, desarrolladores y pequeñas y medianas empresas no necesitan construir sus propios modelos a gran escala de 0 a 1. Pueden crear aplicaciones inteligentes. Basado en modelos a gran escala de Wenxin para evitar la creación repetida de ruedas. Concéntrese en la innovación en la que es bueno. Quien primero haga una aplicación que satisfaga las necesidades de los usuarios, aprovechará la oportunidad de desarrollo.

Supongo que te gusta

Origin blog.csdn.net/yaxuan88521/article/details/132354971
Recomendado
Clasificación