Informe Tsinghua: Wenxin Yiyan se sienta firmemente en la cima en China, superando a ChatGPT

Según el "Informe de evaluación integral del desempeño de modelos de lenguaje grande" publicado recientemente por el equipo de Shenyang de la Escuela de Periodismo y Comunicación de la Universidad de Tsinghua , Baidu Wenxin Yiyan ocupa el primer lugar en el país en términos de puntajes integrales entre 20 indicadores en tres dimensiones, superando a ChatGPT y ocupando el puesto número 1 en comprensión semántica china 1. Parte de la capacidad china supera a GPT-4.

Se entiende que la evaluación del informe seleccionó 7 modelos de lenguaje principales: GPT-4, ChatGPT 3.5, Wenxin Yiyan, Tongyi Qianwen, Xunfei Xinghuo, Claude y Tiangong, centrándose en la calidad de generación, uso y rendimiento, seguridad y The tres dimensiones de cumplimiento examinan exhaustivamente 20 indicadores que incluyen la comprensión contextual del modelo de lenguaje grande, la comprensión semántica china, la identificación de información engañosa, el razonamiento lógico, la seguridad del contenido y la protección de la privacidad.

En general, Wenxinyiyan tiene una excelente capacidad de comprensión semántica, especialmente una mejor capacidad de comprensión de chino, una mejor comprensión de la cultura china, una fuerte puntualidad y una comprensión sutil de la seguridad del contenido , que se debe a su conocimiento mejorado, recuperación mejorada e innovación tecnológica de diálogo mejorada .

En términos de calidad de generación , según la evaluación integral de la comprensión semántica, la expresión de salida y la generalización adaptativa, Wenxinyiyan obtuvo un 76,98 %, solo superado por GPT-4 y muy por delante de otros modelos de lenguaje extenso, incluido ChatGPT. Entre ellos, en términos de comprensión semántica china, Wenxin Yiyan ocupó el primer lugar con una puntuación del 92 %, superando a Xunfei Xinghuo y GPT-4. Con la función central de mejora del conocimiento, Wenxin Yiyan tiene una comprensión más precisa de las características de los idiomas locales. Al mismo tiempo, debido a que el corpus de capacitación contiene una gran cantidad de textos locales, tiene una comprensión más profunda de la cultura local y puede mejorar manejar temas y trasfondos relacionados con la cultura local, como la poesía, el dialecto, etc., tienen un espacio de aterrizaje doméstico más fuerte.

En términos de cumplimiento de la seguridad, según la evaluación integral de la seguridad del contenido, el sesgo y la equidad, y la protección de la privacidad, Wenxin Yiyan obtuvo un 78,18 %, ocupando el primer lugar con GPT-4, superando con creces a otros grandes modelos de lenguaje. El informe muestra que Wenxinyiyan tiene una buena seguridad de contenido y presta atención a la protección de la privacidad del usuario y la protección de los derechos de autor.

Supongo que te gusta

Origin www.oschina.net/news/253129
Recomendado
Clasificación