¡Sugiero que Alibaba, Baidu y Huawei no se apresuren a hacerse con los "trabajos" de los grandes modelos de la industria!

99955d159bfbe303385faf26570aae64.png

fe0506355e12ed93f67c650d73f89ed8.png




Medios de servicio de innovación de la industria de big data

——Centrarse en los datos · Negocios cambiantes


En los últimos meses, una tendencia de desarrollo muy obvia en el campo de los modelos grandes nacionales es que todos se están reuniendo para construir modelos grandes en la industria. No solo las empresas de diversos campos verticales han lanzado múltiples modelos industriales a gran escala, sino que también gigantes líderes como Baidu, Alibaba, Huawei, Tencent y JD.com también consideran los modelos a gran escala de la industria como un enfoque clave.

En concreto, estos fabricantes se pueden dividir en dos categorías en función de la proporción de modelos grandes en sus estrategias:

Baidu, Alibaba, Tencent e iFlytek prestan la misma atención a los modelos grandes generales y a los modelos grandes de la industria.

Por un lado, prestan más atención a los modelos grandes generales y abren los modelos grandes generales a los usuarios finales C. Baidu Wenxinyiyan y iFlytek Spark de iFlytek incluso crearon aplicaciones móviles para promover la aplicación de modelos grandes en general.

Por otro lado, también prestan gran atención a los grandes modelos industriales. Generalmente, se exporta al exterior en forma de soluciones industriales. Incluso el 19 de septiembre, Baidu lanzó directamente un gran modelo de la industria médica: el Modelo de Medicina Espiritual, que atiende directamente a hospitales, pacientes y empresas de dispositivos médicos.

La otra categoría está representada por Huawei y JD.com, que se han centrado desde el principio en modelos industriales a gran escala y están directamente orientados a aplicaciones industriales.

El lema del modelo Pangu de Huawei desde el principio fue "No escribas poesía, solo haz cosas", no estaba entusiasmado con las aplicaciones de extremo C y casi todo su enfoque estratégico estaba en la industria.

El modelo grande Yanxi de JD.com es similar: siguiendo el concepto de "una nube que comprende mejor la industria" de JD Cloud, JD.com también se centra en aplicaciones industriales en el campo de modelos grandes. Además, JD Health también lanzó un modelo grande de Jingyi Qianxun como pionero en ingresar a la industria.

Se puede encontrar que ya sean Baidu, Alibaba, Tencent e iFlytek los que "prestan la misma atención a ambos frentes", o Huawei y JD.com, que casi "luchan en un frente", todos consideran el gran modelo de la industria. como campo de batalla para los estrategas militares.

El autor cree que esto es problemático. Estos gigantes tecnológicos deberían centrarse en modelos grandes generales y las aplicaciones industriales deberían dejarse en manos de socios en diversos campos industriales, y sólo deberían construir la "infraestructura" de modelos grandes y no tocar las aplicaciones de capa superior.

¿Por qué decimos esto?, a continuación analicemos detalladamente los pros y los contras.

Los gigantes deberían centrarse en la investigación y el desarrollo de modelos grandes generales.

Los modelos grandes generales son como la base de toda la industria de los modelos grandes: si los cimientos son sólidos o no, determinará qué tan alto se puede construir el edificio. Entonces, ¿es sólida la base actual?

Desafortunadamente, aunque los grandes modelos lograron inicialmente el "surgimiento" de la inteligencia y lograron grandes avances en la comprensión del lenguaje natural, la generación de contenido y el razonamiento lógico, no son lo suficientemente buenos. Especialmente si queremos implementar modelos grandes comercialmente en diversas industrias, las capacidades del modelo actual no son suficientes.

La habilidad mencionada aquí no es lo suficientemente fuerte y no se refiere específicamente a un determinado modelo grande.

acf0572d998eef0f937b9ff52d7c507c.png

Incluso GPT-4 todavía tiene importantes deficiencias en capacidades si quiere implementarse en el campo comercial. Veamos algunos ejemplos.

Los motores de búsqueda son un escenario de aplicación importante para modelos grandes. Bing de Microsoft ha logrado un gran cambio al cambiar el método de búsqueda de palabras clave original debido a su acceso a ChatGPT. Entonces, ¿cuál es el rendimiento real de Bing con la asistencia de ChatGPT?

Lo probamos y, para ser honesto, fue bastante decepcionante.

El siguiente es un ejemplo. Deje que Bing busque noticias sobre modelos grandes hoy (26 de septiembre). Las cuatro noticias dadas son. Después de hacer clic, los contenidos de los elementos 1 y 3 en realidad provienen de un artículo de noticias, y estos son los primeros. La noticia se publicó el 21 de febrero; el segundo y cuarto artículos también son del mismo reportaje, que se publicó el 27 de julio.

c1667bd8feafafd7437c6642929db067.png

Es decir, la noticia que dan es errónea, buscamos la noticia de hoy, pero el resultado es contenido de hace unos meses. Además, buscamos eventos importantes en el campo de los grandes modelos, entre las cuatro respuestas dadas hay dos informes, un artículo de análisis de noticias y una actividad del foro. Estrictamente hablando, los informes y artículos de análisis no son noticias importantes. Desde esta perspectiva, los resultados proporcionados por Bing no cumplen en absoluto con los requisitos.

Luego, el autor preguntó más y le pidió que usara una tabla para ordenar el contenido de las noticias dadas. Como resultado, en la tabla que dio, la hora de las noticias cambió al 26 de septiembre, y cuando se trata de la hora específica, esto obviamente no tiene sentido.

10fb5de3a6b6330c11eed3f389806b48.png

El autor alguna vez tuvo grandes expectativas para los nuevos motores de búsqueda como Bing y los probó muchas veces. Pero la sensación general es básicamente inutilizable. Este es el rendimiento real de ChatGPT en el campo de búsqueda y, hasta cierto punto, representa el nivel más alto que pueden alcanzar los modelos grandes.

Baidu también ha lanzado una función similar: además de la búsqueda web habitual, también puedes consultar a través de conversaciones. No veíamos la hora de probarla.

En comparación con Bing, Baidu tiene una mejor comprensión de los eventos noticiosos. Bing proporciona varios informes, mientras que Baidu proporciona resultados basados ​​en lanzamientos de modelos grandes. El valor noticioso de estos eventos es obviamente mayor.

953956b5823c0413086e32ebc3ff7643.png

Sin embargo, ¿son fiables estos resultados proporcionados por Baidu? Del mismo modo, permitimos que se recopile en forma de tabla y proporcione la hora y los enlaces de las noticias. Se puede encontrar que todos los horarios son el 11 de mayo, lo cual obviamente es problemático, lo que queremos es la noticia del 26 de septiembre, no del 11 de mayo.

98259bf8848e4ebc7ee685abb04cd681.png

Además, también hay un problema con el enlace de noticias que figura en la tabla: al abrir la página web correspondiente, devuelve directamente "404". Por supuesto, Bing de Microsoft también tiene este problema: los enlaces de noticias que proporciona no se pueden abrir o no existen.

3e5d818bd7fb4f77b00b4c5dbd8895cf.png

Volviendo a ChatGPT, una de sus limitaciones importantes es que no se puede conectar a Internet y sus datos no se pueden actualizar en tiempo real. El conjunto de datos de entrenamiento de GPT-3 es a partir de septiembre de 2021, y el conjunto de datos de entrenamiento de GPT -4 es a partir de enero de 2022. luna.

1193fb0e8788d78d0dfc48f8066dfc4b.png

2be81345497544856e4feac90c955d30.png

9b537709b16801b3ee505557a2e1fbe1.png

Además, ChatGPT suele cometer errores en el cálculo y procesamiento de datos complejos. Sus supuestas capacidades de carga y comprensión de textos tampoco son ideales.

Probemos las capacidades de comprensión de documentos de GPT-4. Subimos el informe semestral de 2023 de Loongson Zhongke e intentamos que hiciera un análisis FODA simple. Después de cargar el documento, ChatGPT comienza a escribir código para analizar el documento, lo que parece ser muy poderoso.

53049109298820b06de534939c3f0ffe.png

¿Cuál fue el resultado?

4512db894a50a333ce19a0f579372084.png

Al final, ChatGPT no pudo analizar el documento PDF. Lo intentamos varias veces pero no pudimos analizarlo.

6474e2afa8b9ca11683da7860ecb2e0f.png

Imagínense, confiando en estos modelos grandes, si desea implementarlos en escenarios industriales complejos, el efecto definitivamente no será ideal, y ya son los mejores modelos grandes generales del mercado.

Es cierto que ha habido cierta "surgimiento de inteligencia" en los modelos grandes y sus capacidades han mejorado cualitativamente, pero actualmente se encuentran en la etapa inicial de "el pequeño loto apenas muestra sus bordes afilados". Dado que el descubrimiento de modelos grandes es una dirección prometedora, lo más importante que hay que hacer ahora es acelerar y cultivar a este "niño" potencial en lugar de dejar que mantenga a la familia prematuramente.

A juzgar por la experiencia histórica, cada locura por la inteligencia artificial irá seguida de un largo período de silencio. La razón principal es que las expectativas de las personas se elevaron demasiado en la etapa inicial y se sentirán decepcionadas una vez que descubran que no se cumplen.

De manera similar, si nos apresuramos a implementar modelos grandes en diversas industrias ahora, pronto tendremos un período de problemas y la gente rápidamente pasará de grandes expectativas a quejas locas. Tales altibajos no favorecen el desarrollo saludable de la industria. .

Por lo tanto, la tarea principal de gigantes tecnológicos como Alibaba, Huawei, Baidu y Tencent es cultivar al "niño" de General Model. Mientras las capacidades mejoren realmente, la implementación a gran escala será realmente muy rápida, por lo que no hay prisa por esperar hasta ahora.

Existe una curva de aparición de inteligencia bien conocida en el campo de los modelos grandes, es decir, el rendimiento del modelo no está relacionado linealmente con la escala de parámetros. Un modelo con 20 mil millones de parámetros no es dos veces mejor que un modelo con 10 mil millones. parámetros.

Existe un umbral en esta curva de aparición de la inteligencia, que actualmente es de unos 100 mil millones de parámetros. Antes de este umbral, el nivel de inteligencia mostrado por el modelo no cambia significativamente a medida que aumenta la escala de parámetros. Un modelo con 20 mil millones de parámetros funciona aproximadamente igual que un modelo con 2 mil millones de parámetros. Sin embargo, cuando la escala de parámetros cruzó el umbral de 100 mil millones, el rendimiento del modelo mejoró exponencialmente.

9b3de4bc6e51790293636fc8c04c3547.png

Aunque el tamaño del modelo no puede representarlo todo, a juzgar por la experiencia del desarrollo de la inteligencia artificial en los últimos diez años, la "violencia cuantitativa" suele ser una dirección clave: modelos más grandes, redes neuronales más profundas y más datos traerán un mejor rendimiento.

A juzgar por la curva de aparición de inteligencia actual, después de la escala de cientos de miles de millones de parámetros, entrará en un período de cuello de botella de inteligencia. Puede que no haya una diferencia significativa en "inteligencia" entre un modelo con 500 mil millones de parámetros y un modelo con 100 mil millones de parámetros. . Sin embargo, si queremos alcanzar el próximo "umbral de emergencia", la mejor manera en este momento es seguir ampliando el tamaño del parámetro. Quizás, después de que la escala de parámetros se expanda a decenas de billones, se marque el próximo umbral de aparición y las capacidades de los modelos grandes alcancen un nuevo nivel.

023caf00ee5624517928de7a8435dc0f.png
Mapeo de simios de datos de predicción de emergencia inteligente de modelo grande

Por supuesto, a medida que se amplía la escala del modelo, el costo también aumentará significativamente, por lo que esto solo puede ser un juego para los gigantes. Además, simplemente ampliar el tamaño del modelo también provocará problemas de ajuste excesivo. Por lo tanto, la expansión de la escala del modelo también debe ir acompañada de la optimización y ajuste de la arquitectura del modelo, aquí es donde realmente se prueban las capacidades técnicas.

Para dar un paso atrás, todos los grandes modelos actuales se basan en la arquitectura Transformer, y esta arquitectura fue propuesta en un artículo por varios investigadores de Google hace cinco años. Entonces, ¿la arquitectura Transformer es realmente la mejor? ¿Existe una arquitectura modelo mejor? Estas preguntas deben ser respondidas por gigantes tecnológicos como Huawei, Baidu, Alibaba y Tencent.

Además de la escala de parámetros y la arquitectura del modelo, los modelos grandes también necesitan resolver problemas de "ilusión", problemas de interpretabilidad y problemas multimodales. Estos problemas aún no se han resuelto bien, lo cual es un problema común al que se enfrenta toda la industria. La clave para resolver estos problemas reside en los avances tecnológicos subyacentes en los grandes modelos generales, más que en los grandes modelos industriales.

Por supuesto, quien realmente pueda resolver estos problemas clave será recompensado en consecuencia por el mercado.

No seas árbitro y jugador al mismo tiempo

La razón por la que se recomienda que los gigantes tecnológicos no toquen los grandes modelos de la industria es que, además del problema no resuelto de los grandes modelos generales, otra razón muy importante es evitar conflictos de intereses con los socios.

Los gigantes tecnológicos juegan un juego ecológico y comparten los beneficios de la infraestructura.

En el campo de los modelos grandes, la ruta de transmisión de valor debe ser modelos grandes generales, modelos grandes de la industria y clientes de la industria. En la etapa de modelos grandes de la industria, los fabricantes de modelos grandes generales como Huawei, Baidu y Alibaba pueden desarrollar ellos mismos modelos grandes de la industria o permitir que socios externos realicen investigación y desarrollo basados ​​en sus propios modelos grandes generales.

f1a0b6a380e0562fcb83a83c979fb92d.png
Mapeo de simios de datos del mecanismo de transmisión de valores de aplicaciones industriales de modelos grandes

Los modelos grandes generales prueban las capacidades técnicas, mientras que el umbral técnico para los modelos grandes industriales no es muy alto. Sus elementos centrales son los datos y la experiencia de la industria, y estos dos puntos son las deficiencias de los gigantes tecnológicos. Recopilar conjuntos de datos de alta calidad de diversas industrias, como finanzas, atención médica, manufactura y venta minorista, y comprender los escenarios comerciales de diversas industrias, definitivamente no es algo que una sola empresa pueda hacer. Debe confiar en el poder de el ecosistema y utilizar miles de datos de todo el ecosistema. Los socios lo hacen.

Por supuesto, los fabricantes generales de modelos grandes como Baidu, Huawei y Tencent también pueden ocupar ambas rutas de transmisión de valor. Por ejemplo, en el campo médico, Baidu no solo puede utilizar su propio modelo de medicina espiritual a gran escala para servir directamente a hospitales, pacientes y empresas de equipos médicos, sino que también puede promover la construcción de un sistema de socios modelo médico vertical a gran escala.

Sin embargo, esta situación enfrentará el problema de "competir con la gente por ganancias", lo cual es un tabú en los negocios.

Imagine que una determinada empresa A de modelos médicos a gran escala se basa en el modelo general a gran escala de la empresa B, abre sus datos médicos centrales a B y entrena un modelo médico a gran escala. Unos meses más tarde, A descubrió que la empresa B también había lanzado un modelo médico de gran tamaño y sus funciones eran similares a las suyas. Cuando un cliente de la industria hizo un pedido, descubrió que la empresa B también estaba haciendo una oferta y su socio de repente se convirtió en un competidor. Si este es el caso, ¿la empresa A todavía está dispuesta a cooperar con la empresa B?

En un ecosistema, la confianza de los socios en el propietario del ecosistema es tan valiosa como el oro. Sólo cuando los socios de aplicaciones de nivel superior crean firmemente que el propietario ecológico no tendrá un conflicto de intereses con él ni le robará el negocio, se sentirá seguro de colocar su negocio en la plataforma construida por el propietario ecológico.

Esto es algo similar a la relación entre los proveedores de IaaS y los proveedores de SaaS en el campo de la computación en la nube. La razón más importante por la que muchas empresas de SaaS en China se sienten incómodas con los proveedores de nube como Alibaba Cloud, Tencent Cloud, Baidu Cloud y Huawei Cloud es que temen los conflictos de intereses. En la actualidad, los límites comerciales de los proveedores de nube IaaS no son lo suficientemente claros: no solo ofrecen productos IaaS y PaaS, sino que también ingresan a muchos campos de SaaS, que es el más tabú para sus socios de SaaS.

En las primeras etapas de Internet en China, los inversores tenían una famosa pregunta introspectiva para las empresas de nueva creación: ¿qué harían si Tencent fabricara el mismo producto?

De la misma manera, si los fabricantes de modelos grandes en general quieren construir un ecosistema de aplicaciones, entonces los fabricantes de modelos grandes de la industria en los campos de la atención médica, las finanzas, los asuntos gubernamentales, la fabricación y otros campos también preguntarán: si fabrican algo como yo en el futuro, ¿qué debo hacer?

Entonces, ¿qué tipo de ecosistema modelo grande es más razonable? Podemos aprender del ecosistema de computación en la nube: el modelo grande general es equivalente a IaaS y el modelo grande de la industria es equivalente a SaaS.

Baidu, Huawei, Alibaba, Tencent, JD.com, ByteDance, iFlytek y otros fabricantes líderes de modelos generales se centran en modelos grandes generales (IaaS + PaaS) y tratan de no tocar los modelos grandes de la industria (SaaS) y demarcar los límites comerciales.

Cabe señalar que incluso si no fabrican modelos grandes para la industria, los fabricantes subyacentes de modelos grandes en general aún pueden compartir los dividendos de la aplicación industrial de los modelos grandes. Al igual que las aplicaciones SaaS consumen recursos de IaaS y pagan por IaaS, el modelo industrial de capa superior llamará a las capacidades del modelo general de capa inferior y se puede construir un modelo de negocio razonable en función de la cantidad de llamadas y el uso.

Por ejemplo, Baidu no fabrica modelos médicos a gran escala, pero tiene 10 socios de modelos médicos a gran escala basados ​​​​en Wen Xinyiyan, y cada socio presta servicios a 1.000 hospitales. Supongamos que cada hospital paga 1 millón de yuanes al año y Baidu comparte el 20% de este millón de yuanes. Entonces, cada empresa de modelos médicos a gran escala puede ganar mil millones de yuanes al año, y los ingresos de Baidu son mil millones * 20% * 10 = 2 mil millones de yuanes. De esta manera, Baidu solo necesita atender a 10 socios, en lugar de atender a 10.000 hospitales.

Por analogía, si se puede construir un ecosistema industrial próspero de modelos grandes, la aplicación industrial de modelos grandes también puede generar decenas de miles de millones de ingresos a los fabricantes generales de modelos grandes subyacentes.

Para los fabricantes de modelos grandes en general, como Baidu, Huawei, Tencent y Alibaba, no hay necesidad de preocuparse por perderse los dividendos de las aplicaciones de modelos grandes de la industria. Al igual que en el campo de la computación en la nube, ¿qué proveedor de SaaS puede igualar los ingresos de Alibaba Cloud, Tencent Cloud y Huawei Cloud que ofrecen IaaS?

Siempre que se concentre en sentar las bases del modelo general grande, podrá vender el "terreno" sin tener que mover laboriosamente los ladrillos para construir una casa. Volvamos al ámbito inmobiliario: ¿son las promotoras inmobiliarias como Vanke y Evergrande las más rentables? Evidentemente es más rentable y más fácil vender terrenos.

Para los grandes fabricantes de modelos en industrias verticales, su estado más ideal es aprender de las estrategias de implementación de SaaS entre nubes para lograr la implementación de modelos generales entre modelos grandes de la industria y migrar sin problemas el negocio de una plataforma de modelo general a otra. Esto evita estar vinculado a una única plataforma. Por supuesto, los grandes modelos de la industria se encuentran actualmente en una etapa muy temprana y todavía es demasiado pronto para hablar sobre la implementación de modelos transversales.

de2c57e1dbaa255fd66c59dec73ee48c.png
Mapeo de simios de datos en modo de implementación entre modelos para grandes modelos industriales

En resumen, se recomienda que los gigantes tecnológicos como Baidu, Huawei, Alibaba y Tencent se centren en la investigación y el desarrollo de modelos grandes generales en lugar de la aplicación de modelos grandes industriales.

Por un lado, los grandes modelos de propósito general aún no son lo suficientemente buenos, y todavía se destacan problemas como el nivel insuficiente de inteligencia del modelo, los problemas de alucinaciones, la mala interpretabilidad, la pobre capacidad de fusión multimodal y el alto costo del entrenamiento y la inferencia del modelo. Los gigantes tecnológicos deberían resolver estos problemas. Niveles más bajos, acertijos más desafiantes. Sólo cuando estos problemas se resuelvan podrán ser sólidas las bases para la aplicación de grandes modelos en la industria.

En el nivel de aplicación de las grandes industrias modelo, se puede dejar que lo completen completamente las empresas de campo vertical de nivel superior. Es previsible que haya cientos o miles de empresas modelo industriales a gran escala compitiendo en cada campo. Al final, sobrevivirán decenas de empresas y sobrevivirán las más aptas. Estas empresas supervivientes son socios cualificados. Los fabricantes generales de modelos grandes subyacentes deberían construir un ecosistema con sus socios para servir conjuntamente a los clientes de la industria.

Texto: Yicai Yanyu  /  Data Yuan

02a662836a40d2a597a819f7d9ff05ab.jpeg

893ce793a8dd2027f65747c32f0339fa.png

Supongo que te gusta

Origin blog.csdn.net/YMPzUELX3AIAp7Q/article/details/133326280
Recomendado
Clasificación