Batalla de 100 modelos de AI: dos polos están calientes, el medio está vacío

¿Quién se atreve a entrar en un campo a voluntad?

"No te atrevas a hacer un movimiento. China no ha sacado un modelo grande con una ventaja absoluta. No puedo invertir en aplicaciones de nivel superior. Me preocupa apostar por la equivocada". Inversionista Jucy (seudónimo) dijo a Guangcone Intelligence que los proyectos de IA son ampliamente vistos e invertidos. Menos es la norma de VC durante este tiempo.

ChatGPT encendió la explosión de IA durante 2 meses, China ha estado esperando su propio GPT-3.5.

La IA realmente ofendió a los trabajadores. El equipo del juego reemplazó al 30% de los pintores originales, el equipo de comercio electrónico usó AIGC para generar modelos humanos digitales de bajo costo y los programadores básicos también sintieron la ansiedad de verse afectados por la reducción de la dimensionalidad... Ver que GPT va a use todos los campos en el extranjero La tendencia de hacerlo todo de nuevo, la disrupción tecnológica está llegando con el sabor del dinero.

Por lo tanto, además de los trabajadores ansiosos, las empresas están ansiosas por usar modelos grandes para reducir costos y aumentar la eficiencia, los empresarios están ansiosos por integrar modelos grandes para lanzar nuevos productos, el mercado de valores está ansioso por usar el concepto de ChatGPT para cortar puerros y Las instituciones de formación son aún más respetuosas para ganar una ola primero.

En el contexto, parece que los gigantes tecnológicos chinos a los que les gusta seguir la tendencia están más tranquilos que nunca.

Efectivamente, los ciclos hacen crecer a las personas, al igual que las empresas.

Finalmente, estaba muy atrasado, muy atrasado y muy atrasado.En la segunda semana de abril, China también marcó el comienzo del lanzamiento intensivo de una nueva generación de modelos grandes.

Cuatro días después de la prueba abierta de Tongyi Qianwen, Zhang Yong hizo su debut después de hacerse cargo de Alibaba Cloud y anunció que todos los productos de Alibaba se conectarán al modelo "Tongyi Qianwen" en el futuro para una transformación integral;

En la reunión de intercambio técnico del día 10, SenseTime demostró las capacidades del modelo grande "Daily New": diálogo, pintura de IA, programación y humanos digitales. La apertura del día siguiente aumentó en un 9%;

El modelo grande de Huawei Pangu hizo una aparición discreta el día 8, pero lanzó nuevos productos el día 10;

El empresario estrella Wang Xiaochuan hizo una aparición pública y se unió al antiguo socio de Sogou, Ru Liyun, para comenzar oficialmente un nuevo viaje empresarial de IA, y lanzará un modelo grande de Baichuan Smart en la segunda mitad del año;

Momo lanzó DriveGPT Xuehu Hairuo, el primer modelo de conducción autónoma a gran escala, que introduce el aprendizaje por refuerzo de la retroalimentación humana en el campo de la conducción.

Incluso la compañía de juegos Kunlun Wanwei se unió a la diversión y anunció que "el primer modelo de lenguaje grande producido en China que realmente se da cuenta del surgimiento de la inteligencia" comenzará una prueba de invitación el día 17, pero luego los medios cuestionaron que estaba usando puntos calientes para exagerar el precio de las acciones.

Animado y animado, verdadero y falso, el modelo grande es un poco desordenado por un tiempo y gradualmente se vuelve encantador. ¿Por qué las grandes modelos en China surgieron como hongos de repente? Si no reinventas la rueda, ¿qué más puedes hacer?

Aunque está cruzando el río tocando Open AI, los grandes modelos chinos también han entrado en tierra de nadie.

01. Antes de la aparición: seguir la misma tendencia y separarse

Si desea encontrar un nodo de tiempo para el gran modelo de IA, 2019 debería ser la clave.

En febrero de este año, OpenAI lanzó GPT-2 al otro lado del océano. En ese momento, Microsoft invirtió generosamente mil millones de dólares estadounidenses, convirtiendo a OpenAI de una organización "sin fines de lucro" en una organización "con un límite de ganancias". .

Aproximadamente un mes después, al otro lado del Océano Pacífico, Baidu lanzó ERNIE1.0, convirtiéndose en el primer modelo grande de pre-entrenamiento abierto oficialmente en China.

Pero en realidad hay muchas primicias de este tipo, como el modelo grande Pangu de Huawei, el primer modelo de preentrenamiento en idioma chino de la industria con 100 000 millones de parámetros; como el M6 de Ali, el primer modelo grande multimodal de 100 000 millones de parámetros de China; y Tencent HunYuan, el modelo chino primer modelo grande de billones de NLP aterrizable y de bajo costo .....

En resumen, siempre que se agreguen suficientes atributos, siempre puede ser el primero en un campo determinado. Durante ese tiempo, desde Silicon Valley hasta Beijing Xierqi, y luego desde Wudaokou hasta Shanghai Lingang, todas las empresas capaces, incluidas Huawei, Alibaba, Tencent y SenseTime, comenzaron a involucrarse en la investigación de grandes modelos de IA.

Pero el "surgimiento" de la primera ola de modelos grandes de IA en China fue dos años después.

En 2021, Zhang Hongjiang, quien una vez se desempeñó como decano de la Academia Asiática de Ingeniería de Microsoft y luego fue invitado personalmente por Lei Jun a Jinshan para reemplazar a Qiu Bojun como director ejecutivo, lideró el establecimiento del Instituto de Investigación Zhiyuan para lanzar "Enlightenment 1.0", incluyendo el primer PNL orientado al chino en China Modelos a gran escala, el primer modelo de gráficos y texto a gran escala multimodal de uso general chino, y el primer modelo preentrenado a gran escala con capacidades cognitivas, etc.

Zhiyuan se estableció en 2018, cinco meses antes de que OpenAI lanzara GPT-1.0. Como institución de investigación dirigida por el Gobierno Municipal de Beijing y el Ministerio de Ciencia y Tecnología, y reuniendo recursos de la academia y empresas tecnológicas líderes, Zhiyuan es en realidad una exploración temprana de AI en China Una representación del modelo más grande.

Se puede decir que "Enlightenment 1.0" es en realidad una muestra de todos los modelos posteriores de IA en China. Además, el Instituto de Investigación de Zhiyuan también construyó un sistema de tecnología modelo de pre-entrenamiento a gran escala para China, y construyó y abrió la base de datos de corpus chino más grande del mundo, WuDaoCorpora, que sentó las bases para que otras compañías desarrollen grandes modelos de IA.

También fue después de la "Ilustración 1.0" que los modelos a gran escala de China comenzaron a explotar.

En 2021, basado en Ascend AI y Pengcheng Lab, Huawei lanzará conjuntamente el modelo grande de Pengcheng Pangu. En 2022, Ali lanzó la serie de modelos a gran escala "Tongyi", y Tencent lanzó el modelo a gran escala Hunyuan AI...

Mientras que los grandes modelos chinos de IA están surgiendo como hongos después de la lluvia, los grandes modelos extranjeros de IA también han llegado al punto de cambio de cuantitativo a cualitativo.

En noviembre de 2022, OpenAI lanzó ChatGPT basado en GPT-3.5, que abrió por completo la caja mágica de la inteligencia artificial, y luego llegó la ola de AI 2.0 arrasando el mundo.

De hecho, si tomamos el lanzamiento de GPT-1 en 2018 como un nodo, el desarrollo del gran modelo de IA de China siempre ha seguido la tendencia de desarrollo de los países extranjeros, pero ¿por qué ChatGPT no apareció en China?

En realidad, esto está relacionado con dos rutas de desarrollo diferentes de modelos grandes de IA en el país y en el extranjero.

A juzgar por los productos modelo a gran escala de IA representativos actuales en el extranjero, como ChatGPT, Midjourney, Notion AI o Stable diffusion, etc., todos son productos basados ​​en usuarios finales C.

Por otro lado, en China, los principales escenarios de aplicación de modelos grandes están todos en el lado B.

Por ejemplo, los escenarios de aplicación típicos del modelo grande "Tongyi" de Ali incluyen búsqueda multimodal de comercio electrónico, diseño asistido por IA, diálogo humano-computadora de dominio abierto, aprendizaje de documentos legales, comprensión de textos médicos, etc., mientras que HunYuan de Tencent -NLP-1T grande El modelo se aplica a los productos internos de Tencent, como publicidad, búsqueda y diálogo, o un modelo grande como SenseTime para proporcionar capacidades de percepción y comprensión para tareas de escena comunes, como conducción autónoma y robots.

Una razón importante para elegir To B es que el lado B se puede comercializar más fácilmente.

Las características de la industria To B llevan al hecho de que el modelo grande de IA de China no necesita lograr una escala de parámetros muy grande Incluso después de que salió ChatGPT, una dirección importante para que las empresas nacionales discutan es cómo "hacer que el modelo grande existente escala más pequeña." ", aplicada a industrias específicas.

Por lo tanto, habrá más modelos de IA a gran escala que utilicen la ruta BERT de Google en China. Con parámetros más pequeños, será más eficiente y más adecuado para escenarios verticales.

Entonces, hasta cierto punto, desde el primer día de nacimiento, el gran modelo chino tiene la tarea de comercialización.

Los modelos grandes de extranjeros To C son diferentes. Por ejemplo, la cantidad de usuarios de ChatGPT alcanzó los 100 millones en solo dos meses. Su modelo grande pre-entrenado subyacente GPT-3.5 se usa como un modelo grande general, y "grande" se convierte en un requisito básico para los parámetros.

Hasta cierto punto, esto promueve que OpenAI agregue continuamente parámetros a GPT, y luego estimula un fenómeno de "emergencia" más poderoso, y finalmente se da cuenta de que ChatGPT "trabaja duro para hacer milagros".

Por lo tanto, los dos caminos de desarrollo completamente diferentes de To B y To C también han llevado a los modelos de IA de China y Estados Unidos a dos direcciones de desarrollo completamente diferentes.

02. No reinventes la rueda, pero todos quieren ser una rueda

Hasta ahora, China ha lanzado 5 modelos de productos de IA a gran escala y, después de eso, hay otros 5 productos de modelos a gran escala de IA en camino.

La batalla de modelos ha comenzado.

La mayoría de las capacidades del modelo doméstico a gran escala están al nivel de GPT-2, pero la atención es mucho mayor que cuando se lanzó GPT-2, lo que creó una situación embarazosa, sabiendo que no está completamente listo, pero pero tengo para promover activamente el lanzamiento del modelo, y parece que se perderá todo el mercado si es un poco más tarde.

De hecho, tanto el mercado como la propia tecnología están pidiendo a las empresas que introduzcan modelos grandes en el mercado más rápido.

Técnicamente hablando, cuanto antes ingrese al mercado, antes podrá obtener datos de uso del usuario y luego promover iteraciones de optimización del modelo. Desde una perspectiva de mercado, mientras que la combinación de grandes modelos e industrias extranjeras de IA brinda una mayor eficiencia, las empresas nacionales también tienen las mismas necesidades.

Por ejemplo, en la actualidad, Lightcone Intelligence ha investigado muchas empresas de SaaS y descubrió que casi todas se han conectado a GPT-3.5, y actualmente están probando Wenxin Yiyan.

Para las empresas que lanzan modelos a gran escala, es particularmente importante aprovechar las oportunidades de mercado en este momento.

Un inversor a cargo de IA en una institución líder le dijo a Lightcone Intelligence: "Es muy peligroso que China quede excluida del ecosistema ChatGPT".

Él cree que aunque hay mayores oportunidades empresariales en la capa de aplicación, todas las aplicaciones en la capa de aplicación dependen de la existencia de modelos grandes. Al igual que en la era de Internet para PC, todas las aplicaciones de escritorio se desarrollan sobre la base de Windows, y en la era de Internet móvil, todas las aplicaciones se basan en sistemas Android o iOS. También se requiere el nivel de "sistema operativo".

En la actualidad, GPT-4 en el extranjero ha dejado en claro que puede convertirse en tal existencia, pero no existe un modelo grande correspondiente en China. Por lo tanto, cuando el patrón del modelo a gran escala subyacente aún no está claro, una vez que cambie el patrón de mercado del modelo a gran escala, las aplicaciones basadas en el modelo a gran escala también serán en vano.

Esta también se ha convertido en la razón por la que muchos inversores no están dispuestos a abandonar el mercado ahora. Quieren operar el mercado un poco más, esperando el surgimiento de un gran modelo subyacente que claramente puede convertirse en un nivel de "sistema operativo".

Por lo tanto, ya sea Baidu o Ali, después de lanzar el modelo grande, lo primero que debe preocuparse es si más empresas pueden llegar a cooperar.

Por ejemplo, después de aclarar el plan de lanzamiento de Wenxin Yiyan en febrero, Baidu comenzó a promover activamente el acceso de empresas en diferentes industrias a Wenxin Yiyan. Cuando Baidu lanzó Wenxin Yiyan el 16 de marzo, más de 650 empresas habían anunciado Acceso a Wenxin Yiyan. Ecología Yiyan. El 7 de abril, después de que Ali anunciara oficialmente las "Mil preguntas de Tongyi", lo primero que se hizo fue abrir invitaciones de prueba a las empresas.

Hoy en día, el modelo doméstico de IA a gran escala se encuentra en la etapa de competencia "quién puede convertirse en el sistema operativo subyacente". Cada empresa lanza activamente su propio modelo a gran escala, abre pruebas internas y guía a las empresas para que se instalen. es construir su propio modelo en torno a la ecología del modelo a gran escala.

Esta es la clave de si una gran fábrica puede seguir siendo una gran fábrica en la próxima era. El boleto para la próxima era de IA no es el gran modelo, sino la ecología construida alrededor del gran modelo.

Por lo tanto, aunque todo el mundo sigue diciendo que no se reinvente la rueda y que no se desperdicien recursos para construir el mismo modelo grande, en la actualidad, todo el mundo está reinventando la rueda.

Pero ahora, de Baidu a Ali, y luego de Huawei a SenseTime, la guerra de los modelos grandes de nivel inferior acaba de comenzar. Después de todo, no son solo gigantes tecnológicos como Tencent y Byte, sino también gigantes empresariales como Wang Xiaochuan, Wang Huiwen y Li Kaifu. El chico también está mirando.

Tanto Wang Xiaochuan como Wang Huiwen se establecieron sucesivamente en el Edificio de Tecnología de Redes de Sohu, y Wudaokou parece haber recuperado su gloria anterior.

Después de todo, muchos sintieron: "Esto es un renacimiento".

Hasta ahora, los jugadores más competitivos no han terminado por completo, pero la "batalla de los cien regimientos" del modelo de nivel inferior es inminente.

03. El calor de la IA está "polarizado", con un vacío en el medio

Los grandes modelos hacen que las empresas de IA sean cada vez más pesadas.

El 10 de abril, cuando SenseTime anunció el sistema de modelo a gran escala "SenseNova", también mencionó otro punto clave, que es confiar en el gran dispositivo de inteligencia artificial SenseCore para realizar la investigación y el desarrollo del "modelo a gran escala + gran potencia informática". sistema.

Para satisfacer las necesidades de entrenamiento de datos masivos para modelos grandes, las empresas de algoritmos, que podrían haber entrado en batalla a la ligera, comenzaron a construir su propia nube y su propio centro de datos de inteligencia artificial (AIDC).

Otro caso es Haomo, una empresa de conducción autónoma que construyó su propio centro de computación inteligente para utilizar datos de entrenamiento de modelos a gran escala.

Una de las razones más importantes por las que estos gigantes y unicornios verticales de IA tienen que hacer tanto por sí mismos es que casi no hay productos listos para usar de alto rendimiento en el mercado que puedan satisfacerlos.

En los últimos años, la cantidad de parámetros de modelos grandes ha aumentado exponencialmente, y la cantidad de datos también aumentará a gran escala con la introducción de la multimodalidad, lo que inevitablemente conducirá a un fuerte aumento en la demanda de poder de cómputo. Por ejemplo, en los últimos cinco años, los parámetros del modelo de IA de parámetros grandes han aumentado en un orden de magnitud casi todos los años. En los últimos 10 años, la demanda de poder de cómputo de los mejores algoritmos de IA ha aumentado más de 1 millón de veces.

Un empleado de SenseTime dijo que el consumo de energía de diseño de los gabinetes de servidor de SenseTime Shanghai Lingang AIDC varía de 10 kW a 25 kW, y puede acomodar hasta cuatro servidores Nvidia A100 al mismo tiempo. Sin embargo, el consumo de energía de diseño general de los gabinetes de servidor ordinarios es en su mayoría 5 kW El consumo de energía de un solo servidor A100 es tan alto como 4,5 kilovatios.

Esto es especialmente cierto para los gigantes de la tecnología. Cada gigante espera formar un circuito cerrado en su propia ecología, hasta cierto punto, porque toda la ecología doméstica de fuente abierta no es lo suficientemente fuerte.

En la actualidad, la cadena de la industria de modelos a gran escala se puede dividir aproximadamente en tres niveles: preparación de datos, construcción de modelos y productos de modelos. En países extranjeros, la cadena industrial de modelos a gran escala de IA es relativamente madura y se ha formado una gran cantidad de empresas de infraestructura (arquitectura) de IA, pero este mercado aún está relativamente vacío en China.

En China, los gigantes tienen su propia estructura de entrenamiento.

Por ejemplo, el modelo de Huawei adopta una arquitectura de tres niveles. La capa inferior es un modelo grande generalizado con super robustez y generalización. Además de esto, está el modelo grande de la industria y la implementación para escenarios y flujos de trabajo específicos. Modelo. La ventaja de esta arquitectura es que cuando el modelo grande entrenado se implementa en industrias verticales, la capacitación repetida es innecesaria y el costo es solo del 5% al ​​7% de la capa anterior.

Ali ha creado una base unificada para la IA. Ya sea CV, NLP o Vincent, los modelos grandes se pueden colocar en esta base unificada para el entrenamiento. El consumo de energía requerido por Ali para entrenar el modelo grande M6 es solo el 1% de GPT-3.

Baidu y Tencent también tienen diseños correspondientes. Baidu tiene un mapa de conocimiento chino que cubre más de 5 mil millones de entidades. El aprendizaje del curso de inicio en caliente de Tencent puede reducir el costo de capacitación de billones de modelos grandes a una octava parte del inicio en frío.

En general, aunque el enfoque de cada fábrica importante es diferente, la característica principal es reducir los costos y aumentar la eficiencia, y esto se puede lograr en gran medida gracias al sistema de capacitación de circuito cerrado de "manos a la mano".

Este modelo ciertamente tiene ventajas dentro de una sola gran fábrica, pero desde la perspectiva de la industria, también hay algunos problemas.

La cadena madura de la industria de IA en el extranjero ha formado una gran cantidad de empresas de infraestructura de IA, algunas de las cuales se especializan en el etiquetado de datos, la calidad de los datos o la arquitectura de modelos.

La profesionalidad de estas empresas les permite ser mejores en términos de eficiencia, costo y calidad en un solo eslabón que las propias grandes fábricas.

Por ejemplo, Anomalo, una empresa de calidad de datos, es un proveedor de Google Cloud y Notion. Puede realizar una observación de datos en profundidad y una inspección de calidad de datos a través de la evaluación automática de ML y capacidades de inspección de calidad de datos generalizada.

Estas empresas son como el Nivel 1 en la industria automotriz. A través de la división profesional del trabajo, las empresas de modelos a gran escala no tienen que reinventar la rueda, solo necesitan integrar los recursos del proveedor para construir rápidamente su propia estructura modelo, reduciendo así los costos.

Pero el país no está maduro en este aspecto.La razón es que: por un lado, los principales actores de los modelos nacionales a gran escala son grandes fabricantes, todos tienen su propio sistema de capacitación y casi no hay posibilidad de que los proveedores externos para entrar; por otro lado, también hay una falta de nacionales Con una ecología empresarial suficientemente grande y pequeñas y medianas empresas, es difícil para los proveedores de IA encontrar un espacio vital fuera de las grandes fábricas.

Tomemos como ejemplo a Google. Google está dispuesto a compartir los resultados de sus propios datos de entrenamiento con sus proveedores de calidad de datos para ayudar a los proveedores a mejorar sus capacidades de procesamiento de datos. Una vez que se mejoren las capacidades de los proveedores, a su vez proporcionarán a Google más datos de calidad, formando así un círculo virtuoso.

La falta de una infraestructura de IA doméstica conduce directamente al umbral alto para el emprendimiento modelo a gran escala.

Wang Huiwen propuso una inversión de 50 millones de dólares estadounidenses cuando dejó el campo para hacer Light Years Beyond. Li Zhifei calculó el dinero para él. Específicamente, se puede dividir en 20 millones de dólares estadounidenses para poder de cómputo, 20 millones de dólares estadounidenses dólares por encontrar a alguien, y 10 millones de dólares estadounidenses. Esto refleja un problema directo: si la construcción de un modelo a gran escala en China se compara con una comida caliente, debe comenzar con cavar la tierra y cultivar vegetales.

En la actualidad, en el auge de la IA 2.0, una característica importante es la "polarización": la más popular es la capa de modelo grande o la capa de aplicación. Sin embargo, la capa intermedia similar a AI Infra (arquitectura) tiene un gran vacío.

No te centres en hacer ruedas, también es importante saber hacer un buen tornillo.

04. Conclusión: Gigantes e Innovadores

La guerra de palabras entre Wang Xiaochuan y Baidu se ha convertido en un animado episodio en el reciente tumulto de modelos a gran escala.

"Alto, rico y guapo" Li Yanhong cree que China básicamente no producirá OpenAI, y estará bien usar gigantes.

El "hombre heterosexual" Wang Xiaochuan dijo que algunas personas en la industria (Robin Li) nunca han juzgado el futuro correctamente y han estado viviendo en un universo paralelo.

Además de viejas quejas, esto generalmente puede verse como una confrontación entre gigantes y empresarios: a los gigantes les gusta hacer todo, mientras que a los empresarios les gusta romper las reglas.

Y el éxito de la industria tecnológica parece depender más de la innovación. Después de todo, desde DeepMind, que creó AlphaGo, hasta OpenAI, que lanzó ChatGPT, ninguno de ellos nació de gigantes.

Este es el dilema del innovador.

Para los gigantes tecnológicos, es importante construir sus propias ruedas, pero ¿por qué no encontrar e incubar el próximo OpenAI?

Aquí se necesita el apoyo de todos

Supongo que te gusta

Origin blog.csdn.net/youyi300200/article/details/130277044
Recomendado
Clasificación