Hablemos del modelo grande.

Una tecnología con un gran avance suele pasar por las siguientes etapas desde su aparición hasta su uso popular:

1. Adoración ciega en la etapa inicial. Las características de las nuevas tecnologías están completamente más allá de la experiencia y la cognición tradicionales de las personas, por lo que se consideran "milagros". Tanto la tecnología como las personas que crean la tecnología serán muy elogiadas y deslumbrantes.

2. Caos en la fase de seguimiento. Por supuesto, también atraerá a muchos seguidores, todos tratando de obtener una parte del océano azul creado por las nuevas tecnologías. La prosperidad del mundo es todo para el beneficio, el mundo es todo para el beneficio. Algunos de los puntos calientes de publicidad no son malos, algunos están tratando de hacer un gran ruido para mostrar su presencia, y algunos están tratando de hacer subir el precio de las acciones.

3. Preguntas en la etapa post-caliente. El período de nacimiento de una nueva tecnología debe ser imperfecto. Puede reflejarse en un alto costo, inestabilidad o bajo rendimiento. Hay muchos tipos de cosas, por lo que las personas atacarán y magnificarán las dudas al captar pequeños problemas, por lo que algunas personas se regodearán y dejarán va de esta manera.

4. El silencio de la etapa de molienda del producto. En el centro de atención, es difícil pulir el producto. El ruido del escenario y la exageración de los medios harán que la gente se sienta mareada. Solo cuando la marea de exageraciones retrocede, aquellos que realmente se dan cuenta del valor de las nuevas tecnologías y están comprometidos con el uso de nuevas tecnologías para cambiar el mundo pueden continuar invirtiendo y haciendo esfuerzos continuos.

5. La destrucción de la etapa de éxito. Cuando las deficiencias técnicas se pueden compensar, y los productos se pueden integrar y aplicar mejor con nuevas tecnologías para desempeñar un papel, no solo para lograr el éxito técnico, sino también para lograr el éxito comercial, por lo que el centro de atención del saludo floral una vez más da la bienvenida. los ganadores.

La electricidad en la era industrial, el comercio electrónico, la cadena de bloques y el metaverso en la era de Internet son todos lo mismo. Del mismo modo, los modelos grandes también están en este camino.


En el campo de la IA, actualmente las más populares y exitosas son las redes neuronales. La red neuronal es algo interesante. Tuve un pequeño contacto con ella durante la universidad y escribí algunas piezas de código de implementación para mis estudiantes de último año. Luego cambié mi dirección y fui al campo del software de aplicación. Ha sido criticado por su falta de conocimiento científico. innovación. Y el hermano que ha cultivado profundamente esta vía se dedica a la investigación de robots, y fue ascendido a académico de la Academia de Ingeniería hace unos años. Sutskever, el científico jefe de openAI, entró en contacto con las redes neuronales aproximadamente al mismo tiempo. Continuó investigando y practicando durante 20 años, y ahora se encuentra en la cima del campo en el mundo.

Si abre el mecanismo del modelo grande de forma visual, puede ver un montón de círculos y conexiones. Los círculos representan neuronas, que sirven como unidades de computación y almacenamiento. Las líneas de conexión corresponden a diferentes pesos, también conocidos como parámetros, que se ajustan a través del entrenamiento. La neurona realiza operaciones de función sobre la entrada y el peso correspondiente para completar la salida. Si el resultado no es ideal, ajuste los pesos hasta que sea satisfactorio.

Obviamente, una sola neurona no puede lograr demasiada habilidad, es solo una clasificación simple. Pero si el número y las capas de neuronas se expanden y profundizan continuamente, aparecerán efectos mágicos.

Más es diferente, el cambio cuantitativo conduce al cambio cualitativo.

El número de capas de red neuronal GPT1 es de 12 capas y la escala de parámetros es de 150 millones, el número de capas de GPT2 se duplica a 24 capas y la escala de parámetros aumenta a 350 millones Cuando GPT3 alcanza las 96 capas, la escala de parámetros cambia exponencialmente a 175 mil millones El número de parámetros es más de un billón.

A medida que aumenta el número de capas y aumenta el tamaño de los parámetros, la red neuronal exhibe efectos misteriosos y se vuelve como si tuviera una mente. Después de entrenar con corpus de alta calidad y ajustar los parámetros en su lugar, el modelo grande no solo comprende la expresión humana, sino que también responde de una manera lógica que se adapta a la escena.

Aunque la máquina no comprende realmente, reconoce y genera el contenido correspondiente de manera estadística y probabilística mediante la vectorización de representaciones de texto y la derivación basada en redes neuronales. Combinado con la bendición del mecanismo de atención, se pueden integrar y presentar grandes secciones de texto de una manera lógica y razonable.

Lo más importante es que después del entrenamiento, la capacidad de comprensión, la capacidad de generalización y la capacidad de razonamiento que muestra el modelo grande han alcanzado el nivel humano. Y una vez que la máquina alcanza el nivel humano, tiene inteligencia general, junto con el almacenamiento ilimitado de la máquina (otra clave es la compresión de la información del conocimiento), entrada ilimitada, energía inquieta y evolución continua, las Sociedades enteras pueden de hecho cambiar dramáticamente.


Después de que salió el modelo grande, causó muchas preocupaciones, la preocupación de ser reemplazado por el modelo grande. También hay muchas personas que ven oportunidades para remodelar productos e incluso industrias basadas en modelos grandes.

openAI está a la vanguardia, y la publicación de artículos y artículos revela la dirección de la ruta técnica. Caminar por un camino relativamente claro hacia el éxito puede acortar el tiempo requerido para el éxito.

Sin embargo, en la competencia por modelos grandes, solo 3-5 empresas pueden ganar al final. Esto está estrechamente relacionado con los recursos financieros y la solidez de la investigación científica. Ponerle un caparazón al código abierto y pretender desarrollar un gran modelo lanzado por tontos y tontos de desarrollo propio, ya sea por logros políticos o por el precio de las acciones, es en última instancia un beneficio.

Sin embargo, las aplicaciones basadas en modelos grandes o las aplicaciones remodeladas por modelos grandes están destinadas a florecer y ser coloridas.

Las aplicaciones que pueden ser reconstruidas directamente por el modelo grande son los chatbots inteligentes de consulta y respuesta a preguntas, que no solo pueden entrenar modelos grandes de industrias verticales, sino que también pueden usar bases de datos vectoriales externas para administrar el conocimiento de la industria y combinar las capacidades generales de resumen del modelo grande para generar respuestas. . En comparación con la base de conocimientos anterior y la búsqueda de segmentación de palabras, habrá una mejor mejora de la experiencia.

Luego está la aplicación de generar automáticamente una copia de marketing basada en la capacidad de AIGC. Este tipo de aplicación alguna vez fue popular, pero el valor central proviene de modelos grandes, el umbral no es alto, es fácil de copiar y es difícil que dure mucho tiempo. La empresa estrella temprana Jasper es un ejemplo típico. .

Sin embargo, si la capacidad de generalización y la capacidad de razonamiento del modelo grande se pueden combinar e integrar de manera efectiva en las aplicaciones de la industria, es posible que el modelo grande brille.

Las aplicaciones de la industria suelen hablar del modelo DIKW, datos-información-conocimiento-sabiduría. La expresión se procesa a partir de los datos registrados originales, encuentra la conexión para formar información; luego refina, resume y resume una gran cantidad de información para generar conocimiento que pueda reflejar la esencia de las cosas; y puede surgir la combinación de información y conocimiento para realizar un razonamiento deductivo. a la sabiduría.

Por ejemplo: (20, 24, 50...) son los datos desordenados originales, "el volumen de construcción del personal de instalación y mantenimiento de Zhang San es de 30 hojas por día" es la información legible y comprensible formada, que se puede ver desde la construcción situación de una gran cantidad de personal de instalación y mantenimiento Resumió el conocimiento de que "el volumen normal de construcción por día es 15", basado en el ajetreo de Zhang San, cómo enviar dinámicamente a otro personal para realizar nuevas órdenes de construcción requiere la sabiduría correspondiente.

Los modelos grandes son buenos para razonar después del entrenamiento basado en el conocimiento del dominio. Por ejemplo, el envío de pedidos implica una serie de reglas de dominio, y el envío de pedidos se basa en diferentes dimensiones, como habilidad, región, ruta más cercana, actividad laboral y satisfacción. Después de pasar estas reglas al modelo grande, el modelo grande se puede convertir en un motor de despacho.

Además de la programación de la instalación y el mantenimiento, existen muchos escenarios similares, como el diagnóstico de fallas, la transición del proyecto, etc.

En el modo tradicional, diferentes escenarios necesitan escribir diferentes motores de programación. Si el análisis inteligente general se puede completar con base en el modelo grande, los pasos de respuesta generados se descomponen para formar una cadena de pensamiento y luego, en base a esto, se organiza la programación y se realiza la consulta de datos o la llamada de servicio del sistema de TI de la empresa. integrado, y el cerebro inteligente de la empresa se formará naturalmente, y a través del aprendizaje continuo, la cobertura del proceso de producción de la empresa será cada vez más amplia.

De esta manera, la estructura de TI a nivel empresarial sufrirá cambios esenciales. Basado en el cerebro inteligente a gran escala, la estrategia comercial y las reglas de gestión se mejorarán y enriquecerán continuamente en el centro, y varios sistemas comerciales de los órganos ejecutivos circundantes se actualizarán. ser mandado uniformemente.

Hay un cerebro en la nube y un asistente de copiloto en el borde para cambiar la forma de interacción del sistema de TI existente. Ya no es necesario buscar los módulos a utilizar en el menú jerárquicamente profundo, y el método de diálogo simple le dice al sistema lo que quiere hacer, y el copiloto entiende y ejecuta las acciones correspondientes para completar la lógica de producción, o resumir y presentar el informe. La sensación de tener un asistente capaz a tu lado puede hacerte volar.


Con la libre comercialización de Baichuan, GLM y LLAMA, se cree que las aplicaciones industriales basadas en modelos grandes se acelerarán aún más.

Supongo que te gusta

Origin blog.csdn.net/whalecloud/article/details/131933913
Recomendado
Clasificación