Wang Cheng: cuando el gobierno de datos se encuentra con ChatGPT

Tecnologías como la inteligencia artificial, representada por ChatGPT, están "volando", provocando cambios trascendentales en el mundo. El 27 de abril, en la Cumbre de nuevas prácticas de gobierno de datos de 2023, el Sr. Wang Teng, fundador y director ejecutivo de Datablau Digital Technology, compartió el tema "Nuevas prácticas de gobierno de datos e inteligencia artificial" y exploró junto con los colegas participantes cuándo se reúne el gobierno de datos. ChatGPT, qué tipo de "reacción química" tendrá esta ronda de tecnología de IA con el gobierno de datos.

La siguiente es la transcripción del discurso del Sr. Wang Teng. Para facilitar la lectura, el editor ha realizado algunos cambios de redacción y optimización del texto.

Hola a todos, en primer lugar, en nombre de Shuyu, me gustaría agradecer a todos por asistir a la Cumbre de Nuevas Prácticas de Gobernanza de Datos de 2023. El tema principal de hoy trata sobre ChatGPT, un punto de inflexión en la historia humana.

¿Por qué los elementos de datos se convierten en nuevos factores de producción?

En primer lugar, echemos un vistazo al elemento de datos. En la actualidad, se considera un nuevo tipo de factor de producción en China. ¿A qué se debe esto? Lo interpreto más desde la perspectiva de las tres etapas del desarrollo económico. La primera etapa es la economía agrícola, y los elementos centrales son el trabajo y la tierra; la segunda etapa es la economía industrial, y los elementos centrales son el capital, la tecnología, etc. ., y la tercera etapa también es la economía digital de la que estamos hablando. El cambio central es que las dos primeras etapas se centran en el "lado de la oferta y la demanda", es decir, la asignación de recursos y el intercambio de valor entre empresas y clientes. Sin embargo, cuando se integren los datos, se generará más contenido y habrá AIGC (IA genera contenido), lo que significa que más empresas, clientes y partes interesadas crean valor juntos.

Desde la perspectiva de los escenarios empresariales, es decir, el gemelo digital es para digitalizar la información de contenido, y luego hacer algunos gemelos digitales y deducción predictiva, y luego generar los valores correspondientes.La versión 1.0 del gemelo digital se llama optimización de roles, y el La versión 2.0 se llama optimización de roles. El mundo paralelo, es decir, la digitalización se convierte completamente en un gemelo digital para ejecutar de antemano para predecir lo que puede suceder en el mundo real y retroalimentar al mundo real para optimizar de antemano. Creo que esto es el valor real de los datos que se introducen como factor de producción.

inserte la descripción de la imagen aquí

¿Cuál es el impacto del desarrollo digital impulsado por la tecnología?

A continuación, citaré algunas conferencias del Dr. Lu Qi, que han sido muy populares recientemente. Desde la perspectiva de la fuerza de trabajo, en la sociedad agrícola, los agricultores y la tierra están relacionados entre sí, lo cual es una fuerte relación de acoplamiento; en la sociedad industrial posterior, la fuerza de trabajo comenzó a fluir, y los productos producidos también fluían; en la actualidad etapa, en el proceso de digitalización, de hecho, es más una economía de servicios, en la que los roles centrales son programadores, diseñadores, analistas, etc.; de la ubicuidad de la información digital a la ubicuidad de los modelos digitales, esta es una gran punto de inflexión. Entonces todos predicen que el modelo puede reemplazar a programadores, diseñadores, analistas, etc. Este es un tema de ansiedad en la sociedad actual. Una vez que el modelo esté más maduro, el trabajo principal puede ser ser un empresario o un científico de alto nivel.

inserte la descripción de la imagen aquí

El Dr. Lu Qi dividió el entorno humano en tres sistemas. El primero es el sistema de percepción-información, es decir, la información está en todas partes; el segundo es el sistema de modelo de pensamiento, que en realidad es nuestro modelo de conocimiento; el tercero es el sistema de implementación-acción. En los primeros días de los sistemas de información, IBM, Microsoft, etc., todos detectaban y recopilaban información. Se puede ver que el punto de inflexión es que Google básicamente ha reducido a cero el costo de obtener información para los humanos. Por supuesto, los sistemas de información existirá durante mucho tiempo en el futuro. Actualmente nos encontramos en el punto de inflexión del segundo sistema de modelo de pensamiento Open AI. ChatGPT 3.5 ha provocado un cambio cualitativo, que llamamos un nuevo paradigma, que reduce nuestro costo de adquisición de conocimiento (pensamiento). Transformado en representación del conocimiento, esperado la memoria y la generalización se logran mediante el razonamiento y la inducción. El sistema de acción final se trata más de la conversión entre las personas y el mundo físico.

inserte la descripción de la imagen aquí

Con respecto a la transformación de datos en expresión de conocimiento, y la realización de la memoria esperada y la generalización a través del razonamiento y la inducción, hay un ejemplo real en los últimos dos días. En el grupo de la comunidad de modelos de código abierto de Datamodeling, alguien inició una discusión sobre el diseño de la relación entre las partes en el modelo LD-FSM.

inserte la descripción de la imagen aquí

Todos respondieron en un torrente de lenguas, desde varios ángulos, pero nunca hubo una sensación de romper la verdad con una sola palabra. Fue entonces cuando alguien comenzó a publicar las respuestas de ChatGPT.

En primer lugar, le di a ChatGPT un contexto, "Usted es un experto senior en modelado de datos", pero esta versión de la respuesta todavía no se siente bien.
inserte la descripción de la imagen aquí
Entonces, se le pidió a ChatGPT que respondiera nuevamente. La respuesta esta vez ha sido bastante fiable. Básicamente puede alcanzar el nivel de expertos de la industria.

Pero todavía hay algunas expresiones vagas en él, como "El modelado de la relación entre las partes se centra en la interacción entre las partes" ¿A qué se refiere esta interacción? Entonces, le pedí a ChatGPT que aclarara esto nuevamente. ChatGPT dio un ejemplo para aclarar este tema muy claramente.
inserte la descripción de la imagen aquí
Finalmente, deja que ChatGPT dé otra aclaración y ejemplo.

inserte la descripción de la imagen aquí
A ver si esto es para abaratar el costo de adquirir conocimiento (pensar), detrás está transformar los datos en expresión del conocimiento, y lograr la memoria y generalización esperada a través del razonamiento y la inducción.

Antes de que pudiéramos hacer esto, es posible que tengamos que contratar a un experto en modelos para realizar un proyecto de consultoría. Tomó varios meses de lanzar y gastar decenas de miles o cientos de miles, pero ahora el costo es casi cero. Esto es lo mismo que cuando Google lanzó un motor de búsqueda en ese entonces y nuestro costo de obtener información se redujo a cero. Entonces, actualmente nos encontramos en un gran punto de inflexión.

¿Cuáles son los elementos centrales del éxito de ChatGPT?

El modelo GPT de ChatGPT se basa en la arquitectura del modelo secuencial Transform. En comparación con el gráfico de conocimiento anterior y otros métodos, la arquitectura del modelo secuencial Transform puede comprimir una gran cantidad de información de manera más eficiente, que es el punto de avance central; en segundo lugar, English It es un idioma global, y la cantidad de información de ChatGPT en realidad es aportada por personas de todo el mundo. Si se ubica en un entorno chino, aún puede haber bastantes desafíos, porque la cultura occidental en sí misma tiene una lógica filosófica de deducción y deducción, pero el chino es más complicado y difícil de entender, por lo que es mucho peor que corpus ingles. Desde la perspectiva del chino, en el futuro, para la captura y entrenamiento de esta información, ¿deberíamos convertir la información del inglés al chino o partir directamente del chino? Esta es una intersección relativamente grande.

inserte la descripción de la imagen aquí

¿Hasta dónde puede desarrollarse la inteligencia artificial?

La tecnología de inteligencia artificial representada por ChatGPT tiene capacidades poderosas. En términos generales, el desarrollo de la inteligencia artificial se puede dividir en tres etapas. La etapa en la que AlphaGo derrotó al maestro de ajedrez humano pertenece a la inteligencia artificial débil. La etapa actual básicamente se acerca a la inteligencia artificial fuerte, que es similar al nivel del cerebro humano. , o incluso supera al cerebro humano. Después de eso, la inteligencia artificial super ha alcanzado la etapa en la que se puede cubrir todo el conocimiento humano. Algunas personas predicen que la inteligencia artificial super puede realizarse en 2030 o 2040.

En el American Trivia Grand Prix, el campeón humano compite con la máquina, y es muy difícil ganar. Por lo tanto, cosas como cuestionarios, aritmética, memorización, etc., han sido cubiertas por la inteligencia artificial durante mucho tiempo. Luego están cosas como la conducción autónoma, el reconocimiento de voz, la visión, la traducción, etc., que casi todas pueden lograr inteligencia artificial, pero cosas como la ciencia, el diseño, la escritura de libros y el arte aún son difíciles de lograr a corto plazo, por lo que hay hay algunas discusiones hasta el final Hasta qué punto se puede desarrollar la inteligencia artificial, aquí hay una teoría interesante: el "Experimento de la habitación china" de John Searle, ¿pueden las máquinas futuras tener algunas emociones y pueden desarrollarse hasta un nivel incontrolable? Esto aún no se ha concluido, y es una pregunta de reflexión abierta para todos.

Desarrollado por AI, un motor inteligente para el gobierno de datos

De hecho, también hemos investigado mucho sobre ChatGPT. Primero, preguntémonos qué puede hacer ChatGPT para ayudar al gobierno de datos. Su respuesta: Primero, puede hacer algunos procesos institucionales para la gobernanza de datos. En segundo lugar, puede analizar la validez y consistencia de algunos datos. En tercer lugar, algo de monitoreo de calidad, cumplimiento de seguridad del gobierno de datos y algo de automatización de tareas al mismo tiempo. Para el primer punto que respondió, le pedimos que enumerara 100 estándares de datos de la industria para la industria manufacturera, y puede dar una respuesta que cumple con las expectativas.

inserte la descripción de la imagen aquí

Luego, deje que escriba un fragmento de "código para verificar la validez del número de tarjeta de identificación usando SQL", que está perfectamente escrito y es realmente fuerte.
inserte la descripción de la imagen aquí

Entonces, ¿cómo debería el gobierno de datos adoptar la nueva ola de tecnología de inteligencia artificial representada por ChatGPT?

Práctica inteligente de clasificación y calificación de seguridad de Datablau

Partiendo de la práctica, Datablau viene realizando una investigación y desarrollo inteligente de clasificación y clasificación de seguridad de datos. En nuestra arquitectura de plataforma de productos, formamos un conjunto de clasificación y corpus de clasificación al entrenar el sistema de clasificación y clasificación de la industria. Luego use Word to Vector para comparar la distancia entre los vectores de palabras, es decir, la distancia entre una clasificación y un vector de metadatos. Por supuesto, debe haber alguna optimización en este proceso. Para la descripción de grandes piezas de información, generalmente usamos el método de división de palabras, lo que puede hacer que la información dividida no tenga sentido, y en este momento se requiere una optimización manual.

Como se muestra en la figura a continuación, realizamos una segmentación de palabras en la descripción de la clasificación y luego la colocamos en el espacio vectorial para operaciones de correlación para ver la correlación entre el campo y la descripción de la clasificación, obtener el valor del espacio vectorial , y obtener la recomendación de clasificación de datos con mayor correlación con el campo.
inserte la descripción de la imagen aquí

De hecho, en la actualidad, hemos realizado una gran cantidad de clasificación y clasificación de seguridad inteligente en las industrias de valores y banca, especialmente para el estándar industrial de la clasificación y clasificación de seguridad de datos del Banco Popular de China. Se utiliza un conjunto de 12,2 millones de corpus industriales. para complementar el corpus del Banco Popular de China. Por lo tanto, la tasa de reconocimiento por primera vez de la clasificación y clasificación de datos bancarios puede alcanzar el 76%, y con la optimización manual, puede alcanzar el 90%. Por supuesto, todo el proceso tiene el efecto de auto-retroalimentación También es el proceso de autoaprendizaje de la máquina.
inserte la descripción de la imagen aquí
Ok, eso es todo sobre el tema de ChatGPT.
* Algunas imágenes del artículo son del material didáctico del Dr. Lu Qi