Exploración sobre el método de construcción del modelo de algoritmo de servicio público

Para ver el texto original, haga clic en el enlace: Exploración del método de construcción del modelo de algoritmo de servicio público

Fuente: [Lingdian Youshu Technology], autores Xu Zhengjun y Yuan Yue

【Nota del editor】

Las aplicaciones de IA y los grandes modelos representados por ChatGPT y GPT-4 desencadenaron una revolución tecnológica y una ola de negocios. El uso de la tecnología GPT para brindar soluciones a escenarios problemáticos se ha convertido en una tendencia inevitable en el desarrollo de la economía digital y también ha acelerado la industrialización. de algoritmos de inteligencia artificial. Al mismo tiempo, el lanzamiento oficial del tercer modelo de práctica de algoritmos aplicados de BPAA en el distrito de Putuo, Shanghái, inyectará un nuevo potencial en la recopilación de recursos de algoritmos globales, acelerando el proceso de industrialización de algoritmos y construyendo una ecología regional de talentos de algoritmos. Este artículo fue publicado por medios autorizados como China.com, China.com, Financial World, International Online e iHeima.

En el artículo "Construyendo un centro de algoritmos de servicio público para promover la construcción del gobierno digital", el autor discutió el concepto de un centro de algoritmos de servicio público (como se muestra en la Figura 1), la necesidad de construir un centro de algoritmos, la lógica de construcción de un algoritmo de servicio público, y los principios de un centro de algoritmos.La operación y gestión (como se muestra en la Figura 2) y la seguridad del algoritmo correspondiente y la responsabilidad del algoritmo han sido analizadas y exploradas en detalle. Su esencia central es: a través de la construcción de modelos de algoritmos de aplicación vertical para cada escenario de problema de subdivisión de la industria vertical en el campo del servicio público, a fin de realizar la capacidad de solución inteligente para escenarios de problemas de subdivisión específicos (incluido, entre otros, el análisis de eventos en el campo del servicio público) El análisis de la situación, el juicio de tendencias, la alerta temprana y el pronóstico y otras tomas de decisiones inteligentes) son la base de la construcción del centro de algoritmos del servicio público. Al mismo tiempo, se forma una biblioteca de modelos de algoritmos de servicio público mediante la integración de modelos de algoritmos de aplicaciones verticales uno por uno para lograr el propósito de reutilización rápida, innovación combinada, actualización iterativa y construcción a gran escala del "núcleo cerebral del gobierno" en el ámbito de los servicios públicos. En última instancia, cuando la capacidad de la biblioteca de modelos de algoritmos del centro de algoritmos de servicio público se acerque a la colección de modelos de algoritmos del campo de servicio público completo, el centro de algoritmos de servicio público madurará y se logrará el objetivo de servicio inteligente en el campo de servicio público.

Anexo Figura 1 Diagrama Esquemático Conceptual del Centro de Algoritmos de Servicio Público

Figura 2 Diagrama esquemático de la operación y gestión del centro de algoritmos de servicio público

Como continuación de este artículo, este artículo explorará el método de construcción del modelo de algoritmo de servicio público. En el momento en que el modelo grande preentrenado se está convirtiendo gradualmente en el paradigma del desarrollo de la inteligencia artificial, este documento propone: En aplicaciones prácticas, en comparación con modelos grandes generales entre industrias como ChatGPT y GPT-4 y el desarrollo independiente tradicional de industrias específicas. -escenarios de problemas específicos El paradigma general de "modelo medio" para industrias verticales será una mejor opción para la construcción de modelos de algoritmos de servicio público.

1. Paradigma del modelo pequeño

Antes de que comenzara la ola de modelos grandes de pre-entrenamiento, el paradigma del modelo pequeño siempre ha sido la forma principal de desarrollo de la inteligencia artificial. El llamado paradigma de modelo pequeño se refiere a una serie de enlaces de desarrollo, como la recopilación de datos, el procesamiento, el etiquetado, la selección de modelos, el entrenamiento de modelos y la iteración de modelos para cada escenario de problema subdividido. Los pasos de desarrollo anteriores se repetirán para diferentes escenarios de problemas subdivididos. Tomando como ejemplo el modelo de algoritmo de detección de carreteras ocupadas en la gobernanza urbana, generalmente es necesario repetir la recopilación, el procesamiento, el etiquetado, la selección del modelo, el entrenamiento del modelo y la iteración del modelo de datos de entrenamiento para eventos de carreteras ocupadas en diferentes regiones. , y establecer modelos de algoritmos específicos para la detección de eventos de ocupación de carreteras en diferentes regiones que se han puesto en uso después del desarrollo del software y el empaquetado del modelo, consulte la Figura 3.

Figura 3 Diagrama esquemático del paradigma del modelo pequeño

Según cálculos preliminares, habrá alrededor de 50.000 escenarios para la partícula más pequeña del problema de la gobernanza social en una ciudad. Si se requieren uno o varios modelos de algoritmos para cada escenario de problema de partículas finas, el número total de modelos de algoritmos para aplicaciones de gobernanza social en una ciudad llegará a más de 50.000. Según la estimación de casi 400 ciudades de mi país, la cantidad de modelos de algoritmos de aplicación vertical para escenarios de problemas subdivididos llegará a más de 20 millones.

Obviamente, el paradigma del modelo pequeño tiene los siguientes problemas: Primero, los costos de desarrollo y mantenimiento son altos. Para cada escenario de problema segmentado, se requiere la recopilación, el procesamiento y el etiquetado de datos, y se debe entrenar un modelo separado, lo que conducirá a altos costos de desarrollo y mantenimiento; en segundo lugar, baja eficiencia de desarrollo. El modelado algorítmico para cada escenario de problema subdividido es un "modo de taller pequeño" fragmentado, por lo que la eficiencia de desarrollo es baja; el tercero es una mala reutilización. Dado que los datos de cada escenario de problema se dividen y entrenan, el modelo de salida tiene poca capacidad de reutilización y de generalización, y es difícil migrar a otros negocios similares (por ejemplo, es difícil migrar el modelo de algoritmo del evento de ocupación de carreteras). en el área A a incidentes similares en el área B); Cuarto, el consumo de recursos es grande. Dado que cada negocio se modela por separado, la capacitación y la actualización iterativa de cada modelo necesitan consumir recursos, por lo que el consumo total de recursos es grande.

A pesar de los problemas mencionados anteriormente en el paradigma del modelo pequeño, el paradigma del modelo pequeño es la forma principal de desarrollar inteligencia artificial antes de que el volumen de cálculo (datos de entrenamiento) no haya aumentado en escala y la potencia informática no se haya desarrollado por completo.

2. Paradigma de modelo grande

En los últimos años, con el rápido crecimiento del poder de cómputo y el rápido desarrollo del poder de cómputo, nació un marco de algoritmo profundo llamado "Transformador" (convertidor) (inventado por Google en 2017). Desde que Google lanzó el modelo grande BERT basado en el marco del algoritmo Transformer en 2018, han surgido uno tras otro varios LM de modelos grandes de IA basados en el marco del algoritmo Transformer, especialmente el modelo grande GPT de preentrenamiento generativo. Productos extranjeros como el modelo de pintura SD de StabilityAI, el modelo multimodal multitarea de Google PaLM-E y el modelo de visión por computadora ViT-e, el modelo de lenguaje de código abierto de Meta LLaMA, AphaFold de DeepMind y otros productos, productos nacionales como el modelo grande de Baidu Wenxin, M6 de Ali, modelo grande Hunyuan AI de Tencent, modelo grande Pangu de Huawei, etc. En particular, las capacidades "emergentes" de ChatGPT lanzadas por la compañía de inteligencia artificial OpenAI el 30 de noviembre de 2022 y el modelo grande multimodal GPT-4 lanzado en marzo de este año han encendido el entusiasmo de todos los ámbitos de la vida por la IA grande. modelos. , Cada vez más empresas están llegando como una marea. Los modelos grandes ahora han reemplazado a los modelos pequeños como el paradigma .

Los modelos grandes de IA generalmente realizan un entrenamiento previo del modelo (aprendizaje no supervisado) en datos no etiquetados a gran escala para obtener un modelo grande básico de propósito general que domina las leyes comunes y el conocimiento general, y luego en datos etiquetados a pequeña escala para subtareas específicas. ajuste fino del modelo (aprendizaje supervisado) para obtener modelos de algoritmos de servicios inteligentes para subtareas específicas.

De acuerdo con esta idea, para la construcción del modelo de algoritmo de servicio público, podemos elegir directamente un modelo grande general básico relativamente maduro (o basado en el modelo de código abierto, o a través del método de llamada de interfaz API del modelo), como ChatGPT o GPT -4 u otros, y luego ajuste los datos etiquetados a pequeña escala de subtareas específicas en el campo del servicio público (como un evento específico de ocupación de carreteras) para obtener un modelo de algoritmo para subtareas específicas. Como se muestra en la Figura 4.

Figura 4 Diagrama esquemático del paradigma de modelo grande

En comparación con los modelos pequeños, el paradigma del modelo grande tiene ventajas significativas en términos de eficiencia de desarrollo, costos de desarrollo y operación y mantenimiento, capacidad de generalización del modelo, precisión del modelo y conveniencia de la aplicación.

3. El paradigma del modelo

El núcleo de ChatGPT, GPT-4 o modelos grandes básicos de uso general similares es la convergencia de capacidades de integración y generación a gran escala de tecnología de algoritmo inteligente, es decir, la capacidad de generar datos, generar programas y generar modelos sobre la base de un gran número de pre-entrenamiento Cuanto más ricas son las variables y modelos, más fuerte es su capacidad de aprender, rectificar y optimizar, reflejando así la inteligencia excelente cada vez mayor. Sin embargo, esta capacidad debe basarse en el entrenamiento de datos masivos y el consumo de una potente potencia informática. Esto significa que si se aplica directamente al escenario del problema un modelo grande básico de propósito general similar a ChatGPT o GPT-4, no solo se requerirá una gran inversión en potencia informática, volumen de cálculo y sistemas correspondientes, sino también Gran inversión .

De hecho, a nivel de aplicación, los "datos medianos", que son principalmente programables, accesibles y legibles desde un número limitado de fuentes de datos, y el "modelo mediano", que integra varios modelos clave de resolución de problemas, se forman para satisfacer las necesidades tanto de los datos medianos como del modelo mediano. El "poder de cómputo mediano" es la clave para hacer un buen uso de la tecnología GPT y otras tecnologías de algoritmos bajo las capacidades digitales reales actuales, y promover la inteligencia artificial desde la construcción de infraestructura hasta los servicios de aplicaciones. . Esto ayudará a formar un "gobierno chino" en el sentido de gobernanza digital y un grupo de " empresas .

La programación de datos en el campo vertical, la puesta en común de la experiencia profesional, la capacitación previa de una gran cantidad de modelos patentados y la integración continua a la escala y el nivel del modelo mediano, esta puede ser una forma efectiva de aplicar el paradigma del modelo grande a la aplicación vertical. es decir, para la industria vertical. El paradigma del "modelo mediano" (ver Figura 5) también está en línea con la defensa continua de Zero Points de construir un núcleo de cerebro en la nube sobre la base de una plataforma de sistema.

Figura 5 Paradigma de modelo mediano para industrias verticales

Para los servicios públicos, se puede considerar como un campo vertical en su conjunto, de modo que un modelo general básico en el campo de los servicios públicos (denominado "modelo grande de asuntos gubernamentales" o "GPT de asuntos gubernamentales", lo mismo a continuación) puede construirse teóricamente y luego combinarse con subtareas específicas Los datos etiquetados a pequeña escala (como los datos de eventos comerciales ocupados en carreteras) se ajustan con precisión para obtener un modelo de algoritmo para una subtarea específica (como los eventos comerciales ocupados en carreteras), como se muestra en la Figura 6.

Diagrama esquemático del paradigma del modelo en la Figura 6

Teniendo en cuenta que todavía existen muchas industrias subdivididas de diferente naturaleza en el campo de los servicios públicos, algunas están orientadas a los servicios y otras están orientadas a la regulación. Al mismo tiempo, considerando la dificultad de recopilar información del corpus que puede causar las barreras de datos y los diferentes requisitos regulatorios requeridos por los diferentes niveles de seguridad de la información, se puede considerar subdividirlo en la construcción de un modelo de propósito general dirigido a un determinado tipo de evento

Todavía tomando como ejemplo la detección de negocios en carreteras ocupadas, primero podemos extraer las leyes comunes contenidas en diferentes eventos de negocios en carreteras ocupadas en diferentes regiones, y establecer un modelo de algoritmo general para la detección de eventos de negocios en carreteras ocupadas, y luego de acuerdo a los diferentes eventos comerciales de ocupación de carreteras en diferentes regiones Ajuste la situación específica (combine la ley general con la situación especial) y obtenga el modelo de algoritmo de detección para diferentes eventos de ocupación de carreteras en diferentes regiones (consulte la Figura 7 como ilustración).

Diagrama esquemático del paradigma del modelo en la Figura 7

Comparado con el paradigma del modelo pequeño, el paradigma del modelo mediano tiene ventajas significativas en términos de eficiencia de desarrollo, costos de desarrollo y operación y mantenimiento, capacidad de generalización del modelo, precisión del modelo y conveniencia de la aplicación; en comparación con ChatGPT, GPT-4 o un modelo básico similar. modelo grande de uso general, el modelo mediano reduce en gran medida el umbral de inversión para la potencia informática, el volumen de cálculo y los sistemas correspondientes, y al mismo tiempo ayuda a mejorar la precisión del modelo, la capacidad de razonamiento profesional y la eficiencia

La construcción de un modelo de algoritmo de servicio público es inseparable del soporte de la potencia informática y el volumen de cálculo (datos).La actualización iterativa del modelo de algoritmo presentará requisitos más altos para la potencia informática y el volumen de cálculo. Bajo la guía del "Plan de implementación del centro de energía informática del sistema de innovación colaborativo del centro nacional integrado de Big Data" (Fagai Gaoji [2021] No. 709), todas las localidades están promoviendo rápidamente la construcción de la red nacional integrada de energía informática y la transformación y actualización de los centros de datos existentes Trabajo.

El centro de datos de nueva generación debe basarse en la orientación de escenarios de problemas, tomar el centro de modelos de algoritmos como el núcleo de la aplicación, prestar atención al entrenamiento previo de una gran cantidad de modelos de resolución de problemas de aplicaciones y los transferibles, combinables y desarrollo de tecnología integrable de módulos de algoritmos relacionados.Basado en áreas problemáticas, fuentes de datos limitadas y modelos prácticos limitados, se puede configurar una potencia informática limitada adecuada para construir un centro de algoritmos de modelo medio con capacidades prácticas de resolución de problemas en áreas problemáticas importantes, a fin de corresponder a la clasificación de la fuente de datos correspondiente y la posible integración, establecer una relación de interfaz y un mecanismo de programación con fuentes de datos más independientes, y establecer un mecanismo de parche y cobertura de datos, a fin de establecer una nueva generación de nuevos centros de datos con solución práctica de problemas capacidades.

La construcción de una nueva generación de centros de datos inevitablemente tendrá problemas como la necesidad de una perspectiva profunda sobre el trabajo comercial, la variedad de escenarios de problemas involucrados, el extenso trabajo de capacitación previa al modelo, los requisitos extremadamente altos para las capacidades compuestas del personal, y la inversión presupuestaria correspondiente Por lo tanto, la construcción de dicho centro de datos está sujeta a Habrá conflictos con grupos de interés creados en el campo del desarrollo de tecnología de construcción de centros de datos, porque su propósito es vender y copiar gestión de datos estandarizados, gobierno de datos y productos de sistemas de visualización de datos en nombre de centros de datos, ciudades inteligentes, industrias inteligentes y campos inteligentes. Los productos de plataforma, sobre la base de precios a gran escala, exprimen y consumen los presupuestos que muchas ciudades, regiones, zonas de desarrollo y Los departamentos gubernamentales originalmente esperaban usar para resolver problemas específicos de manera inteligente, y ocuparlos con tecnologías digitales con las que están familiarizados y maduras pero no lo suficiente para el uso actual. Los recursos limitados del proyecto en el campo de la gestión de datos y servicios, y en vista de la dominio limitado de la tecnología de datos por parte de los departamentos relevantes de gestión de datos y economía digital, forma arreglos arbitrarios y amenazas técnicas a la configuración de funciones, configuración de interfaz, optimización de servicios y optimización de actualizaciones del sistema de trabajo. La construcción de centros de datos en todo el mundo se enfrenta a un similar o incluso más grave "problema de proyecto de ingeniería común" a muchos proyectos gubernamentales .

Para que los gobiernos inteligentes y las ciudades inteligentes se vuelvan verdaderamente inteligentes, ahora es el momento de considerar seriamente la formación de la planificación de la construcción del algoritmo modelo, los pasos de construcción del modelo de aplicación y las pruebas de eficacia, la entrada de presupuesto independiente y los mecanismos de licitación para la construcción del centro de datos basado en modelos y algoritmos, y sistemas y algoritmos básicos.Cuando el mecanismo de gestión abierta de interfaz completa entre los sistemas de cálculo de potencia se utiliza para medir la eficacia y la capacidad de entrega del mecanismo inteligente en función de la eficacia del nivel de base y la superficie de operación.

Solo bajo este concepto se puede poner en práctica la idea de construir el modelo algorítmico de servicio público.