¡Tú lo dices, la PC lo hace! Real Intelligence lanzó el primer producto TARS-RPA-Agent basado en modelos a gran escala de la industria

A principios de 2023, ChatGPT, que es popular en todo el mundo, presentó el primer año de AIGC. Varias empresas de tecnología nacionales y extranjeras lanzaron modelos grandes uno tras otro. A finales de junio, Intelligence Indeed, un cuasi unicornio en la industria de la inteligencia artificial, lanzó una prueba interna de su modelo de lenguaje grande vertical de desarrollo propio "TARS".

Antes de esto, ya en diciembre de 2022, Real Intelligence fue pionera en la tecnología "Intelligent Screen Semantic Understanding" (ISSUT) basada en un gran modelo de visión por computadora y lanzó el modelo "Real IPA", transformando RPA del tradicional "arrastrar y drop" expert El modo avanza al sencillo modo Xiaobai "haga clic para seleccionar", lo que hace que RPA esté disponible para todos.

Retrocediendo el reloj hasta la segunda mitad de 2023, "cómo implementar de forma rápida y eficaz modelos a gran escala en escenarios empresariales reales" se ha convertido en la cuestión principal que más preocupa a los círculos tecnológicos e industriales. El 16 de agosto, Real Smart celebró la séptima conferencia de lanzamiento de nuevos productos y entregó una respuesta real a esta pregunta.

En la reunión, Real Intelligence lanzó oficialmente el modelo a gran escala "TARS (TARS)" y lanzó el primer producto TARS-RPA-Agent basado en un modelo a gran escala de la industria, lo que redujo aún más el umbral de solicitud para los empleados digitales y logró "Lo que dices es lo que obtienes. ¡Dilo, PC lo hará!"

A continuación, el editor lo llevará al mundo de TARS, repasando el emocionante festín tecnológico lleno de productos secos:

El modelo grande abre un nuevo ámbito de RPA: generación conversacional de empleados digitales para completar el trabajo de forma independiente

Sun Linjun (A Bao), fundador y director ejecutivo de Shizhi Intelligent, mencionó en su discurso de apertura que en la era de los modelos grandes, la forma definitiva de empleados digitales se ha vuelto cada vez más clara: "La estrecha integración de los modelos grandes y RPA ha aumentado enormemente "Bajó el umbral de uso. Rompe los límites de las capacidades de la interfaz. Los empleados digitales tendrán la capacidad de completar tareas de forma independiente y convertirse en el asistente digital inteligente de todos, haciendo el trabajo y la vida más fácil". El "TARS-RPA-Agent" lanzado en esta conferencia es el primer producto corporal inteligente de la industria que combina visión por computadora con un modelo de lenguaje grande y se cree que es un hito en el desarrollo de la industria RPA.

Al mismo tiempo, repasó la iteración tecnológica y la innovación de productos en los últimos cinco años: "Shizhi Smart posee más de 50 patentes de invención y más de 300 derechos de propiedad intelectual. Esta es la prueba de que hemos hecho un buen trabajo en tecnología. y productos". Como empresa de tecnología basada en plataformas, Real Smart se compromete a iterar continuamente la tecnología de productos, empoderar a los clientes y socios ecológicos en diversas industrias a través de productos y soluciones estandarizados, y construir un sistema de entrega y servicio que los clientes perciban de manera óptima.

Nueva base tecnológica realmente inteligente: modelo grande TARS

45 días después del inicio de la beta cerrada, Ouyang Xiaogang (Xinyi), socio de Real Smart y jefe del departamento central de algoritmos, y Wang Dongyao (Kratos), un experto en algoritmos, desvelaron conjuntamente el misterio de los "TARS". modelo grande.

Con el advenimiento de la era AIGC, Real Intelligence ha reconstruido la base técnica a través del "modelo de lenguaje grande TARS (modelo básico general, varios modelos industriales verticales) + modelo grande de visión artificial ISSUT (comprensión semántica de pantalla inteligente)", y entre los dos En Internet, la matriz de productos ultraautomatizada se actualizó y transformó y se lanzaron continuamente aplicaciones innovadoras.

En la conferencia de prensa, el modelo grande TARS demostró excelentes capacidades convencionales, como generación de texto, comprensión del lenguaje, respuesta a preguntas de conocimiento y razonamiento lógico:

Entre ellos, TARS-Finance-7B, un modelo a gran escala de la industria financiera "desarrollado por usted mismo, eficaz, seguro, confiable e implementable" construido conjuntamente con Xiangcai Securities, no solo conserva las habilidades generales de generación de modelos a gran escala. Pero también tiene una base sólida en el campo financiero y financiero, se ha fortalecido y mejorado significativamente y ha logrado buenos resultados en múltiples conjuntos de evaluación de puntos de referencia generales y conjuntos de evaluación de puntos de referencia financieros en chino e inglés:

En el campo de las finanzas y la economía, en comparación con el modelo Baseline con 6 mil millones a 7 mil millones de parámetros, el puntaje promedio de la tarea del modelo TARS-Finance-7B está entre un 1% y un 20% por delante;

En el ámbito general, TARS-Finance-7B es comparable al modelo base y a otros modelos Baseline del mismo tamaño, y está por delante en algunos campos.

Detrás de los excelentes resultados de la evaluación está el verdadero trabajo que duró 4 meses:

Basado en una recopilación y limpieza de corpus, procesamiento y etiquetado de datos suficientes y detallados, más de 100 mil millones de tokens de corpus de preentrenamiento y más de un millón de datos de ajuste de instrucciones, es una reproducción inteligente, independiente y completa del preentrenamiento y ajuste de instrucciones. y mejora de la retroalimentación humana en la construcción de modelos grandes. Tres etapas de aprendizaje (RLHF) para que el modelo grande sea totalmente capaz.

Desarrolló de forma independiente el sistema Detoxify para discriminar y poner fin a la generación de discurso inapropiado en chino, mejorando la seguridad e inofensividad del modelo y haciendo que el modelo grande sea "sensible y consciente de las leyes".

Un modelo grande que sea fácil de aterrizar es un modelo grande mejor. "Costo controlable, efectos disponibles, capacitación personalizada e implementación privatizada" son las características clave de la implementación comercial de grandes modelos TARS en escenarios reales.

En términos de resolver la portabilidad y facilidad de uso de modelos grandes, Real Intelligence también ha realizado muchas innovaciones, como reducir el consumo de recursos de hardware en la etapa de inferencia a través de la cuantificación del modelo y optimizar la experiencia interactiva de preguntas y respuestas del producto a través de herramientas de aceleración de inferencia y tecnologías. Además, el modelo grande TARS admite un acoplamiento perfecto con productos Chatbot reales y puede implementar fácilmente las capacidades del modelo grande en varios terminales, como páginas web, aplicaciones y subprogramas, mediante la "configuración con un solo clic".

Haga que el modelo grande sea "visible y en movimiento": el primer agente TARS-RPA de la industria

Desde que Shizhi ingresó al camino de la hiperautomatización, ha integrado continuamente y profundamente la tecnología de IA y los productos RPA, y ha seguido promoviendo aplicaciones innovadoras. Ha sido pionera en la tecnología de "selección integrada" en la industria, que admite la integración perfecta de selección de alto nivel y selección CV, haciendo que el modo experto tradicional de "arrastrar y soltar" de RPA sea estable y sedoso; y luego fue pionero en la "pantalla semántica inteligente". "Comprensión" (ISSUT), que admite la comprensión de las pantallas de teléfonos móviles, tabletas, etc., a través de IPA real para crear un modo Xiaobai "haga clic para seleccionar".

Después de que comenzó la era de los modelos a gran escala, Real Intelligence ha estado pensando en cómo combinar modelos a gran escala con productos RPA, generar empleados digitales directamente a través de comandos de texto o chat y operar PC para completar tareas laborales de forma independiente. Por lo tanto, sobre la base del "modo novato" de IPA real, el umbral para usar RPA se reduce aún más y entra directamente en el "modo tonto" de "lo que dices es lo que obtienes, dices, la PC lo hace".

Después de una exploración y experimentación continuas, Real Intelligence lanzó el primer producto de agente basado en modelos grandes en la industria, es decir, TARS-RPA-Agent: este es un motor de modo dual basado en "TARS + ISSUT", que tiene un "cerebro". " y "ojos, manos y pies". "agentes hiperautomatizados. Al mismo tiempo, también es un nuevo modelo de RPA que puede desarmar tareas de forma independiente, percibir el entorno actual, ejecutar y dar retroalimentación y recordar experiencias históricas.
En la conferencia de prensa, Ouyang Xiaogang (Xinyi) presentó en detalle los problemas clave y las características innovadoras de TARS-RPA-Agent en el proceso de diseño:

①Tarea de desmantelamiento autónomo: problemas complejos, divide y vencerás

En escenarios reales, las instrucciones humanas complejas a menudo están contenidas en declaraciones muy concisas, lo que no se puede lograr generando un fragmento de código Python a través de un modelo grande o simplemente llamando de 3 a 5 componentes de RPA.

TARS-RPA-Agent admite el desmontaje autónomo y el refinamiento de instrucciones simples pero complejas al estilo Chain-Of-Thought, y luego compara las subtareas desensambladas y los pasos específicos con los bloques y componentes del proceso RPA reales. Mapeo, y finalmente completa la generación de integración, Procesos complejos altamente controlables.

Por ejemplo, "Quiero comprar una computadora portátil, ayúdeme a recomendarla", TARS-RPA-Agent puede desmontarla para "iniciar sesión en el sitio web de compras, consultar la marca, la configuración, el precio y otra información de la computadora portátil, y completar la recomendación del producto". y otros pasos múltiples e implementarlos automáticamente.

② Percibir el entorno actual: perspectiva humana, comprender la pantalla

"¿Cómo encontrar con precisión el cuadro de entrada, el botón de inicio de sesión o la ventana de chat en la pantalla para operar basándose en la comprensión del significado del comando? Si no se trata solo de un software basado en navegador, sino de miles de clientes con diferentes arquitecturas CS, ¿qué pasa? el software del terminal..."

"Ustedes son mis ojos", la tecnología "Intelligent Screen Semantic Understanding" (ISSUT) basada en el gran modelo de visión por computadora equipa a TARS-RPA-Agent con ojos para percibir el mundo, acercando pantallas de computadora y objetos operativos que están verdaderamente basados en humanos. visión entender.

ISSUT permite a TARS-RPA-Agent "comprender" la pantalla en segundos y completar el análisis automático la primera vez sin intervención manual. En una gran cantidad de escenarios reales donde el código fuente de la página web no se puede analizar o el software del cliente no abre la interfaz API, el valor de ISSUT es doblemente destacado.

Por ejemplo, comprenda las instrucciones y opere automáticamente el WeChat empresarial que no abre la interfaz API:

③Ejecución y retroalimentación: entrelazado, optimización en un solo paso

PDCA (Planificar, Ejecutar, Verificar, Actuar) es un excelente hábito de trabajo de los seres humanos, y la retroalimentación y corrección continua en el proceso de ejecución es una ley general del mundo objetivo. La comprensión de la intención y la ejecución de tareas en escenarios reales son muy complejas. TARS-RPA-Agent también debe garantizar la exactitud de cada paso de la operación para evitar que no se pueda completar la tarea debido a desviaciones de comprensión o errores operativos.

Por lo tanto, TARS-RPA-Agent diseñó ingeniosamente el mecanismo relevante de "estrategia de optimización de un paso basada en el aprendizaje por refuerzo y la retroalimentación para cada paso de ejecución" para mejorar continuamente la corrección y controlabilidad del proceso de toma de decisiones y ejecución.

Por ejemplo, optimización heurística basada en acciones previas:

④ Experiencia histórica de la memoria: recuperación extendida, memoria a largo plazo

"Los Saint Fighters no serán derrotados dos veces con el mismo truco". Como agente, TARS-RPA-Agent también necesita mejorar su aprendizaje autónomo y sus capacidades iterativas, para poder aprender de la experiencia histórica y mejorar continuamente a través de casos históricos. Al mismo tiempo, encuentra una capacidad similar de toma de decisiones independiente durante las tareas, mejorando continuamente la eficiencia de la colaboración hombre-máquina.

Las capacidades de la memoria a largo plazo, como la retención de contexto y la optimización de decisiones para modelos grandes, generalmente se logran mediante la gestión de la memoria y otros medios. TARS-RPA-Agent también combina expansión de contexto, recuperación de vectores y otras tecnologías, y está equipado con capacidad de memoria a largo plazo, que admite guardar el estado de ejecución de tareas pasadas, correcciones de usuario, resultados de ejecución, etc. en la base de datos, y sirve como base para su posterior análisis y optimización.

"TARS+" abre infinitas posibilidades

En la conferencia de prensa, Zhou Chunzhao (Sauron), socio de Real Smart y jefe del departamento de innovación de productos, Zhao Ming (Naruto), socio de Smart Smart y jefe del centro de I+D de innovación, y el experto en productos Zhang Yihao. (Tuohai), Zhang Xinyan (Yu Ji), etc., lanzaron sucesivamente productos de integración profunda del modelo grande TARS con una sensación plena de nueva experiencia y llenos de inteligencia y la matriz de productos ultraautomatizados, y empleados digitales de IPA que apoyar plenamente el Xinchuang nacional.

TARS+RPA=ChatRPA

TARS+IDP=ChatIDP

TARS+Plataforma=ChatPlataforma

Personal digital TARS+ nacional Xinchuang IPA

Real Intelligence siempre se ha adherido a la intención original de "la IA potencia los negocios" y cree firmemente en el brillante futuro de la colaboración entre humanos y la era de la hiperautomatización. En los últimos tres años, ha realizado continuamente lanzamientos de nuevos productos para acelerar continuamente acelerar el ritmo de la innovación en la industria:

2022.12.7 "Cambio de mariposa · Nuevo ventilador", no es necesario arrastrar y soltar, simplemente haga clic para seleccionar el modo IPA real, lo que hace que RPA esté realmente disponible para todos

2022.3.31 "AI que amas, nueva e innovadora", siempre innovando, siempre AI

2021.10.18 La innovadora y líder tecnología de captación de fusión ofrece "Boundless and Boundless"

2021.5.25 "New·Dynamic·Smart·Burn", un verdadero avance en innovación

2021.1.8 La rápida evolución iterativa de la RPA real permite que "la repetición me pertenece, la creación te pertenece a ti"

2020.7.15 El primer saludo real: "¡Conduce inteligentemente el futuro 丨 Hola, empleado digital"!

En esta conferencia de prensa, el modelo grande de doble base TARS+ISSUT aporta una nueva visión de la hiperautomatización, y TARS-RPA-Agent crea un mayor nivel de colaboración hombre-máquina "¡usted dice, la PC lo hace!".

En el futuro, después de evaluar y corregir completamente el rendimiento y la seguridad del modelo, Real Intelligence abrirá el código fuente del modelo financiero TARS-Finance-7B a la comunidad para promover la investigación académica y el desarrollo de aplicaciones en la dirección de grandes modelos generativos. También continuará ampliando la escala de parámetros del gran modelo vertical TARS para dar la bienvenida al surgimiento de más capacidades.

Shizhizhi seguirá trabajando junto con colegas de los círculos académicos e industriales nacionales y extranjeros para avanzar hacia el otro lado de infinitas posibilidades.

De acuerdo con la práctica habitual, no nos despediremos y nos vemos en un punto más alto en la próxima conferencia de lanzamiento de productos inteligentes.