4ª semana de junio 2023 Colección de modelos grandes

4ª semana de junio 2023 Colección de modelos grandes

  • 2023.6.30
  • Declaración de derechos de autor: este artículo es el artículo original del blogger chszs y no se reproducirá sin el permiso del blogger.

1. Tencent Cloud anunció el progreso del modelo grande por primera vez

El 19 de junio, Tencent Cloud celebró el modelo industrial a gran escala y la cumbre de tecnología de aplicaciones inteligentes, anunció el progreso del desarrollo del modelo industrial a gran escala de Tencent Cloud por primera vez y lanzó oficialmente la construcción conjunta y la cooperación de modelos industriales a gran escala. con 22 clientes, y lanzó conjuntamente el "Plan ecológico de modelo a gran escala de la industria de la nube de Tencent" se compromete a promover conjuntamente la innovación y la implementación de modelos a gran escala en el campo industrial. Según los informes, basados ​​en los clústeres informáticos de alto rendimiento de Tencent HCC y las capacidades de modelos a gran escala, Tencent Cloud ha proporcionado más de 50 soluciones industriales de modelos a gran escala para más de 10 industrias, incluidas las de medios, turismo cultural, asuntos gubernamentales y finanzas. En la reunión, Tencent anunció la solución de servicio Tencent Cloud MaaS.

Tencent Cloud cree que, en comparación con los modelos a gran escala de propósito general, las empresas necesitan modelos a gran escala para sus propias industrias específicas, combinados con sus propios datos para capacitación y ajuste, a fin de crear servicios inteligentes más prácticos. Las empresas tienen altos requisitos de servicios profesionales y baja tolerancia a fallas, por lo que los grandes modelos utilizados deben ser controlables, rastreables y corregibles, y deben someterse a pruebas repetidas y suficientes.

MaaS en la nube de Tencent

2. OpenAI puede lanzar una tienda de modelos de IA y la plataforma puede realizar un acoplamiento bidireccional

OpenAI planea lanzar una tienda de aplicaciones modelo AI similar a la "App Store" de Apple". La plataforma puede realizar un acoplamiento bidireccional. Los desarrolladores pueden poner sus productos basados ​​en la tecnología OpenAI en los estantes, y las empresas también pueden usar LLM en el mercado como necesarios, como identificar fraudes financieros, o responder preguntas específicas del mercado basadas en documentos internos. Muchos clientes empresariales de ChatGPT suelen personalizar los modelos de IA de acuerdo con sus propósitos específicos. Una vez que haya más modelos personalizados, OpenAI tiene la idea de construir una tienda de modelos. OpenAI también afirmó que la tasa de uso actual de los complementos relacionados con ChatGPT no es alta, y construir una plataforma similar a una "tienda de aplicaciones" puede aumentar efectivamente la tasa de uso de los complementos.

3. MosaicML lanzó el modelo de lenguaje grande MPT-30B, el costo de capacitación es de solo 700,000 dólares estadounidenses

La startup de inteligencia artificial MosaicML lanzó recientemente el modelo de lenguaje grande MPT-30B, que tiene 30 mil millones de parámetros y un costo de capacitación de $ 700,000 (aproximadamente RMB 5,024,400), mucho más bajo que las decenas de millones requeridas por productos similares como el costo de capacitación en USD GPT-3. Debido al costo más bajo y al tamaño más pequeño del MPT-30B, también se puede entrenar más rápidamente y es más adecuado para la implementación en hardware local, lo que se espera que promueva que la industria reduzca gradualmente el costo de entrenamiento de dichos modelos y amplíe la aplicación. de modelos de IA en una gama más amplia de campos.

4. Abogado estadounidense multado por citar caso ficticio de ChatGPT

El 22 de junio, hora local, un juez federal de Nueva York emitió un veredicto de que Levidow, Levidow & Oberman, una firma de abogados, citó un informe judicial escrito por ChatGPT que fue citado por un caso falso como un mal comportamiento y lo multó con $5,000. Desde el punto de vista actual, la IA generativa como ChatGPT puede ayudar a los usuarios con algunos servicios legales básicos, como casos laborales, casos de bienes raíces, disputas de ventas, disputas de herencia, etc., que tienen una demanda de audiencia relativamente grande. respuesta . Sin embargo, para disputas más complejas, aún puede ser necesario un abogado.

5. Dropbox lanza herramienta de búsqueda de IA

Dropbox Japan, la subsidiaria japonesa del proveedor de servicios de almacenamiento en la nube Dropbox, lanzó recientemente la versión beta de Dropbox Dash, una herramienta de búsqueda universal basada en IA. Esta herramienta agrega varias plataformas y aplicaciones de oficina populares y puede mejorar efectivamente la eficiencia de búsqueda de información de los usuarios. Según la presentación oficial, Dropbox Dash está integrado con plataformas como Google Workspace, Microsoft Outlook y Salesforce, lo que permite a los usuarios encontrar rápidamente la información que necesitan para trabajar en la misma barra de búsqueda, compartir contenido y unirse a reuniones sin tener que ir de un lado a otro. aplicaciones O encontrar una presentación. Debido a que Dropbox Dash usa tecnología de aprendizaje automático, sus resultados de búsqueda seguirán mejorando según las preferencias de los usuarios a medida que los usuarios la usen más. Además, Dropbox Dash también proporciona una función de pila, lo que permite a los usuarios almacenar, organizar y recuperar rápidamente direcciones de páginas web y clasificarlas visualmente como una lista de carpetas.

6. El equipo de Tsinghua Tang Jie lanza WebGLM de código abierto

El equipo de Tsinghua Tang Jie lanzó WebGLM de código abierto, un robot de chat de preguntas y respuestas en red con 10 000 millones de parámetros, y se seleccionaron documentos relacionados para KDD2023. Puede hacerle cualquier pregunta y enumerará enlaces a artículos relevantes en Internet (como Wikipedia, sitios web oficiales relacionados) y clasificará las respuestas. Según los informes, en la prueba de comparación de rendimiento, el nivel de WebGLM ha sido superior al de los 13.500 millones de parámetros WebGPT de OpenAI. Según los resultados de la evaluación, aunque los resultados de búsqueda de WebGLM son ligeramente inferiores a WebGPT-175B, son mucho mejores. que Perplexity.ai y WebGPT-13B.

El objetivo de WebGLM es mejorar los modelos de lenguaje grande previamente entrenados con capacidades de búsqueda y recuperación web, al tiempo que permite una implementación eficiente en el mundo real. Con este fin, los autores desarrollan en base a tres estrategias: un gran modelo de perro perdiguero aumentado, un generador de arranque y un marcador basado en preferencias humanas. El recuperador mejorado del modelo de lenguaje a gran escala toma las cinco páginas más relevantes como fuentes de referencia, permite que el generador de arranque genere múltiples respuestas y, finalmente, el anotador selecciona la que tiene más probabilidades de satisfacer las preferencias humanas como resultado final.

7. Northeastern University lanza TechGPT, un gran modelo centrado en la construcción de mapas de conocimiento

El 26 de junio de 2023, el grupo de investigación Knowledge Graph de la Northeastern University lanzó oficialmente el modelo de lenguaje grande TechGPT. En comparación con otros grandes modelos actuales, TechGPT fortalece principalmente varias tareas de extracción de información, como la extracción de triples relacionales centrada en la "construcción de gráficos de conocimiento" y varias tareas de inteligencia, como la comprensión de lectura automática centrada en el "razonamiento lógico". Varias tareas de generación de secuencias, como la respuesta a preguntas. tareas y generación de palabras clave centradas en la "comprensión del texto". Dentro de estas tres capacidades básicas de procesamiento del lenguaje natural, TechGPT también tiene la capacidad de procesar textos en lenguaje natural en más de diez campos profesionales verticales, como informática, materiales, maquinaria, metalurgia, finanzas y aeroespacial.

TechGPT utiliza BELLE como una poderosa base LLM de capacitación previa en chino, y la capacitación se completa con el apoyo de los datos de alfabetización en chino a gran escala de TechKG. Gracias al trabajo anterior de BELLE, no solo se completó el entrenamiento de la versión de 7 mil millones de parámetros (7B), sino que también se completó el entrenamiento de la versión de 13 mil millones de parámetros (13B). El modelo 7B puede ejecutarse en dispositivos con limitaciones de memoria y rendimiento, mientras que el modelo 13B puede proporcionar respuestas más lógicas y de alta precisión. La versión 7B actual de TechGPT ha sido de código abierto en Hugging Face y GitHub.

8. Lista de evaluación del modelo grande v1.2

El puntaje de capacidad integral es el promedio de los puntajes de capacidad de clasificación, capacidad de extracción de información y capacidad de comprensión de lectura. Ver: https://zhuanlan.zhihu.com/p/634608422

Lista de clasificación de habilidades integrales de LLM

Ya sea el jefe de Baidu o Xunfei, en sus bocas ya pisaron ChatGPT y golpearon a OpenAI, pero la evaluación de terceros no lo cree así.

9. Se anunció la segunda "GPT Industry Alliance"

Según el Securities Times, para lograr sinergia estratégica, sinergia de recursos y sinergia de capacidad, la reunión inaugural de la "GPT Industry Alliance" patrocinada conjuntamente por Internet Society of China, China Academy of Information and Communication Research Institute y 360 Group se llevará a cabo el 28 de junio, con miras a Unirse para promover la innovación y el desarrollo de la tecnología de IA.

Ya el 18 de abril de este año, en la "Conferencia Global Metaverse 2023" celebrada en Beijing, la "Alianza de la Industria GPT" fue iniciada conjuntamente por la Federación de Comunicaciones Móviles de China, China Telecom, China Mobile, China Unicom y China Radio and Television. .

Este fenómeno es inseparable del actual entorno de guerra caótica a gran escala nacional. Todos están haciendo grandes modelos y nadie está convencido. El nivel de todos es más o menos el mismo y todos afirman estar en ChatGPT.

10. La Universidad de Tsinghua lanza el modelo grande de segunda generación de ChatGLM2-6B

El 25 de junio, Tsinghua University KEG y Data Mining Group (THUDM) lanzaron el modelo grande ChatGLM2-6B de segunda generación. Presumiblemente, con el modelo grande de primera generación, hay cuatro actualizaciones principales:

  • El rendimiento ha mejorado mucho. El modelo base del ChatGLM2-6B de segunda generación utiliza la función de objetivo mixto del modelo GLM, se entrena en un conjunto de datos de 1,4 billones de tokens chinos e ingleses y se ha alineado con el modelo, lo que da como resultado una mejora de alto rendimiento.
  • contexto más largo. En el ChatGLM-6B de primera generación, la longitud de contexto más alta del modelo es 2K. El modelo base del ChatGLM2-6B de segunda generación utiliza la tecnología FlashAttention y se actualiza a 32K.
  • Inferencia más eficiente, más rápida y más económica. ChatGLM2-6B utiliza la tecnología de atención de consultas múltiples, que puede razonar a una velocidad más rápida con menos recursos de memoria. El oficial afirma que la velocidad de razonamiento es un 42% más alta que la de la primera generación.
  • Un protocolo más abierto. En el modelo ChatGLM-6B de primera generación, es una pena que su modelo de acuerdo de código abierto sea relativamente restrictivo y el uso comercial esté completamente prohibido. El ChatGLM2-6B de segunda generación anunció que está completamente abierto a la investigación académica y permite solicitudes de autorización comercial, pero se requiere una solicitud por escrito y no hay indicación de cobrar.

Supongo que te gusta

Origin blog.csdn.net/chszs/article/details/131508994
Recomendado
Clasificación