2023年6月第3周大模型荟萃

2023.6.20
版权声明：本文为博主chszs的原创文章，未经博主允许不得转载。

1、Meta 开源 AI 语言模型 MusicGen

6月12日讯，Meta 近日在 Github 上开源了其 AI 语言模型 MusicGen，该模型基于 Transformer 模型，如模型名称所示，MusicGen 主要用于音乐生成，它可以将文本和已有的旋律转化为完整乐曲。除此之外，MusicGen 还支持文本与旋律的组合输入，例如你可以提出生成“一首轻快的曲目”并同时要求“将它与贝多芬的《欢乐颂》结合起来”。

根据对 MusicGen 实际表现的测试结果显示，与谷歌的 MusicLM 以及 Riffusion、Mousai、Noise2Music 等其他音乐模型相比，MusicGen 在测试音乐与文本提示的匹配度以及作曲的可信度等指标上表现更好，总体而言略高于谷歌 MusicLM 的水平。

项目地址：https://github.com/facebookresearch/audiocraft
Demo地址：https://huggingface.co/spaces/facebook/MusicGen

2、Stability 推出新应用 Uncrop Clipdrop 扩展图像

Stability AI 联合 Clipdrop 于近日推出了 Uncrop Clipdrop 工具，这是一个图像比例编辑器。可以把竖图变横图，横图变竖图，任意调整图像比例。

En términos de función, Uncrop es muy similar a Photoshop Generative Fill, y su función esencial es usar IA para crear contenido de imagen en una ubicación específica. Al comparar los dos, PS GF no solo puede expandir la imagen, sino también crear una imagen en la posición especificada de acuerdo con los requisitos. Si el usuario desea modificar los detalles de la imagen con mayor precisión, PS GF aún tiene una gran ventaja en términos de función. Pero si solo necesita expandir una parte del contenido de la imagen, Uncrop ya puede cumplir muy bien con los requisitos, ¡y Uncrop es fácil de operar y completamente gratis!

3. Firefly, la herramienta de IA generativa de Adobe, lanza una versión empresarial

En su cumbre EMEA 2023, Adobe lanzó Firefly Enterprise Edition, una herramienta de generación de imágenes de IA. La nueva versión está dirigida principalmente a grandes empresas: las empresas pueden usar sus propios activos de datos para entrenar sus propios modelos grandes de Firefly y generar rápidamente contenido de imagen seguro para uso comercial.

Según el sitio web oficial, la versión empresarial de Firefly se lanzará oficialmente en la segunda mitad de este año, pero los usuarios empresariales ya pueden usar las funciones de Firefly en la versión empresarial de Adobe Express.

Firefly es un kit de generación de imágenes de IA lanzado por Adobe en marzo de 2023. Al igual que muchas herramientas de pintura de IA, los usuarios pueden usar Prompt (palabra de solicitud) para generar imágenes o reemplazar y modificar estilos de imagen. A finales de mayo, Firefly abrió oficialmente su versión beta pública y se integró en la función de relleno creativo de Photoshop, que se ha utilizado para generar más de 150 millones de imágenes. Garantizar un uso comercial seguro es un importante punto de venta de este nuevo producto y ha sido una consideración importante para Adobe desde el lanzamiento de Firefly. El contenido de datos utilizado para entrenar el modelo Firefly proviene de imágenes de Adobe Stock, contenido con licencia pública y otro contenido de dominio público cuyos derechos de autor han expirado. Adobe posee todos los derechos de estas imágenes sin disputas de derechos de autor. Al mismo tiempo, los desarrolladores de generación de imágenes de inteligencia artificial como Stability AI y Midjourney se enfrentan a demandas judiciales cada vez mayores por tomar imágenes y usarlas para entrenamiento sin el conocimiento o consentimiento de los creadores. En enero de este año, Getty Images demandó a Stability AI alegando que robó ilegalmente millones de imágenes y violó los derechos de autor.

4. H3C lanza LinSeer, un modelo de dominio privado a gran escala "Baiye Lingxi"

El 11 de junio, H3C lanzó un gran modelo de dominio privado: "LinSeer", que brinda a los clientes en industrias verticales y regiones exclusivas servicios inteligentes que son seguros, personalizados, exclusivos y en crecimiento. Este gran modelo conecta datos de aplicaciones verticales para formar una inteligencia vertical de dominio privado precisa, precisa y eficiente, y cultiva capacidades específicas, pero no puede ser universal.

En resumen, H3C ha lanzado un servidor de IA para el entrenamiento de modelos a gran escala, que puede elegir una variedad de modelos a gran escala de código abierto, combinados con los datos privados de la empresa, y finalmente formar un servicio de modelos a gran escala de forma privada. propiedad de la empresa.

5. Byte ordenará GPU de Nvidia por más de mil millones de dólares este año

Según "LatePost", después del Festival de Primavera de este año, todas las principales empresas de Internet en China con servicios de computación en la nube han realizado grandes pedidos con Nvidia. Byte ha pedido más de mil millones de dólares en GPU de Nvidia este año (incluidos el A100 y el H800 que han llegado y no han llegado), y se estima que el pedido de 10,000 tarjetas de Nvidia de otro importante fabricante de Internet es de al menos más de mil millones. yuan basado en el precio de lista RMB. Byte solo puede haber realizado pedidos este año cerca del número total de GPU comerciales que Nvidia vendió en China el año pasado.

Se entiende que Byte, Tencent, Alibaba y Baidu, las cuatro empresas tecnológicas chinas que más han invertido en inteligencia artificial y computación en la nube, han acumulado decenas de miles de A100 en el pasado. Entre ellos, A100 tiene el número más absoluto de bytes. Excluyendo los nuevos pedidos de este año, el número total de Byte A100 y su predecesor V100 se acerca a los 100.000.

Soochow Securities, Tianfeng Securities, Zheshang Securities, Guolian Securities, Huaxi Securities, Orient Securities, Essence Securities y otras instituciones de investigación de valores han publicado informes de investigación este año que la demanda de potencia informática de modelos grandes impulsará los beneficios de los fabricantes de servidores nacionales. de la bofetada indirecta, el beneficiario sigue siendo la empresa extranjera líder Nvidia.

6. 360 lanzó "Smart Brain 4.0" y está totalmente conectado a 360 Family Bucket

El 13 de junio, 360 Company realizó una conferencia de prensa para exhibir el modelo cognitivo a gran escala de uso general "Intelligent Brain 4.0", afirmando que ha completado iteraciones en capacidades clave como la multimodalidad, y estará completamente conectado al " 360 Family Bucket" y se lanzará en China. La función multimodal de Vincent Video". Zhou Hongyi cree que China ha entrado en una guerra de 100 modelos, y lo más importante es la competencia de los escenarios de aplicación; además, la clave para adelantar en las curvas nacionales radica en el desarrollo de la multimodalidad. En la actualidad, 360 tiene la capacidad de generar modalidades cruzadas, que pueden realizar Wenshengwen y Wenshengtu. , tabla de Wensheng, imagen generada por imagen, texto generado por imagen, comprensión de video y otras funciones.

Al mismo tiempo, se lanzó el humano digital 360 AI. Imaginé que la dirección de desarrollo futuro de 360 AI digital human es generar sonido, video, tener memoria a largo plazo, incluso tener la capacidad de descomponer y planificar objetivos, y tener "manos y pies", con poder ejecutivo, para servir mejor. seres humanos. 360 AI digital human actualmente tiene más de 200 roles, que se dividen en dos categorías: celebridad digital y empleado digital. Las celebridades digitales incluyen figuras históricas, estrellas ídolos, imágenes literarias, etc., y los empleados digitales pueden convertirse en asistentes de conocimiento y asistentes de oficina para los empleados de la empresa. 360 AI digital human admite la personalización. Todos pueden generar su propio humano digital exclusivo a bajo costo cargando su base de conocimiento privada, como avatares digitales, asistentes digitales, ídolos digitales, etc.

7. Próximamente llegará el borrador de la “Ley de Inteligencia Artificial”

El 10 de junio, el borrador de la "Ley de Inteligencia Artificial" ingresó al plan de trabajo legislativo 2023 del Consejo de Estado y planea presentarlo al Comité Permanente de la Asamblea Popular Nacional para su revisión dentro de este año. La legislación en el campo de la inteligencia artificial puede garantizar el uso seguro y confiable de la tecnología de inteligencia artificial. La legislación puede aclarar el método o principio de atribución de responsabilidad, proteger los derechos humanos, prevenir el abuso de la inteligencia artificial, asegurar que el proceso inteligente de toma de decisiones sea más abierto y transparente, prevenir fenómenos injustos y discriminatorios, proteger los intereses públicos y prevenir riesgos futuros . Los tipos de riesgos incluyen principalmente la seguridad de los datos, la amenaza de la opinión pública en línea, la discriminación de algoritmos, la fuga de información personal, la infracción de la propiedad intelectual, la inducción del delito cibernético, el monopolio tecnológico y la erosión del sistema educativo. Sin embargo, la mayoría de estos riesgos aún se encuentran en el nivel de conjeturas y suposiciones, y aún no han ocurrido realmente, y la probabilidad de ocurrencia de estos riesgos tampoco es concluyente.

8. Baichuan Intelligence abrió un modelo grande preentrenado en chino e inglés con 7 mil millones de parámetros

El 15 de junio de 2023, Baichuan Intelligent, fundada por Wang Xiao, el fundador de Sogou, lanzó un modelo grande baichuan-7B preentrenado en chino e inglés con 7 mil millones de parámetros. Se informa que la Universidad de Pekín y la Universidad de Tsinghua han tomado la iniciativa en el uso del modelo baichuan-7B para promover el trabajo de investigación relacionado y planean cooperar con baichuan inteligente en el futuro para promover conjuntamente la aplicación y el desarrollo del modelo baichuan-7B.

baichuan-7B no solo supera a otros modelos grandes como ChatGLM-6B por una ventaja significativa en las listas de evaluación autorizada de chino C-Eval, AGIEval y Gaokao, sino que también lidera significativamente a LLaMA-7B en la lista de evaluación autorizada en inglés de MMLU. En la actualidad, el modelo grande baichuan-7B se ha lanzado en las plataformas Hugging Face, Github y Model Scope. Esta versión también sigue el espíritu del código abierto. El código baichuan-7B adopta el protocolo Apache-2.0, y el peso del modelo adopta un acuerdo comercial libre, que se puede utilizar para uso comercial gratuito con un simple registro.

9. La última lista de clasificación de LLM de Stanford se publicó en junio

Recientemente, investigadores de Stanford propusieron un nuevo sistema de evaluación automática basado en un gran modelo de lenguaje: AlpacaEval. No solo es rápido y económico, sino que también ha sido verificado por 20 000 anotaciones humanas.

Nombre del modelo	Ratio de victorias
GPT-4	95,28%
claudio	88,39%
ChatGPT	86,09%
MagoLM 13B	75,31%
Guanaco 65B	71,80%
Vicuña 13B	70,43%
LLaMA 33B OASST RLHF	66,52%
Guanaco 33B	65,96%
Nosotros Hermes 13B	65,47%
Vicuña 7B	64,41%
LLaMA 33B OASST SFT	54,97%
Guanaco 13B	52,61%
davinci003	50,00%
Guanaco 7B	46,58%
Instrucción Falcon 40B	45,71%
Granja de alpacas PPO Sim (GPT-4) 7B	44,10%
Pitia 12B SFT	41,86%
Granja de alpacas PPO Humano 7B	41,24%
Alpaca 7B	26,46%
Pythia 12B OASST SFT	25,96%
Instructor Falcon 7B	23,60%
Adherirse	17,52%
davinci001	15,17%