Competindo por grandes modelos, recriando um novo padrão de IA

Autor |

Fonte | Insights New Research Institute

"Diante da era da IA, vale a pena refazer todos os produtos com um modelo grande."

Este é Zhang Yong, presidente e CEO do Alibaba Group e CEO do Alibaba Cloud Intelligent Group, no Alibaba Cloud Summit de 2023 sobre a evolução do AIGC (IA gerada). ".

Entre eles, inclui não apenas a "guerra do modelo 100" que está ocorrendo na China continental.No mês passado, grandes empresas de tecnologia, empresas iniciantes e até instituições de pesquisa científica se esforçaram para lançar ou anunciar que logo lançam seus próprios modelos em grande escala.Em certa escala, surgem capacidades inesperadas.

Fonte: Minsheng Securities Research Institute

O primeiro tiro da "Guerra dos Cem Modelos" foi Baidu Wenxin Yiyan e, em seguida, modelos grandes como Huawei Pangu, 360 Zhinao, Shangtang Rixin, Ali Tongyi Qianwen, Jingdong Lingxi e Kunlun Wanwei Tiangong apareceram sucessivamente. , e haverá grandes modelos como Tencent Hunyuan e HKUST Xunfei Xinghuo esperando para entrar online.

Ao mesmo tempo, Wang Huiwen, co-fundador da Meituan, Wang Xiaochuan, fundador da Sogou, e Li Zhifei, fundador da Momenwen, e outros gigantes da tecnologia retornaram à arena e trouxeram muitos fundos para iniciar um nova empreitada na direção de grandes modelos.

Para se livrar da névoa do verdadeiro e do falso na competição da indústria, no contexto de Zhang Yong, que método o grande modelo deve usar para recriar a IA? Para cada participante, como podemos obter o navio que leva à era do grande modelo Onde estão os ingressos?

1. "Batalha de 100 modelos" baseada em valor

A Internet tem memórias, desde a guerra do carro novo liderada por "Wei Xiaoli", até a guerra do carro online liderada por Didi Kuaidi, desde a guerra de bicicletas compartilhadas liderada por Mobike e ofo, até o presente. Battle" liderado pelo ChatGPT, que atrai jogadores para participar do jogo, é impulsionado pela psicologia FOMA orientada por valor.

"FOMA" é uma abreviação de "Fear of Missing Out" No campo do marketing, refere-se especificamente a uma estratégia de marketing que leva as pessoas a participar de algo criando um senso de "urgência" ou "perder".

Na competição de modelos em grande escala, a maioria dos participantes tem medo de perder a janela de tempo para a indústria decolar e entrar no trem com a mentalidade de "não posso ser forte, mas não posso ficar sem ela ", especialmente porque as tecnologias de modelo em grande escala, incluindo GPT 3.5, têm código aberto. As barreiras à entrada foram basicamente eliminadas e um grande número de empresas iniciantes foi atraído para entrar no mercado, correndo para começar ao mesmo tempo como as grandes empresas de tecnologia.

Obviamente, a maior força motriz interna ainda vem do valor do modelo grande.

O primeiro é o hype do mercado de capitais: no início de fevereiro deste ano, havia apenas 29 ações na seção "ChatGPT" da Oriental Fortune, e já havia subido para mais de 60 ações em abril.

Basta clicar em algumas empresas beneficiárias, o 360 é afetado pela rotação contínua de conceitos como AI, Xinchuang, segurança de dados e ChatGPT, e o preço de suas ações aumentou mais de 150% este ano. Kunlun Wanwei expandiu ainda mais os jogos AIGC + para "Tiangong" 3.5 lançado, o valor de mercado atual também aumentou mais de 260% desde o início do ano.

O que é ainda mais exagerado é que, antes e depois do lançamento do modelo Pangu da Huawei em 8 de abril, os preços das ações de empresas da cadeia industrial como Changshan Beiming, Sichuan University Zhisheng, Tuowei Information e Kirin Anxin aumentaram coletivamente. Além disso, iFLYTEK e SenseTime, que possuem fortes atributos de rótulos de IA, também tiveram um bom desempenho este ano após anunciar o layout comercial relacionado a modelos grandes.

A Orient Securities disse que o tema do ChatGPT é uma grande saída além do metaverso e da realidade virtual, e o mercado de capitais pode exagerar repetidamente neste ano.

No processo de hype sobre modelos de grande escala, não é descartado que algumas empresas tenham psicologia especulativa, mas para grandes empresas de tecnologia, elas estão mais preocupadas com o valor de modelos de grande escala para a promoção de seus próprios negócios.

Por exemplo, seja ByteDance Toutiao ou Douyin, a distribuição de conteúdo está no centro absoluto de seu layout de negócios.Os atributos de sua plataforma de conteúdo também têm a necessidade de geração de conteúdo, altamente compatível com a aplicação principal de grandes modelos.

Por um lado, pode diminuir o limiar de criação e atrair mais criadores para aderir à plataforma. Por outro lado, a experiência de distribuição de conteúdo pode ser melhorada continuamente. É impossível para a ByteDance fechar os olhos para grandes modelos.

Quando Ali lançou Tongyi Qianwen, Zhang Yong disse que todos os produtos, incluindo Tmall, DingTalk, AutoNavi Maps, Taobao, Youku, Hema, etc., devem ser conectados ao modelo grande e passar por uma transformação abrangente.

Pegue o DingTalk, que foi conectado pela primeira vez a Tongyi Qianwen como exemplo, no documento DingTalk, você pode usar Tongyi Qianwen para combinar imagens automaticamente, criar artigos, escrever e-mails e gerar propostas; em reuniões, você pode preencher registros, resumos, produzir tarefas; até mesmo ajudar a resumir pontos-chave em mensagens de bate-papo em grupo não lidas...

Essas evoluções visíveis permitiram ao DingTalk aprofundar ainda mais seu fosso para a competição no cenário de escritório colaborativo.

Do ponto de vista dos negócios de computação em nuvem, gigantes da tecnologia como BAT, Huawei e ByteDance têm recursos de poder de computação prontos. É lógico acompanhar e treinar seus próprios modelos em grande escala. Se o crescimento subsequente de modelos em grande escala lidera a indústria, até certo ponto, também pode promover positivamente o negócio de computação em nuvem e alcançar uma situação vantajosa para todos.

O sucesso da Microsoft em fornecer serviços de nuvem para treinamento de modelo em larga escala OpenAI está chegando. Rotular a primeira plataforma de nuvem GPT-4 do mundo para treinamento aprofundará mais ou menos a impressão do Azure nos corações dos clientes. -war with AWS No cabo-de-guerra, ele ganhou uma pequena vantagem para si.

2. Competição de modelo em grande escala, a integração da indústria é o critério de julgamento

De volta à realidade da competição de modelos em grande escala, como podemos vencer na "competição de 100 modelos"?

Atualmente, a resposta unificada das principais empresas de tecnologia é a integração com a indústria, quem for mais rápido e tiver menor custo terá mais vantagens na competição.

De fato, antes do "surgimento" de grandes modelos, a IA explorava a integração com indústrias, especialmente tecnologias de IA do tipo reconhecimento, como visão computacional, reconhecimento de fala e reconhecimento de linguagem natural. Pequenos modelos geralmente são usados para resolver problemas em alguns indústrias, como inspeção de qualidade industrial na linha de montagem e identificação de violações no gerenciamento de tráfego são capacidades típicas de identificação de IA.

Esses AIs chegaram à indústria, mas a velocidade de penetração é muito lenta. Um grande motivo é que modelos pequenos podem realmente concluir tarefas especificadas muito bem, mas as deficiências também são óbvias. Um AI só pode resolver um problema.

Ultrapassar sinal vermelho, excesso de velocidade e contramão são infrações de trânsito. Para identificar essas três infrações, é necessário realizar três treinamentos nesses três cenários. Devido à falta de versatilidade, a faixa de aplicação de modelos pequenos é limitada a um pequeno espaço. Ao mesmo tempo, o custo de pouso permanece alto. Essa também é a razão pela qual as empresas domésticas de IA estão perdendo dinheiro e relatando déficits de longo prazo no desempenho financeiro.

O surgimento de grandes modelos dá à IA a chance de ser reinventada, e o jeito é integrá-la a um solo industrial mais amplo em uma velocidade mais rápida.

Embora o Alibaba tenha anunciado que todos os seus produtos serão conectados ao Tongyi Qianwen, ele também convida as empresas a participar do teste. A Cloud, baseada em Tongyi Qianwen, concluiu o projeto de aprendizado contínuo, ajuste fino e solicitação de front-end do modelo grande e criará serviços de IA para atender seus usuários finais em massa no futuro.

Ao mesmo tempo, ZTE, Geely Automobile, Zhiji Automobile, Chery New Energy, Momo Zhixing, Swire Coca-Cola, Bosideng, Handy Technology e outras empresas também expressaram que cooperarão com o Alibaba Cloud para explorar e co-criar cooperação técnica em cenários relacionados a modelos de grande escala.

Antes de Tongyi Qianwen, Wenxin Yiyan da Baidu também se concentrou no "ecossistema" B-end como foco de promoção e negócios, e o modelo Huawei Cloud Pangu apresentou o conceito de "AI for Industries".

Algumas organizações resumiram as principais diferenças entre o BAT e o modelo grande da Huawei:

Baidu: modelos de grande escala Wenxin abrangem o sistema de três níveis de modelos básicos de grande escala, modelos de tarefa em grande escala e modelos de grande escala da indústria. O número total de modelos de grande escala criados é de cerca de 40. As aplicações industriais cobrem energia elétrica, gás, finanças, aeroespacial e outras indústrias.

Tencent: A direção da aplicação industrial de modelos grandes é principalmente para reduzir custos e aumentar a eficiência da própria ecologia da Tencent, entre as quais se destacam os aplicativos de publicidade.

Ali: O modelo grande M6 é baseado nas vantagens de hardware criadas pelo Alibaba Cloud e DAMO Academy, que podem comprimir ao extremo o poder de computação exigido pelo modelo grande; além disso, suas vantagens tecnológicas subjacentes também são propícias à construção de uma IA subjacente unificada.

Huawei: treinou o primeiro modelo de idioma pré-treinado de 200 bilhões de parâmetros do setor com o chinês como núcleo. Atualmente, três modelos de grande escala da indústria relativamente pesada foram lançados: o Pangu Meteorological Large Model, o Pangu Mine Large Model e o Pangu OCR Large Model.

Obviamente, as características de cada empresa são muito distintas, mostrando uma tendência de flores desabrochando, mas todas as mudanças permanecem as mesmas, e a integração da indústria é o único consenso.

De fato, algumas indústrias já começaram a mudar sob a influência do grande modelo.

Em 12 de abril, a BlueFocus emitiu um e-mail, decidindo interromper completamente quatro despesas de terceirização relacionadas a design criativo, redação de programas, direitos autorais e funcionários de curto prazo indefinidamente. Anteriormente, a BlueFocus havia anunciado que estaria conectada ao Baidu Wenxin Yiyan.

Anteriormente, Huang Yimeng, CEO da Xindong Games, disse que algumas equipes de jogos cortaram as equipes originais de terceirização de pintura e tradução.Quando os humanos são substituídos, o grande modelo começou a ter um impacto real na indústria.

3. O Presente da Computação em Nuvem e o Futuro dos Grandes Modelos

Hoje, a competição de grandes modelos é caótica e as empresas iniciantes competem no mesmo palco com gigantes da tecnologia. Qual será o rumo final do mercado? Referindo-se ao processo de desenvolvimento da computação em nuvem, podemos ter encontrado a resposta.

Como todos sabemos, o mercado de computação em nuvem tem as gigantes AWS (Amazon), Azure (Microsoft) e GCP (Google) no exterior, e BAT e Huawei na China. Precisa atingir uma certa escala para produzir efeitos marginais e, antes disso, precisa investir muitos recursos na construção de infra-estrutura.

O Alibaba Cloud não obteve lucro anual pela primeira vez no ano fiscal de 2022 até 13 anos após seu estabelecimento. Por trás dele está um sistema de infraestrutura de serviços em nuvem construído com centenas de data centers e mais de 2 milhões de servidores em todo o mundo.

Semelhante à computação em nuvem, modelos grandes também precisam consumir muitos recursos de computação e custos massivos de dados. Algumas organizações estimaram que o custo do treinamento OpenAI GPT-3 é de vários milhões a dezenas de milhões de dólares; ao treinar GPT-4, chamada O custo de dezenas de milhares de placas gráficas Nvidia A100 é de cerca de dezenas de milhões a 100 milhões de dólares americanos.

Com a iteração do GPT, seu custo de treinamento aumentará exponencialmente. Há rumores de que o Baidu usou quase todas as placas gráficas A100 ao treinar Wenxinyiyan. Pode-se ver que o modelo grande acabará sendo um jogo para poucas pessoas.

Em entrevista à mídia, Li Zhifei, fundador da GoMask, também expressou a opinião de que o modelo geral de IA tem uma janela de tempo: "Uma vez que as barreiras de talento, tempo, dados e capital sejam estabelecidas, pequenas equipes serão eliminadas de jogo."

Li Yanhong disse: "Não faz muito sentido criar um novo ChatGPT. Há uma grande oportunidade de desenvolver aplicativos baseados em grandes modelos de linguagem, mas não há necessidade de reinventar a roda."Ele também expressou o mesmo significado.

Dito isto, ainda há uma chance para o modelo de empreendedorismo em larga escala? Alguns fenômenos interessantes na indústria de semicondutores podem abrir nossas mentes.

A Intel tem tentado incansavelmente romper o limite físico da Lei de Moore e muitas vezes gasta várias vezes o custo da geração anterior de produtos para promover atualizações e iterações de CPU. O preço de uma nova geração de CPUs no mercado costuma ser 10 vezes o da geração anterior. Mesmo cem vezes a situação.

Usuários que buscam performance certamente irão buscar a nova geração de CPUs, mas diante da enorme diferença de preço, ainda haverá um número considerável de usuários que optarão por usar produtos da geração anterior.

Da mesma forma, há uma lacuna entre GPT-3 e GPT-4 nos custos de treinamento. Ao mesmo tempo, à medida que o modelo grande evolui, a lacuna no custo de treinamento será ainda maior. Gigantes da tecnologia exploram a vanguarda dos modelos grandes , e haverá por trás deles. Vários modelos grandes com diferenças geracionais, requisitos de baixa precisão e "apenas o suficiente" podem ser uma oportunidade para empresas iniciantes encontrarem um equilíbrio entre custo, demanda de mercado e progresso tecnológico e ajustar constantemente suas estratégias.

Por outro lado, também vale a pena tentar o grande modelo vertical que se aprofunda na indústria. Wang Xiaochuan disse que, embora a generalidade do modelo vertical não possa competir com o OpenAI, ele pode ser otimizado para cenários específicos e ser semelhante ao OpenAI em cenários subdivididos.O efeito é acumular usuários, construir uma ecologia e percorrer o pequeno circuito fechado.

Em relação ao modelo de empreendedorismo em larga escala, Zhou Hongyi, o fundador da 360, está muito otimista. "A China não terá apenas um grande modelo de linguagem. modelo em escala”.

4. Conclusão

A longo prazo, os modelos em grande escala são uma batalha prolongada, portanto, não há diferença em essência se você entrar no jogo agora ou depois de alguns meses ou anos. O núcleo da competição de modelos em grande escala não é competir por velocidade, mas para competir Um, mas para se acalmar e pensar com clareza em como alocar força física nesta corrida de longa distância, como obter recursos e correr até a linha de chegada sem problemas.