Novas mudanças na era dos grandes modelos

O avanço tecnológico de grandes modelos abriu um canto do novo universo da IA ​​para a visão tecnológica humana, permitindo aos seres humanos imaginar imediatamente um futuro semelhante a um caleidoscópio. Quando a crença se tornar uma força, promoverá saltos imensuráveis ​​no desenvolvimento. Na conferência de lançamento de novos produtos Jiuzhang Yunji DataCanvas, Fang Lei, presidente da Jiuzhang Yunji DataCanvas Company, explicou a visão de mundo única de grandes modelos da perspectiva de uma empresa de tecnologia de IA.

Insira a descrição da imagem aqui

Fang Lei, presidente da Jiuzhang Yunji DataCanvas Company

Registro de fala

Obrigado, anfitrião. Estou muito feliz por ter esse tempo esta tarde para compartilhar com você nossos pensamentos recentes, nosso trabalho recente e as respostas emocionantes que estão prestes a ser reveladas a seguir. Obrigado mais uma vez a todos os líderes, convidados, amigos e amigos online que estão aqui hoje. Bem-vindos ao lançamento do novo produto Jiuzhang Yunji DataCanvas da Nova IA, Novos Dados e Novo Software hoje.

O tema de hoje, sem dúvida, gira em torno de modelos grandes. Modelos grandes são o tema mais quente da atualidade e uma direção que preocupa a todos. Existem muitas opiniões sobre modelos grandes e muitas opiniões: Jiuzhang Yunji DataCanvas falará primeiro sobre nossa visão de mundo. Modelo grande Como vemos isso? Há muita lógica por trás do desenvolvimento industrial de grandes modelos, o mais importante é como tratar os grandes modelos.

Para nós, há um ponto fundamental nos modelos grandes: modelos grandes exigem uma atualização completa da infraestrutura. Um modelo grande não significa que se você tiver um modelo hoje, ele automaticamente o ajudará a resolver certos problemas. A infra-estrutura é na verdade uma coisa muito importante. Pode ter levado 100 anos para nós, seres humanos, ter infra-estruturas como a electricidade espalhadas por todas as aldeias, e pode ter levado 50 anos para ter infra-estruturas como autoestradas espalhadas por todas as aldeias e cidades. Internet vinte ou trinta anos para que todos tenham acesso à Internet. Numa conferência de imprensa há dois anos, falei com todos sobre um ponto de vista. Acreditamos que software também é infraestrutura. Não há dúvida de que na era da inteligência artificial o software é uma infraestrutura e, para grandes modelos, o software é especialmente importante infra-estrutura. Dizemos que os grandes modelos exigem a atualização de uma infraestrutura completa, que inclui software, hardware, transmissão e outras condições diversas, e precisa ser atualizada a qualquer momento com as mudanças tecnológicas, para que os problemas práticos possam finalmente ser resolvidos. Mais tarde concentrar-me-ei convosco na forma como pensamos que estas infra-estruturas mudaram.

Em segundo lugar, você pode ter alguns equívocos causados ​​por modelos grandes. Modelos grandes se tornaram mais poderosos. É muito simples para nós resolver o problema. Só precisamos interagir com modelos grandes como ChatGPT para resolver o problema. Isso é verdade? Existem algumas perguntas simples, como escrever um pequeno ensaio para você. Mas precisamos resolver problemas mais difíceis, problemas que têm um impacto profundo na sociedade. Eles não são simples resumos e descrições de texto. Com a tecnologia de grandes modelos, os problemas a serem resolvidos tornaram-se mais complexos. Por exemplo, pela primeira vez, realizamos o controle de um robô através da tecnologia multimodal de grandes modelos e unificamos o movimento, o pensamento, o feedback e a expressão do robô. Podemos realmente construir um robô que funcione como um humano Este desafio reside no facto de que antes era difícil de alcançar. Em relação a estas mudanças e impactos profundos, de facto, embora as capacidades proporcionadas pelos grandes modelos tenham aumentado, os desafios também aumentaram. Não entenda isso simplesmente como uma coisa mais fácil. Se quisermos realmente usar a tecnologia de grandes modelos, precisamos atualizar várias infraestruturas. Ao mesmo tempo, não entenda isso simplesmente como uma coisa mais fácil. Na verdade, é é uma coisa mais difícil.

Coisas difíceis devem ser resolvidas de maneira positiva. Enfrentando os desafios de grandes modelos e querendo usar grandes modelos para fazer coisas mais impactantes, vamos dar uma olhada em como a infraestrutura deve mudar. A infraestrutura inclui muitas partes, incluindo rodovias e instalações de energia. Sem falar que são a base de toda a civilização. Acreditamos que existem três aspectos da infraestrutura mais relevantes para grandes modelos:

O primeiro aspecto é o poder de computação. Não há dúvida de que o poder computacional é a base do modelo. Todos sabem que o modelo vem de dados + algoritmo. Após o cálculo, ele se torna um modelo. Este modelo é a cristalização de algum tipo de inteligência e a personificação da inteligência. O poder da computação é obviamente indispensável. Somente com o poder da computação podemos processar dados em modelos. Todo mundo sabe que existe uma visão popular: os modelos são a compactação de dados históricos. Para os nossos assuntos futuros, perguntando o modelo e utilizando o modelo, podemos encontrar algumas regras semelhantes e obter a resposta.

O segundo aspecto é o software básico. Quando você tem hardware, que chamamos de poder Robo, como você o usa? Temos um computador de alto desempenho e esperamos ter um bom sistema operacional. Usamos um computador de alto desempenho para escrever artigos e esperamos ter um bom software de escritório. Na verdade, o software básico é o portador do trabalho que você deseja realizar . Na era da inteligência artificial, Jiuzhang Yunji DataCanvas se posiciona como fornecedor de software básico de inteligência artificial. O software básico sem dúvida se tornou mais importante na era dos grandes modelos. Ele representa a direção da evolução do algoritmo e a eficácia do hardware. Se você instalar um sistema operacional muito lento e travando, usar o computador mais recente e a CPU mais recente, a avaliação ainda poderá ser muito ruim. O software básico determina em grande parte a eficácia dos algoritmos e do hardware.

O terceiro aspecto são os dados. Como os dados podem ser armazenados e calculados com mais eficiência? Para modelos de inteligência artificial, os dados são a matéria-prima e a fonte. Mesmo no futuro, os dados não serão apenas a fonte de modelos, mas também o objeto de serviços de modelo. Além do cálculo e do armazenamento, os dados também precisam ser compartilhados. Na era dos grandes modelos, temos diferentes gamas de dados, incluindo dados sociais, dados industriais e dados empresariais. Se os dados puderem ser melhor compartilhados e interagidos além das fronteiras , , o modelo resultante também será mais inteligente.

Insira a descrição da imagem aqui

Estas mudanças de infra-estrutura são o que estamos ansiosos e, na era dos grandes modelos, acreditamos que precisamos alcançar as duas visões básicas do mundo que acabamos de mencionar e resolver problemas mais difíceis. Os grandes modelos devem lidar com desafios maiores. Estas mudanças de infra-estrutura Tudo o que precisamos.

A nova Lei de Moore do poder computacional Todo mundo conhece o termo Lei de Moore, mas na verdade significa algo semelhante. Vou dar um exemplo aqui: como você pode ver, esse quadro é na verdade a redução de custos causada pelo poder computacional previsto por uma consultoria. O poder de computação é muito desafiador. Agora todo mundo quer obter poder de computação. O custo do poder de computação é muito alto, mas cai rapidamente em função do tempo. Em 2020, quando treinarmos um modelo como o GPT3, a sobrecarga de poder de computação necessária será 460 milhões de dólares americanos, enquanto caiu para cerca de 450.000 dólares no final do ano passado, uma queda de uma ordem de grandeza. Houve muitas notícias ontem. CoreWeave, uma empresa de nuvem que fornece GPUs nos Estados Unidos, cooperou com a NVIDIA para conduzir o treinamento do modelo GPT3 em 3584 placas H100 de última geração. O treinamento foi concluído em apenas 11 minutos, o que acabou sendo vários meses. As coisas se transformaram em questão de 10 minutos ou menos de uma hora. Isso é um choque em termos de tempo, quanto custa esses 11 minutos? Nos padrões de cobrança atuais do CoreWare, custa US$ 20.000. Em 30 de junho de 2023, elo entre o passado e o futuro, apenas 20 mil dólares americanos poderão ser usados ​​para treinar um modelo GPT3.

A nova Lei de Moore do poder de computação melhora o desempenho em uma ordem de grandeza a cada 18-24 meses, e os custos caem em uma ordem de grandeza. Isso não é nenhum exagero. Você pode ver esse padrão. Em 2020, o BERT-Large ainda é modelo relativamente grande, o modelo BERT leva apenas 0,13 minutos e é treinado em cerca de 8 segundos. Existem mais de 3.000 cartões neste teste. Alguns estão quebrando recordes por quebrar recordes, mas você pode entender claramente que na era atual da nova Lei de Moore de poder de computação, o poder de computação é escasso e é muito necessário, mas o poder computacional é O crescimento, as melhorias de desempenho e as reduções de custos são igualmente surpreendentes, proporcionando uma grande mudança na infraestrutura. Teremos poder de computação abundante e não viveremos em uma era de escassez de poder de computação. Podemos enfrentar um período de escassez de poder de computação, mas na era dos modelos grandes, esta é uma era de poder de computação abundante. É claro que precisamos investir na construção, mas O desenvolvimento da tecnologia nos dará amplo poder computacional para construir modelos grandes melhores, mais poderosos e mais flexíveis.

Insira a descrição da imagem aqui

Vamos dar uma olhada nos dados com base no poder de computação. As notícias mais interessantes aqui vêm do grande modelo geral. Em nosso julgamento, muitas pessoas na indústria concordam com nosso julgamento: indústria e categorias verticais O número de modelos grandes será muito exceder os grandes modelos gerais. Imagine simplesmente que uma pessoa que se forma na faculdade pode ser relativamente generalista e ter aprendido o conhecimento do mundo. Ela então vai trabalhar em uma fábrica de aeronaves e entra na indústria para aprender o conhecimento do setor. O conhecimento ainda tem limites e os dados têm limites. Depois de aprender o conhecimento , ele obtém dados. Do conhecimento mundial ao conhecimento do setor, finalmente tenho algum acúmulo na empresa, e até os segredos da gestão empresarial, que é o conhecimento da empresa.

Neste mundo, naturalmente temos conhecimento mundial geral, conhecimento da indústria e conhecimento empresarial.Esses conhecimentos têm limites e esses dados têm limites. Quando diferentes organizações empresariais usam esses grandes recursos de modelo, naturalmente existem limites. É fácil chegarmos a esta conclusão, e acreditamos neste julgamento: se os grandes modelos industriais e os grandes modelos verticais forem utilizados nas empresas e nas indústrias, o número final excederá em muito o dos grandes modelos gerais. Julgamos que o poder de computação que ele consome será muito maior do que o de um grande modelo de uso geral. Embora todos pensem que o modelo da OpenAI é um grande modelo de uso geral, ele até domina tudo. Dentro dos limites dos dados, isso não é O caso. A implementação de grandes modelos refletir-se-á mais nas indústrias e nas empresas, devido à nossa crença de que os dados têm limites.

Durante as mudanças na infra-estrutura, esperamos que os dados fluam e tragam novas aplicações através de determinadas empresas e através de certas fronteiras industriais. Por exemplo, os dados podem fluir. Nosso modelo pode aprender não apenas o conhecimento mundial, o conhecimento da indústria, mas também parte do conhecimento corporativo, e pode ser conectado em série. Esta é a mudança que esperamos. No final, esse limite será existir.

Em relação ao software básico, destacamos que o software é o cerne da diferenciação. Por que? Todo mundo sabe que o desempenho do hardware é muito importante. A melhoria no poder de computação que acabamos de mencionar vem em grande parte do progresso do hardware. O hardware é relativamente homogêneo. Simplificando, se você comprou uma placa H100 hoje, eu também a comprarei. Juntos, podemos ser semelhantes do ponto de vista do hardware. Pelo contrário, se você realmente treinar, os resultados finais podem ser muito diferentes. Eu tive sucesso no treinamento, mas você falhou no treinamento. Treinei 1.000 horas para completar e você treinou 200 horas. Seu modelo não é tão inteligente como o meu. O software determina o desempenho e o custo. Nas mesmas condições de hardware, o software é a chave para determinar o desempenho e a diferenciação de custos.

De outra perspectiva, se precisarmos de um modelo melhor, mais flexível e mais poderoso, nas mesmas condições de hardware, o espaço de otimização fornecido pelo software para o hardware é enorme. Todo mundo sabe que os modelos grandes são baseados no mecanismo de atenção do Transformer, o Transformer foi inventado há apenas alguns anos e o hardware atual pode não ter otimizado a estrutura do Transformer. Há um enorme espaço para otimização unificada de software, hardware e modelos. No enorme espaço para otimização unificada, acredito que a principal força motriz para a inovação ainda vem do software. O software se adaptará ainda mais ao hardware e acelerará estruturas de algoritmos proprietários. É claro o hardware também irá melhorar.

Acreditamos que o software refletirá a diferenciação do hardware atual e será o local mais ativo para a inovação em conjunto com o desenvolvimento de hardware para melhorar o nosso desempenho. Acabamos de falar sobre a nova Lei de Moore do poder computacional, que aumentará em uma ordem de grandeza a cada 18 a 24 meses, juntamente com a aceleração do software.Na verdade, a OpenAI mencionou uma declaração semelhante: a cada 18 meses, nosso software dobrará sua velocidade. Parece que não. 10 vezes é tão emocionante, mas se você aumentar a velocidade em 1 vez acima de 10 vezes, será 20 vezes, o que também é muito rápido. Com base na melhoria do poder computacional, o software trará um poder diferenciado, que é necessário para usuários finais, clientes finais e empresas finais. Uma infraestrutura de IA mais eficiente tornará o treinamento virtual mais inteligente.

Se presumirmos que os dados estão cada vez melhores e podem abrir algumas fronteiras, nosso poder computacional se tornará mais rápido e mais abundante de acordo com a nova Lei de Moore, e nosso software se tornará cada vez mais otimizado. quais são os desafios para tirá-lo do papel? Quero me concentrar na última milha. Na era dos pequenos modelos, é mais difícil implementar pequenos modelos na última milha porque há muitas mudanças nos dados, incluindo generalização insuficiente das capacidades do modelo.Todos dizem que a adaptação na última milha é problemática. O grande modelo chegou, mas a última milha desapareceu? Tivemos muitas ondas que tornaram a última milha mais curta e simples, 995 metros ou até 95 metros, mas a última milha não desaparecerá e ainda será um desafio para a implementação de modelos tecnológicos em larga escala. Na última milha, o nosso conhecimento, seja conhecimento mundial, conhecimento industrial ou conhecimento corporativo, bem como software e hardware, ainda precisa ser combinado com o negócio, e o espaço para essa combinação é na verdade o espaço para inovação. Não esperamos que um modelo preencha automaticamente todas as lacunas depois de ser treinado em alguns dados históricos. Acreditamos que essa possibilidade não é possível. Ainda há a última milha. Não é um simples uso e compra de modelos grandes para resolver todos os problemas de negócios. Essa possibilidade não existe. Na realidade, existem tantas pessoas inteligentes no mundo. Como espécie, os humanos deram origem a cérebros extremamente inteligentes, como Einstein e Newton. Não há situação hoje em que tudo possa ser resolvido apenas contratando uma pessoa para chegar a este ponto. empresa. Isso não é um problema. Realista.

Os grandes modelos são muito semelhantes. Nos limites do conhecimento e dos dados, os grandes modelos não são simplesmente emprestados. Eles ainda precisam resolver o problema da última milha. Como resolver a última milha? Beneficiando dos três elementos que acabamos de mencionar, mais poder computacional, poder computacional mais barato e um modelo de caixa branca muito flexível e aberto permitem-nos ajustar-nos à situação da empresa, adaptá-la à empresa, aprender o conhecimento da empresa e, em última análise, para a utilização deste empreendimento e para os usuários o chamamos de modelo de caixa branca aberta e elástica, tornando o processo de cruzar o abismo na última milha mais simples e barato. Da mesma forma, precisamos de profissionais que entendam o negócio.Esse profissional pode não ser um especialista em algoritmos muito sofisticado antes, mas deve ser um analista que entende o negócio, ou mesmo um profissional de negócios, mas ainda é uma pessoa indispensável para cruzar a lacuna .os elementos de. Software básico poderoso e flexível, um modelo de caixa branca aberto e flexível e profissionais que entendem o negócio podem finalmente preencher juntos a lacuna da última milha. Devemos ter uma compreensão clara de que a implementação de grandes modelos ainda é o maior desafio. Cada etapa do trabalho que realizamos visa tornar a última milha superável e mais simples.

Vejamos um quadro macro: acreditamos que existem três grandes forças motrizes para a indústria da inteligência artificial. A construção do poder computacional é uma força muito importante, e os modelos de grande escala discutidos hoje também são forças motrizes. Gostaria também de acrescentar outra força muito poderosa, que chamo de Central Enterprise Cloud. O mercado de computação em nuvem passou pela nuvem pública nos Estados Unidos, e nuvem pública semelhante na China não parece ter muito sucesso, ou parece ainda precisar ser desenvolvida.Agora, nosso mercado doméstico de computação em nuvem entrou em uma nova era. Nesta era, por exemplo, as empresas centrais são o núcleo.As empresas construíram as suas próprias nuvens e ocuparam claramente a sua própria posição no mercado, ocupando mesmo uma posição importante. Alguns de seus métodos operacionais, capacidades de aquisição de clientes e escala de construção são um pouco diferentes de antes. Hoje não é uma sessão especial sobre computação em nuvem, então não vou entrar em detalhes, todos percebem que nosso mercado de computação em nuvem está passando por profundas mudanças e passando por uma atualização. O poder da computação está passando por uma construção em grande escala sem precedentes, e grandes modelos também nos trouxeram uma mudança tecnológica sem precedentes.Quando essas forças se unem, é de fato uma mudança sem precedentes. Jiuzhang Yunji DataCanvas é uma oportunidade, e é uma grande oportunidade para todas as pessoas, todas as empresas e todos os indivíduos.

Eu resumo essas forças motrizes no que precisamos fazer, quais ações precisamos tomar, o que Jiuzhang Yunji deve fazer? Esperamos incorporar nossa capacidade básica de software AI Foundation Software, por meio da estratégia nuvem na nuvem, como uma capacidade central nesses fornecedores de nuvem no mercado, em centros de computação inteligentes, e considerar os centros de computação inteligentes como nuvens GPU. Muitos parceiros no mercado de nuvem, concentre-se em melhorar a nuvem GPU das empresas centrais.Esta é a estratégia nuvem na nuvem que Jiuzhang Yunji comunicou a todos muitas vezes antes. Usaremos nossa estratégia de nuvem na nuvem para fornecer serviços completos com parceiros, como fornecedores de nuvem e centros de computação inteligentes, realizando assim a transformação de produtos AIFS (AI Foundation Software) em serviços AIFS (AI Foundation Service).

Acho que você gosta

Origin blog.csdn.net/weixin_46880696/article/details/131837898
Recomendado
Clasificación