A Tencent anunciou que o modelo grande Hunyuan Wenshengtu é de código aberto: Sora tem a mesma arquitetura e pode ser usado gratuitamente para uso comercial

Em 14 de maio, a Tencent anunciou que seu modelo gráfico Hunyuan Wensheng foi totalmente atualizado e de código aberto. Foi lançado na plataforma Hugging Face e no Github. Inclui modelos completos, como pesos de modelo, código de inferência e algoritmos de modelo, e pode. ser usado por empresas e indivíduos Gratuito para uso comercial por desenvolvedores.

Este é o primeiro modelo de código aberto de gráfico vicentino de arquitetura DiT nativa chinesa da indústria, que suporta entrada e compreensão bilíngue em chinês e inglês, com 1,5 bilhão de parâmetros. O grande modelo Hunyuan Vicentino atualizado adota a arquitetura DiT consistente com sora, que pode não apenas suportar imagens Vicentinas, mas também servir como base para geração visual multimodal, como vídeo.

Os dados de avaliação mostram que o modelo gráfico vicentino mais recente da Tencent Hunyuan é muito mais eficaz do que o modelo de difusão estável de código aberto e é atualmente o melhor modelo gráfico vicentino de código aberto.

 

Modelo de diagrama Vincent de nova geração autodesenvolvido

O excelente desempenho de modelos grandes é inseparável da arquitetura técnica líder. O grande modelo Tencent Hunyuanwenshengtu atualizado adota a nova arquitetura DiT (DiT, Diffusion With Transformer), que é a mesma arquitetura e tecnologia chave de Sora e Stable Diffusion 3. É um modelo de difusão baseado na arquitetura Transformer.

No passado, o modelo de difusão de geração visual era baseado principalmente na arquitetura U-Net, mas com o aumento do número de parâmetros, o modelo de difusão baseado na arquitetura Transformer tem apresentado melhor escalabilidade, o que ajuda a melhorar ainda mais a qualidade de geração e eficiência do modelo. A Tencent Hunyuan é uma das primeiras na indústria a explorar e aplicar um grande modelo de linguagem combinado com uma estrutura DiT para criar um modelo gráfico vicentino. A partir de julho de 2023, a equipe Tencent Hunyuan Wenshengtu esclareceu a direção dos modelos baseados na arquitetura DiT e lançou o desenvolvimento de uma nova geração de modelos. No início deste ano, o grande modelo Hunyuanwenshengtu foi totalmente atualizado para a arquitetura DiT.

Com base na arquitetura DiT, a equipe Hunyuan da Tencent otimizou os recursos de compreensão de textos longos do modelo no nível do algoritmo e pode suportar entrada de conteúdo de até 256 caracteres, atingindo o nível líder do setor. Ao mesmo tempo, ao nível do algoritmo, implementou de forma inovadora a geração de imagens multiciclo e capacidades de diálogo, que podem ser ajustadas através da descrição em linguagem natural com base numa imagem gerada inicialmente, alcançando assim resultados mais satisfatórios.

O chinês nativo também é um destaque do grande modelo Hunyuanwenshengtu da Tencent. Anteriormente, os principais conjuntos de dados dos principais modelos de código aberto, como o Stable Diffusion, eram principalmente em inglês e não tinham compreensão suficiente da língua, comida, cultura e costumes chineses. Hunyuan Wenshengtu é o primeiro modelo DiT nativo da China com compreensão bilíngue e capacidade de geração em chinês e inglês. Ele tem um bom desempenho na geração de elementos chineses, como poesia antiga, gírias, arquitetura tradicional e comida chinesa.

Os resultados da avaliação mostram que o efeito geral de geração visual da nova geração do modelo grande Tencent Hunyuanwenshengtu é mais de 20% maior do que o da geração anterior, com melhorias abrangentes na compreensão semântica, textura e autenticidade da imagem e em diálogos multi-voltas, multi-assuntos e elementos chineses, geração de retratos reais e outros cenários, o efeito é significativamente melhorado.

 

Código aberto abrangente para beneficiar a indústria

A capacidade gráfica Hunyuan Wensheng da Tencent tem sido amplamente utilizada em muitos negócios e cenários, como criação de materiais, síntese de produtos e gráficos de jogos. No início deste ano, a Tencent Advertising lançou o Tencent Advertising Miaosi, uma plataforma criativa de publicidade de IA completa baseada no modelo Hunyuan da Tencent, que pode fornecer aos anunciantes ferramentas criativas em vários cenários, como imagens baseadas em texto, imagens baseadas em imagens, e síntese do histórico do produto, melhorando efetivamente a eficiência da produção e entrega de publicidade. Mais de 20 meios de comunicação, incluindo CCTV News, Xinhua Daily, Shenzhen Special Economic Zone Daily, Southern Metropolis Daily e Yangcheng Evening News, também usaram Tencent Hunyuan Wenshengtu para produção de conteúdo de notícias.

Lu Qinglin, chefe da Tencent Wenshengtu, disse: "A ideia de pesquisa e desenvolvimento Hunyuan Wenshengtu da Tencent é prática, insistindo em vir da prática e ir para a prática. Desta vez, o modelo de última geração é totalmente de código aberto na esperança de compartilhar as ideias inovadoras da Tencent com a indústria. A experiência prática e os resultados da pesquisa no campo dos gráficos vicentinos enriquecerão o ecossistema de código aberto dos gráficos vicentinos chineses, construirão em conjunto a próxima geração do ecossistema de código aberto de geração visual e promoverão o desenvolvimento acelerado da grande indústria de modelos.”

Com base no modelo de diagrama Vicentino de código aberto da Tencent, desenvolvedores e empresas podem usá-lo diretamente para raciocinar sem retreinamento e podem criar aplicativos e serviços exclusivos de pintura de IA baseados no diagrama Vicentino Hunyuan, o que pode economizar muita mão de obra e poder de computação. O algoritmo transparente e aberto também garante a segurança e confiabilidade do modelo.

Ao mesmo tempo, com base no modelo básico Hunyuan Wenshengtu aberto e de ponta, também contribui para enriquecer o ecossistema de código aberto Wenshengtu baseado na China, além da comunidade inglesa de código aberto dominada pela Difusão Estável, e formar nativos mais diversificados plug-ins Promover a pesquisa, desenvolvimento e aplicação de tecnologia de imagens culturais chinesas.

Entende-se que a Tencent sempre foi aberta ao código aberto e abriu o código-fonte de mais de 170 projetos de alta qualidade, todos derivados dos cenários reais de negócios da Tencent e abrangendo setores de negócios essenciais, como WeChat, Tencent Cloud, Tencent Games, Tencent AI e Tencent Security Atualmente, recebeu mais de 470.000 atenção e curtidas de desenvolvedores no Github.

Quanta receita um projeto de código aberto desconhecido pode trazer? A equipe chinesa de IA da Microsoft fez as malas e foi para os Estados Unidos, envolvendo centenas de pessoas. A Huawei anunciou oficialmente que as mudanças de emprego de Yu Chengdong foram fixadas no "Pilar da Vergonha FFmpeg" por 15 anos. atrás, mas hoje ele tem que nos agradecer—— Tencent QQ Video vinga sua humilhação passada? O site espelho de código aberto da Universidade de Ciência e Tecnologia de Huazhong está oficialmente aberto para acesso externo : Django ainda é a primeira escolha para 74% dos desenvolvedores. O editor Zed fez progressos no suporte ao Linux. deu a notícia: Depois de ser desafiado por um subordinado, o líder técnico ficou furioso e rude, foi demitido e engravidou. Funcionária Alibaba Cloud lança oficialmente Tongyi Qianwen 2.5 Microsoft doa US$ 1 milhão para a Rust Foundation.
{{o.nome}}
{{m.nome}}

Acho que você gosta

Origin my.oschina.net/u/6852546/blog/11114841
Recomendado
Clasificación