Diálogo com especialistas | Inteligência artificial + codificação e decodificação de vídeo podem trazer novas mudanças?

No atual desenvolvimento iterativo da tecnologia de codificação de vídeo, seja quantização de transformação, predição, codificação de entropia ou filtragem de loop, estamos trocando tecnologias complexas para melhorar o desempenho da compactação. Ainda vale a pena esperar pelas futuras perspectivas de aplicação da indústria de vídeo, por isso precisamos explorar métodos de codificação mais eficientes e inteligentes para promover mudanças fundamentais no desempenho da codificação.

O aprendizado profundo pode subverter a codificação e decodificação de vídeo? Na série anterior de transmissões ao vivo de compartilhamento de tecnologia "REDtech está chegando", convidamos o vencedor do Primeiro Prêmio de Invenção Tecnológica Nacional de 2020 e pesquisador associado da Universidade de Pequim, Sr. Wang Sheshe. Chen Jing, chefe da equipe de arquitetura de áudio e vídeo de Xiaohongshu, serviu como anfitrião e discutiu com o Sr. Wang os desafios, práticas inovadoras e exploração do desenvolvimento da tecnologia de codificação e decodificação de áudio e vídeo.

O professor Wang Sheshe é membro do Laboratório Nacional de Engenharia para Codificação e Tecnologia de Decodificação de Vídeo Digital e presidiu muitos projetos nacionais importantes de pesquisa e desenvolvimento, como "Padrões de codificação e codecs eficientes para aplicações de vídeo Ultra-HD 8K".

Chen Jing atuou como cientista-chefe de áudio e vídeo da 51Talk, engenheiro da equipe de vídeo do Google Chrome Media, engenheiro sênior de DSP do departamento de vídeo Mindspeed e engenheiro da equipe de vídeo do Departamento Central de P&D da Huawei. Ele publicou o livro " Compreensão aprofundada da tecnologia de codec de vídeo" e o livro traduzido "Algoritmo de visão computacional: baseado no desenvolvimento de aplicativos de computador com OpenCV".

Após esta transmissão ao vivo, também recebemos muitos comentários do público, na esperança de revisar as opiniões técnicas dos convidados na transmissão ao vivo. Seguindo o espírito de partilha aberta, compilamos a conversa e discussão entre os dois convidados na transmissão ao vivo.

É possível criar uma estrutura revolucionária de codificação de vídeo?
A tecnologia de inteligência artificial está se tornando cada vez mais madura.
Como se desenvolverá a tecnologia de áudio e vídeo no futuro?
...
Os detalhes das perguntas e respostas estão aqui!

Perguntas e respostas

1. A codificação tradicional baseia-se na teoria clássica da distorção da taxa.Existe uma base teórica semelhante para a codificação inteligente baseada na aprendizagem profunda?

Wang Sheshe: Sim, a codificação tradicional é baseada em probabilidade, mas a base teórica do aprendizado profundo é atualmente um problema difícil em qualquer campo. O aprendizado profundo ou redes neurais sempre exigem muitas restrições para serem explicadas em diferentes campos de aplicação, tornando difícil expressá-las de maneira uniforme. Quanto a alguns dos resultados que tenho visto no campo académico, ainda não encontramos uma base teórica particularmente completa.Na maioria dos casos, algumas soluções aproximadas são dadas sob certas restrições e certos efeitos são alcançados em alguns cenários específicos. Isso requer algumas pessoas com fundamentos matemáticos particularmente bons, como Wei Shen. Se eles puderem se concentrar no estudo deste problema, poderão fornecer alguns modelos semelhantes à clássica teoria da informação de Shannon. Se tivermos esse modelo como guia, temos Pode alcançar resultados muito bons em muitas tarefas de aprendizagem profunda. Se a inteligência artificial realmente se desenvolver para um estágio relativamente avançado, suas características teóricas e características tradicionais convergirão em algumas direções, mas atualmente é uma questão muito aberta e não existe uma base teórica particularmente determinística.

2. Qual é o estado atual da investigação sobre codificação inteligente no meio académico? A comunidade matemática prestou atenção a esta base teórica?

Wang Tomshe: Ainda há muitas pessoas na comunidade matemática fazendo pesquisas teóricas sobre redes neurais, especialmente no nível de inteligência artificial, mas a maioria delas encontra soluções aproximadas sob certas restrições e está limitada a tarefas específicas.

Do ponto de vista da codificação, o aprendizado profundo inicialmente produziu bons resultados no campo da visão de máquina, como reconhecimento facial ou outro rastreamento de alvos.A codificação de vídeo parece ter causado alguma agitação no mundo acadêmico. Cerca de três ou quatro anos atrás, dezenas de artigos acadêmicos conduziram experimentos aprofundados nos módulos de certas estruturas de codificação e alcançaram algumas melhorias de desempenho, às vezes chegando a surpreendentes 10% ou mais. No entanto, como a estrutura da rede é muito complexa e inconveniente para implementação em hardware, o espaço de aplicação é bastante restrito neste caso. Portanto, atualmente não existe uma solução inteligente de codificação de vídeo que seja fácil de implementar em hardware na academia, e é uma conquista acadêmica revolucionária para a indústria. Mas podemos fazer uma pesquisa aprofundada em centenas de artigos académicos recolhidos para ver se conseguimos encontrar algumas soluções gerais. Esta é provavelmente a situação actual.

3. Quais são os prós e os contras de combinar aprendizagem profunda e estruturas de compressão tradicionais em comparação com métodos ponta a ponta?

Wang Tomshe: Em termos de métodos de implementação, são muito diferentes. Do ponto de vista da implementação de hardware, o método de combinar aprendizagem profunda com estruturas de compressão tradicionais requer uma reviravolta completa dos recursos consumidos, incluindo a arquitetura de design de hardware, e o preço a pagar é muito alto. Isso requer transmissão de dados em dois modos de codificação diferentes, o que é particularmente desafiador no projeto de hardware.É necessário avaliar dois métodos de computação, equilibrar o tempo de computação e projetar o pipeline, etc.

Mas uma vantagem da estrutura de uma rede neural completa é que, depois de determinada a estrutura da rede, nada mais é do que definir o método de cálculo entre os parâmetros relevantes. Fizemos algumas avaliações e esperamos colocar filtragem de aprendizado profundo no FPGA. A velocidade de aprendizado profundo na CPU é obviamente muito baixa e a eficiência na GPU não é muito alta. Usar FPGA é uma solução possível. Porém, descobrimos que a transferência de dados é muito trabalhosa, pois os dados precisam ser transmitidos de um lado para outro, o que impossibilita o processamento de todo o framework em tempo real. Também é possível que a estrutura que concebemos não seja suficientemente boa, pelo que a eficiência não é muito elevada.

Depois de concluir a solução completa de codificação de rede neural, também a implementamos em FPGA. Esta deve ser a primeira codificação de rede neural completa que podemos ver com base em FPGA. Este projeto de estrutura de rede, especialmente a implementação de hardware, é mais fácil do que o anterior, também podemos torná-lo em tempo real (atualmente capaz de sistema de codificação em tempo real 4K). Você pode encontrá-lo do ponto de vista dos chips. Atualmente, do ponto de vista da IA, deveríamos ter encontrado mais maneiras de facilitar a prática de hardware de rede para aprendizado profundo.

No entanto, o método tradicional de aprendizagem profunda foi usado pela primeira vez em trabalhos acadêmicos e a indústria não está muito interessada nele. Recentemente, descobri que muitas pessoas nas duas organizações padrão AVS e H.266 estão interessadas em usar esse método.Se a arquitetura entre diferentes poderes de computação puder ser eficiente e universal, esta também poderá ser uma solução mais adequada. Em suma, não estou muito otimista quanto a essa direção, estou mais otimista quanto à estrutura de uma rede neural completa.

4. É possível formular padrões de codificação inteligentes no futuro? Existe algum trabalho contínuo de definição de padrões no país e no exterior?

Wang Tomshe: Esta é uma questão muito aberta. Os padrões de codificação tradicionais são muito claros.As regras são muito claras sobre como cada elemento gramatical precisa ser expresso e como analisá-lo corretamente durante a transmissão. Mas na direção da codificação inteligente, não sabemos o que padronizar, como se a estrutura da rede precisa ser padronizada ou se os parâmetros de codificação precisam ser padronizados. Este assunto causou alguma controvérsia no início, mas algumas pessoas ainda estão fazendo o trabalho de padronização. Atualmente, existe uma organização na China que está trabalhando na compactação de modelos de redes neurais. Isso também fornece uma orientação para todos. Se realmente quisermos fazer uma estrutura de rede determinística, ela aprendeu uma compactação de vídeo muito eficiente. Neste caso, certamente podemos padronizar o modelo de rede neural para torná-lo aplicável a toda a indústria. Mas acho que as variáveis ​​nesta questão são relativamente grandes. Podemos ter uma discussão mais aberta sobre o que exatamente precisa ser padronizado.

No que diz respeito à formulação de padrões, ainda há um longo caminho a percorrer. Acredito que eventualmente seremos capazes de encontrar alguns métodos melhor padronizados para fazer com que a própria codificação tenha propriedade. Mas isso requer uma estrutura de rede poderosa para cobrir todas as situações possíveis e conseguir implementação de hardware, mantendo ao mesmo tempo uma alta eficiência de compressão.

5. A aprendizagem profunda é um modelo probabilístico. Causará ambiguidade ou instabilidade?

Wang Tomshe: Isso depende dos dados de treinamento correspondentes à estrutura da rede. Não importa quão complexas sejam as ferramentas de codificação que usamos agora, elas são limitadas. Por exemplo, a divisão, não importa o que aconteça, será dividida em grandes pedaços. Mas se a colocarmos em uma rede neural, o primeiro problema que teremos que resolver é se os dados de treinamento podem cobrir todos os tipos diferentes.

Quando os vídeos vêm de câmeras de marcas diferentes, métodos de filmagem diferentes, e os materiais capturados não são usados ​​diretamente, mas precisam ser reproduzidos, e os métodos e meios de produção também são diferentes, o que é dado à rede neural para aprender é na verdade Não tenho certeza se cobre todo o conjunto. Se você deseja que uma rede neural aprenda todos os recursos, os dados de treinamento precisam ser grandes o suficiente para aprender com todos os vídeos do mundo. Assim como o AlphaGo, depois de aprender todos os registros do xadrez, ele naturalmente terá algumas habilidades de processamento próprias, pois aprendeu todas as combinações possíveis. Se a rede for grande o suficiente e a quantidade de dados for grande o suficiente, os resultados serão bastante tentadores, mas quem pode enviar bilhões de vídeos para uma rede neural ou bilhões de camadas de redes neurais para aprender? Estas são algumas das minhas visões básicas.

6. Qual deles tem melhores perspectivas, H.266 ou AV1?

Wang Tomshe: Ambos têm seus próprios problemas e vantagens. O H.266 é limitado por políticas pouco claras de propriedade intelectual. Embora a indústria esteja relativamente satisfeita com seu desempenho de compressão, ela enfrenta riscos comerciais crescentes ao usá-lo. Especialmente para aplicações de terminais móveis, ainda preferimos usar versões estáveis ​​e relativamente maduras. Acho que o H.266 ainda precisa de três a cinco anos para cultivar o mercado. Quanto a saber se ele pode vencer o AV1, depende da organização ecológica. Como isso acontece? o responsável promove esse assunto? Quanto a quem vai ganhar no final, não vou expressar aqui minha opinião sobre um determinado padrão, se for preciso dizer, posso promover o AVS.

7. Quais são as diferenças entre a codificação para o olho humano e a codificação para máquinas?

Wang Tomshe: A diferença entre os dois é muito grande. Entendemos que o olho humano recebe sinais de vídeo passivamente, como se estivéssemos assistindo TV. Assistimos a tudo o que está passando na TV. A máquina é proposital, o que é diferente do olho humano que recebe informações passivamente. A máquina pode ter recebido uma determinada meta de tarefa quando recebeu o sinal de vídeo pela primeira vez, então ela irá ignorar outras coisas, e sua compreensão do vídeo também é muito pobre. Simples, é rastrear as características correspondentes ao alvo, que é mais um cálculo. O olho humano está mais preocupado em aceitar a resposta visual trazida pelo próprio conteúdo - se o conteúdo visto é bonito ou não, e se pode causar prazer sensorial. Isso é muito diferente e, se observarmos os requisitos reais de codificação, a diferença é ainda maior.

8. A futura codificação de vídeo será considerada compatível com recursos tridimensionais?

Wang Tomshe: Este é um fato indiscutível. Se o conceito de Metaverso não morrer, isso pode acontecer em breve e com certeza será compatível. Na verdade, esta questão já estava refletida na norma relativamente cedo, mas não foram encontrados cenários de aplicação particularmente bons naquela época. Acredito que à medida que o conceito de Metaverso continuar a se aprofundar, este assunto será em breve colocado na agenda.

9. Os indicadores de medição na codificação de vídeo podem refletir a qualidade da sua codificação? As novas técnicas de avaliação de qualidade podem promover o desenvolvimento de padrões de compressão de codecs?

Wang Tomshe: No processo tradicional de definição de padrões, indicadores objetivos como o PSNR são sempre usados ​​para avaliação. Às vezes, o SSIM também é usado. O mais comum é o PSNR, porque é a maneira mais intuitiva e fácil para todos compararem o que é bom e o que é ruim. . Atualmente, existem alguns métodos baseados em IA para avaliação da qualidade e estão incorporados em estruturas tradicionais para melhorar o desempenho, mas na maioria dos cenários, a subjetividade do olho humano é o padrão de avaliação final. Por exemplo, quando medimos agora se a melhoria de desempenho do padrão de codificação de vídeo de primeira geração atende aos requisitos, o que verificamos não é se o desempenho objetivo dos dados de taxa BD excede 50%, mas se a economia na taxa de bits atinge 50% sob a mesma qualidade subjetiva. Por exemplo, em comparação com o H.264, a taxa BD de desempenho objetivo do H.265 só é melhorada em 38% quando o PSNR é usado como indicador de distorção. No entanto, após testes subjetivos pelo olho humano, você descobrirá que a média a economia de taxa de bits sob a mesma qualidade subjetiva excedeu 50%, então achamos que completou o indicador padrão de uma geração.

Atualmente, o método de avaliação definitivo é o olho humano. O cálculo de indicadores objetivos como PSNR sempre tem suas limitações. Se alguém apresentar um método subjetivo de avaliação de qualidade que seja totalmente consistente com o olho humano, isso certamente melhorará muito o desempenho de nossos padrões de codificação, mas infelizmente ainda não temos tal método de avaliação foi encontrado. Embora alguns indicadores desempenhem um papel importante em cenários de aplicação específicos, eles ainda não são universais. É por isso que muitos acadêmicos consideram a avaliação da qualidade do vídeo como sua direção de pesquisa ao longo da vida.

10. QP pode ser usado para controlar a taxa de bits da codificação de vídeo tradicional.Como controlar a taxa de bits na estrutura de codificação e compactação de aprendizado profundo?

Wang Tomshe: No início do processo de formulação do H.266, o grupo de especialistas se especializou em ferramentas de codificação baseadas em Deep Learning. Quando as pessoas otimizam o desempenho, geralmente correspondem a um QP e uma rede. No final, elas descobrem que isso realmente não significa muito, porque é necessário treinar o modelo de rede correspondente a um QP específico. Mais tarde, alguém disse que como QP é originalmente uma entrada, basta torná-lo uma entrada e usar o Mapa de QP como importação. Mais tarde, tornou-se esta forma.

Há ainda um problema particularmente desafiador: se for dada uma taxa de bits R, sabemos que na codificação de vídeo tradicional haverá um modelo R-QP entre esta taxa de bits e QP, embora este modelo possa ter algumas alterações em diferentes padrões. mas eles estão sempre relacionados.Você pode ajustar a taxa de código de acordo com o parâmetro de quantização QP, mas a rede neural não pode fazer isso. Além disso, há algum tempo consideramos todos os dados da taxa de código como um parâmetro de entrada e definimos um parâmetro chamado lambda na estrutura da rede.A julgar pelos resultados dos dados de teste, ele pode de fato controlar a taxa de código até certo ponto.

11. Quando os sites de vídeo poderão desbloquear 60fps?A taxa de quadros acima de 60fps é realmente tão importante para nossos sites de vídeo atuais?

Wang Tomshe: A alta taxa de quadros é muito importante nas telas grandes tradicionais. Durante os Jogos Olímpicos de Inverno de Pequim, fizemos um grande número de materiais com alta taxa de quadros, até 60fps. Descobrimos que ainda havia uma lacuna na continuidade e na experiência visual entre assistir a eventos esportivos de 60fps e assistir originalmente a eventos esportivos de 25fps. Lembro-me que o diretor Ang Lee já tentou um filme de alta taxa de quadros "Gemini Man". Diz-se que este filme tem 120fps e é 3D. Do ponto de vista dos efeitos visuais, é de fato visualmente melhor do que muitos filmes que vimos no passado Há realmente uma grande melhoria no impacto. Se "The Wandering Earth" puder ser transformado em uma versão 3D de 120fps, será muito chocante.

12. Se a codificação inteligente for implementada no cenário Xiaohongshu, a equipe de Xiaohongshu a utilizará?

Chen Jing: Do meu ponto de vista, estou muito preocupado com seu impacto na complexidade da decodificação após sua implementação. Temos uma certa tolerância ao aumento da complexidade da codificação. Por exemplo, a complexidade do final da codificação é dez vezes maior. Se a taxa de compactação da codificação que ela traz for muito melhorada e a complexidade adicional trazida pelo final da decodificação for muito pequena, então esta solução Não há problema em implementá-la no lado do servidor.

13. Para a aplicação da codificação inteligente no futuro, se houver muito investimento no chip, ele conseguirá resolver o problema de implementação?

Wang Tomshe: Agora, nossos terminais móveis e alguns dos chips que foram lançados já possuem um forte poder de computação de IA. Se esta parte do poder de computação de IA for melhor aplicada, haverá dois problemas para todo o codec. Promoção em termos de aspectos: Primeiro, podemos colocar toda a codificação inteligente no módulo de computação, o que pode funcionar, mas a esperança não é muito grande. Em segundo lugar, podemos usar alguns métodos baseados na pré-análise de IA para orientar a estrutura de codificação tradicional. Por exemplo, através da estrutura de rede simples da IA, podemos identificar algumas áreas de interesse ou áreas com ruído. Depois de identificados, podemos ir através de algum processamento relativamente simples., para apoiar a melhoria do desempenho da codificação de vídeo, não há problema.

14. Existe alguma aceleração de hardware para a codificação de Xiaohongshu?

Chen Jing: Entendo que a aceleração de hardware se refere a uma VPU dedicada. Quando Xiaohongshu faz a compactação no lado do servidor, haverá algum trabalho de otimização na CPU ou GPU. No entanto, ainda não há aceleração de hardware dedicada e o desempenho de compactação da solução VPU atual é muito pior do que a solução de codificação de software.

Wang Tomshe: Em relação à aceleração de hardware, ouvi anteriormente que alguém desenvolveu um método de aceleração de hardware e fez algumas coisas com base em FPGA. Isso é possível no lado da produção de conteúdo, mas não há como colocá-lo no terminal do telefone móvel. Em termos das necessidades de negócios de Xiaohongshu, é claro que você pode considerar o uso dos recursos de computação da IA ​​do terminal de telefonia móvel para fazer uma coisa, mas cada chip é diferente e há muitos tipos que precisam ser adaptados, o que é um problema. Acho que a razão pela qual esta solução não é amplamente utilizada por todos é que ainda posso ter tantos usuários sem usá-la. Na verdade, a melhoria não é muito se eu usá-la. Se eu usar, posso economizar muito dinheiro e atrair um grande número de usuários., Estou definitivamente disposto a fazer isso, mas não é o caso no momento.

(Obrigado à equipe de arquitetura de áudio e vídeo Xiaohongshu, Can Jian, Di Gua, Huaide e Du Yu pela revisão deste artigo)

 

Acho que você gosta

Origin blog.csdn.net/REDtech_1024/article/details/130196963
Recomendado
Clasificación