[Ponto de vista da indústria] Análise aprofundada do impacto do WWDC 2023 Apple Vision Pro na indústria AR

O lançamento do Apple Vision Pro "Mais uma coisa" da Apple em 5/6 é definitivamente um dia na história do desenvolvimento de XR/AR/VR. Muitas pessoas dirão que muitos recursos do Apple Vision Pro foram propostos por muitas pessoas na indústria e foram implementados em muitos produtos. Por exemplo, movimento dos olhos + interação total com gestos foi realizado no Microsoft Hololens há alguns anos. 3D A tela grande infinita também é o principal cenário de aplicação de muitos óculos Bird Base AR atualmente, e a tela é a mesma solução do Oculus Quest. Então, o que há de tão especial no Apple Vision Pro? Resumindo em duas palavras: extremo .

 Diferença entre XR/AR/VR

O Apple Vision Pro é um dispositivo de realidade misturada (XR Mixed Reality) , que é um tipo de produto que combina os recursos de VR (Realidade Virtual) e AR (Realidade Aumentada) . Os produtos VR focam na imersão do mundo virtual, como It é Oculous Quest, Pico... etc. Atualmente, a cena mais comum são os jogos VR. E o AR se concentra em combinar a realidade com o mundo real, como: HoloLens, Nreal e Li Weike Meta Lens pertencem a esse tipo de óculos.

Então, que tipo de produto é o XR? O surgimento do tipo XR é principalmente para compensar a falta de soluções ópticas atuais do AR e, em seguida, expandir a capacidade de interagir com a realidade baseada em VR. Nas duas imagens de comparação a seguir, pode-se ver que a aparência do Vision Pro está mais próxima. Os óculos AR são geralmente chamados de dispositivos OST (Optical See-Through) . Para ver o mundo real com clareza e projetar objetos virtuais, a indústria geralmente usa o princípio de reflexão ou difração para imagens, mas o rendimento geral, a qualidade da imagem e FOV Eles não são tão bons quanto os dispositivos VR, mas são muito melhores que os dispositivos VR em termos de peso e portabilidade. De acordo com fofocas na cadeia de suprimentos, a Apple também pesquisou soluções ópticas AR em Shenzhen por um longo tempo e, finalmente, mudou para produtos do tipo XR depois de não conseguir encontrar um adequado.

visão VR
Visão AR

Os dispositivos XR também são chamados de dispositivos VST (Video See-Through) . Simplificando, como não há como ver o mundo exterior através da perspectiva, eu uso uma câmera para ajudar os usuários a ver o mundo e uso a tecnologia de exibição VR para exibir imagens externas Isso não apenas garantirá o efeito de exibição, o FOV é tão grande quanto o dispositivo VR, mas também cobrirá os cenários de aplicação do AR. Mas não é isento de desvantagens, pois precisa de várias câmeras adicionais para transmitir imagens externas e renderizá-las em alta definição, portanto, o custo e o consumo de energia serão definitivamente maiores do que o AR comum.

A Apple também usou as características do XR no design do Vision Pro e introduziu um conceito de comutação virtual-real, que pode alterar o grau de imersão entre real e virtual por meio do botão.

Em seguida, vamos nos concentrar na introdução dos problemas mais difíceis do setor que o Vision Pro superou.

Abandonar o controlador: movimento total dos olhos + controle por gestos

O movimento dos olhos e o controle de gestos são realmente equipados com essas duas tecnologias por padrão nos dispositivos VR convencionais existentes, mas ambos têm restrições de cena relativamente grandes, resultando em que mesmo o mais recente Meta Quest 3 ainda não desiste do controlador físico. manipulação.

O gargalo técnico comum atual do movimento ocular é que a resolução não é alta o suficiente e só pode ser posicionada em uma posição aproximada. Portanto , geralmente é usado para renderização foveada rastreada pelo olho (ETFR Eye Tracked Foveated Rendering) em dispositivos VR. Renderização de alta definição apenas no ponto de olhar, mas requer precisão extremamente alta para controle, especialmente quando o ícone está muito próximo. O movimento dos olhos é muito sutil e é fácil de tocar por engano ou você precisa trabalhar duro Pessoas que já usaram tecnologias relacionadas ao controle do movimento dos olhos devem se sentir muito cansadas no início.

Mas este é o Vision Pro usando diretamente o movimento dos olhos para selecionar o ícone. De acordo com amigos que experimentaram no local, é muito fácil de usar. Essa experiência por si só é suficiente para a indústria recuperar o atraso por vários anos.

A interação geral é geralmente usar o movimento dos olhos para selecionar os componentes de controle e, em seguida, cooperar com gestos para acionar os recursos de controle, incluindo clicar, arrastar, esticar... etc. No entanto, os gestos de posicionamento baseados em sensor também têm uma grande desvantagem, ou seja, são limitados pelo FOV do sensor. Se o FOV for muito pequeno, é provável que a área de trabalho do gesto não responda ou a mão está muito dolorido. Gestos como o HoloLens precisam estar na frente deles para operar melhor.

Desta vez, a Apple usou luz estruturada monocular para resolver esse problema. Desde a introdução, podemos ver que ela pode ser usada mesmo que a mão seja colocada em um local muito baixo. A experiência é considerada muito fácil de usar. Como usar luz estruturada monocular para resolver as diferenças de gesto causadas por FOV e ângulo ainda não foi descoberto. Além disso, a luz estruturada é facilmente afetada pela luz ambiente, e o efeito prático real pode depender da experiência real do produto.

12 Fusão de câmeras: integração de realidade virtual em tempo real

Quando se trata de integração virtual-real, temos que mencionar o algoritmo de percepção espacial SLAM (Simultaneous localization and mapping), que é essencial para VR/AR/XR, embora já existam muitos SDKs maduros disponíveis em telefones celulares, como: iOS ARKit, Android ARCore, mas não há muitos no dispositivo de exibição principal e a maioria deles não está aberta. O principal motivo é que, para acompanhar a velocidade de reação dos olhos humanos (muito lento pode causar tontura e não caber), os requisitos de velocidade e precisão do algoritmo são muito maiores do que os do telefone celular AR.

Para resolver este problema, a Apple não hesitou em equipar o Vision Pro com dois processadores, M2 e R1. 

Para processar os dados de 12 câmeras em tempo real, a Apple usa especialmente um processador multimídia R1 autodesenvolvido. Diz-se que o atraso geral na sincronização de dados é de apenas 16ms. Além do problema da velocidade de processamento, há outro principal razão para usar R1 porque o sistema operacional geral é muito rápido. Para um sistema de tempo real, se o processador principal M2 for usado diretamente para processamento, mesmo que o poder de computação seja suficiente, os sensores subjacentes não podem ser sincronizados em tempo real. Portanto , a arquitetura dos dois processadores deve se tornar uma solução padrão da indústria no futuro. O AR2 da Qualcomm também é uma arquitetura de processador duplo, mas o SOC de nível mais alto da Qualcomm só pode lidar com vídeo de 8 vias. Não é exagero dizer que uma empresa, a Apple, virou o mundo inteiro.

Sistema de Áudio Espacial

A evolução do sistema bidimensional dos telemóveis para o sistema tridimensional é essencialmente uma procura instintiva da fusão da realidade com a realidade dos sentidos. A capacidade de sentir o espaço resolve as necessidades sensoriais. Um Apple que persegue o máximo não abre mão do sistema de áudio tridimensional.

O Vision Pro propõe um sistema de áudio espacial. Antes de usá-lo, você precisa usar o Vision Pro para escanear seus ouvidos para saber o alcance sonoro aproximado dos ouvidos de cada pessoa e, em seguida, simular fontes sonoras em diferentes direções em todo o espaço por meio de quatro alto-falantes. É como ir a um cinema com som surround Dolby. No entanto, é sabido que os alto-falantes externos dos óculos sempre tiveram o problema de vazamento de som, não sei até que ponto a Apple resolveu esse problema.

alguns pensamentos 

 O lançamento do Vision Pro deve ter um impacto épico em toda a indústria. A questão não é o quão inovador o Vision Pro é, o quão diferente ele é de outros produtos, e mesmo muitos dos pontos de venda são aqueles que há muito são usados ​​por indústrias relacionadas.

No entanto, o mais importante é isso, MAS!!! Somente o Vison Pro pode alcançar uma experiência tão completa e extrema. Como uma pessoa em uma indústria relacionada, muitos detalhes nela só podem ser descritos como inacreditáveis. Definitivamente não é que a indústria nunca tenha pensado nisso, mas a habilidade não permite. É exagero dizer que se você pegar um ponto sozinho, talvez não encontre uma segunda empresa no mundo que possa fazer isso.

Acho que você gosta

Origin blog.csdn.net/weixin_44491772/article/details/131079626
Recomendado
Clasificación