论文 阅读 : Generación de vistas predictivas para permitir experiencias móviles de 360 grados y realidad virtual

Nombre del papel

Generación de vistas predictivas para permitir experiencias móviles de 360 ​​grados y realidad virtual

fuente

reunión

años

2018,7

Autor

Xueshi Hou, Sujit Dey, Jianzhong Zhang, Madhukar Budagavi

Punto central

Diseñó un modelo LSTM multicapa

Leer fecha

2020.9.17

Resumen de contenido

Los principales problemas y soluciones que resuelve el artículo:

Problema: es difícil para las redes móviles proporcionar un ancho de banda ultra alto y una latencia ultrabaja a las aplicaciones de realidad virtual basadas en la nube y en la nube y de 360 ​​°. En la actualidad, un método común para reducir el ancho de banda es transmitir solo el FOV. Sin embargo, en respuesta al movimiento de la cabeza del usuario La recuperación y transmisión de FOV aumentará la latencia y afectará negativamente la experiencia del usuario.

Solución: Este artículo propone un método para generar vistas de predicción, extraer vistas de predicción y transmitirlas por adelantado, reduciendo así el ancho de banda y el retraso al mismo tiempo.

El trabajo principal del artículo:

Recopile 19 datos de movimiento del cabezal de video de más de 36,000 espectadores en el sitio web de Samsung Virtual Reality y utilice un formato basado en mosaicos para expresar las características del punto de vista del campo de visión del usuario. El tamaño de cada red es 30 ° × 30 °, luego 360 ° Se puede dividir en 72 bloques. El punto de vista se predice en función de la trayectoria del punto de vista de los últimos 2 segundos. La codificación one-hot está diseñada para representar el punto de vista como una matriz V de 72 × 10, con los elementos de V como 0 o 1. La secuencia de corte de vista anterior se ingresa en el modelo LSTM multicapa propuesto en este artículo, y finalmente se genera la probabilidad de predicción en 72 cortes. Los m cortes con la probabilidad más alta se seleccionan y combinan en el campo de visión predicho, y el campo de visión predicho se transmite con alta calidad. El sector se guarda en blanco. En la parte experimental, el artículo compara la precisión de predicción del FOV del modelo LSTM con el FOV del modelo SAE, BT y kNN. Se concluye que el FOV del modelo LSTM tiene una mejor precisión de predicción que SAE en la secuencia de movimiento bajo, secuencia de movimiento medio y secuencia de movimiento alto. , BT, conclusiones experimentales del modelo kNN, y en comparación con los modelos anteriores tienen mayor ahorro de píxeles, para lograr el propósito de reducir el ancho de banda y el retraso.

Contenido del artículo:

La primera parte: presenta las perspectivas de desarrollo de AR y VR, y propone un método novedoso para realizar la realidad virtual móvil con función de predicción del movimiento de la cabeza, utilizando el método de predicción del punto de vista del modelo LSTM de aprendizaje profundo. Los datos experimentales se recopilan de 19 videos de 360 ​​° / VR de datos de trayectoria de movimiento de cabeza real a gran escala de más de 36,000 espectadores.

La segunda parte: describe dos trabajos relacionados, uno es la investigación de la transmisión de video de 360 ​​° guiada por FOV y el otro es la predicción de secuencias. Entre ellos, el flujo de video de 360 ​​° guiado por FOV es para predecir la perspectiva del usuario y entregar el FOV predicho por adelantado. En comparación con los métodos de control de versiones y mosaico, no solo puede reducir el ancho de banda, sino también cumplir con los requisitos de latencia ultrabaja. La predicción de secuencia es para predecir el siguiente valor de una secuencia histórica determinada. Este artículo presenta una variedad de aprendizaje automático tradicional y una variedad de métodos de predicción de secuencia basados ​​en el aprendizaje profundo, porque las redes neuronales recurrentes LSTM dependen del tiempo entre los datos de entrenamiento Por lo tanto, un modelo LSTM está diseñado para predecir la posición del punto de vista futuro basado en la trayectoria pasada.

La tercera parte: presenta la descripción general del sistema, explicando que la solución se puede aplicar a los dispositivos periféricos. La implementación específica de la solución se basa en el movimiento de la cabeza y los datos de control recibidos de los usuarios en los últimos segundos, y utilizando el modelo de predicción del punto de vista propuesto en el artículo, los dispositivos periféricos ejecutan Se genera la vista de predicción. Si el campo de visión real está dentro del campo de visión previsto, el HMD muestra el campo de visión previsto. Si falla, el campo de visión real se calcula y se envía desde el dispositivo de borde.

Parte 4: Defina algunas métricas para mostrar las características del conjunto de datos. El conjunto de datos utilizado en este artículo proviene de los datos de postura de la cabeza de 19 videos de más de 36,000 espectadores en el sitio web de Samsung Virtual Reality. Los datos de la Tabla 1 y la Figura 4 prueban esto Las muestras de datos son diversas y complejas, adecuadas para desarrollar y verificar el método de predicción del punto de vista propuesto en el artículo. La figura 5 muestra la distribución de la velocidad de movimiento de la cabeza de más de 1500 espectadores en 60 segundos El artículo divide la secuencia de movimiento medio y la secuencia de movimiento alto de acuerdo con esta figura. La Figura 6 muestra que hay más bloques de alta probabilidad en la secuencia de movimiento de alta velocidad, lo que indica que los bloques están dispersos, es decir, los puntos de interés del usuario están dispersos y es difícil predecir con precisión el punto de vista.

Parte 5: Introducción a los métodos de predicción de puntos de vista y generación de campos de visión. En el método de predicción del punto de vista, se utiliza un formato basado en mosaicos para representar las características del punto de vista. Cada tamaño de red es 30 ° × 30 °, luego 360 ° se puede dividir en 72 bloques. El punto de vista se predice en función de la trayectoria del punto de vista de los últimos 2 años. Uno está diseñado en el artículo. -codificación caliente, el punto de vista se expresa como una matriz V de 72 × 10, donde los elementos de V son 0 o 1. Al mismo tiempo, este documento diseña un modelo LSTM multicapa, la entrada es la secuencia de corte de la vista anterior, la primera y segunda capas del modelo están compuestas por 128 unidades LSTM, la capa completamente conectada contiene 72 nodos y finalmente pasa por la función de activación softmax , Genere la probabilidad pronosticada en 72 cortes. Utilice la función de pérdida de entropía cruzada mínima para entrenar el modelo, y la época del tamaño del lote es 30. En el método de generación del campo de visión, la precisión de la predicción del campo de visión se define como la probabilidad de la visión real del usuario dentro del rango de la vista prevista. La generación del campo de visión selecciona m segmentos con la probabilidad más alta y los combina en el campo de visión previsto. El campo de visión predicho se transmite con alta calidad. La película se guarda en blanco. El tamaño de m se utiliza para equilibrar la precisión de la predicción del FOV y el ancho de banda consumido por la transmisión del FOV predicho. Cuanto mayor sea la M, mayor será el consumo de ancho de banda y mayor será la precisión de la predicción del campo de visión. Otra estrategia de generación de FOV es transmitir los fragmentos restantes de baja calidad al mismo tiempo, reduciendo el riesgo de precisión de predicción.

Parte 6: En este artículo, el 90% de los datos se utilizan para entrenamiento y el 10% de los datos para pruebas. Los experimentos se llevan a cabo bajo el marco de aprendizaje profundo de keras y las comparaciones de rendimiento con los métodos SAE, BT y kNN se utilizan para entrenar usando códigos one-hot. Modelos SAE y LSTM y representaciones simples para BT y kNN. La Figura 10 y la Tabla 2 muestran la precisión de la predicción del FOV y la tasa de ahorro de píxeles para las secuencias de movimiento alto y las secuencias de movimiento medio. Los resultados experimentales muestran que cuando la precisión de la predicción del FOV alcanza el 95%, el modelo LSTM diseñado en este documento logra mejores resultados que los otros tres modelos. Gran ahorro de píxeles. Los resultados de la Tabla 3 muestran que en una secuencia de video de movimiento relativamente bajo, cuando el modelo LSTM logra una alta precisión de predicción del FOV de aproximadamente el 95%, la selección de 4 cortes para generar el FOV puede lograr un mayor ahorro de píxeles. Por lo tanto, los experimentos muestran que el modelo LSTM y el método de generación de FOV pueden lograr una precisión de predicción de FOV muy alta al tiempo que reducen significativamente los píxeles requeridos.

Resultados experimentales:

Supongo que te gusta

Origin blog.csdn.net/qq_39715243/article/details/109091501
Recomendado
Clasificación