Research

Publication (Phd Thesis)

GPU-Based Real-Time Depth Generation for Immersive Video Applications

Sancho Aragón, Jaime
Abstract:
En los últimos años, las técnicas de realidad aumentada y vídeo inmersivo han surgido como solución para mejorar la visualización por ordenador. Estas técnicas pretenden resolver el problema construyendo representaciones tridimensionales precisas de la realidad por las que se pueda navegar libremente y a las que se pueda añadir información basada en ordenador. Sin embargo, los requisitos de las tecnologías de realidad aumentada y vídeo inmersivo superan el nivel tecnológico actual. Requieren capturar la posición de los objetos en lugar de sólo su intensidad de color, lo que suele expresarse en mapas de profundidad, es decir, imágenes de distancia a la cámara. Hoy en día, aunque posible, la generación de mapas de profundidad presenta una limitación clave: la calidad de los mapas de profundidad está supeditada a su tiempo de generación, lo que aleja la generación de mapas de profundidad de alta calidad de las aplicaciones en tiempo real. Esta tesis doctoral pretende explorar las técnicas actuales de generación de profundidad, compararlas y proponer nuevos métodos para obtener mapas de profundidad de alta calidad y en tiempo real para aplicaciones de realidad aumentada y vídeo inmersivo. Para ello, se centra en tres de las técnicas más relevantes para obtener información de profundidad en el estado del arte actual (State of the Art (SotA)): (i) la estimación de profundidad multivista RGB, (ii) la captura de profundidad mediante cámaras de tiempo de vuelo (Time of Flight (ToF)), y (iii) la captura de campos de luz (Light Field (LF)) mediante cámaras plenópticas 2.0. La estimación de profundidad multivista RGB se basa en el uso de varios sensores de cámara situados en diferentes posiciones. Aunque se ha explorado intensamente, no existe ningún algoritmo capaz de ofrecer una alta calidad a altas frecuencias de cuadro. Por ejemplo, los algoritmos de estimación de profundidad de alta calidad en el estado del arte actual presentan tiempos de procesamiento de varios órdenes de magnitud por encima del tiempo real. La captura de profundidad mediante cámaras ToF emplea un sensor activo y otro pasivo para medir el tiempo de vuelo de una señal. Este proceso puede realizarse a 30 cuadros por segundo (Frames Per Second (FPS)); sin embargo, los mapas de profundidad generados presentan bajas resoluciones espaciales y artefactos característicos. Además, es necesario alinear la captura de profundidad con un sensor RGB. Estos factores provocan una pérdida de calidad significativa, en comparación con los algoritmos de estimación de profundidad mencionados anteriormente. La captura de LF mediante cámaras plenópticas 2.0 también permite una generación de profundidad a 30 FPS. Estas cámaras no tienen el problema de alinear la captura RGB con la profundidad, pero presentan un problema fundamental: la información de profundidad real sólo puede generarse en los bordes de color, haciendo necesarios algoritmos de extensión de profundidad para generar un mapa de profundidad completo. La calidad de la profundidad resultante dependiente, por tanto, de estos algoritmos, que pueden ralentizar la velocidad de fotogramas. Además, el nivel de ruido de profundidad entre fotogramas en las cámaras probadas es elevado, en comparación con las otras técnicas. A partir de estos hallazgos, este doctorado explora dos líneas de investigación para mejorar el estado del arte actual bien en la calidad de la profundidad capturada, o en la tasa de cuadros con que se captura. Para ello, utiliza aceleradores gráficos (Graphics Processing Units (GPUs)) para la aceleración de la estimación de profundidad multivista basada en cámaras RGB, y para llevar a cabo el refinamiento de los mapas de profundidad capturados desde cámaras To F. En el caso de la multivista RGB, el principal problema es el tiempo de procesamiento necesario para generar un mapa de profundidad para los algoritmos de estimación de profundidad de alta calidad: Depth Estimation Reference Software (DERS) y Immersive Video Depth Estimation (IVDE) necesitan del orden de decenas a miles de segundos para generar un cuadro de profundidad en una estación de trabajo de gama alta. Por esta razón, esta tesis doctoral introduce Graph cuts Reference depth estimation in GPU (GoRG), un algoritmo de estimación de profundidad acelerado en GPU basado en una novedosa aceleración del método de optimización graph cuts. Los resultados muestran que GoRG obtiene resultados de calidad de profundidad 0.12 dB Immersive Video – Peak Signal to Noise Ratio (IV-PSNR) peores que el mejor algoritmo de estimación de profundidad de alta calidad probado, con la ventaja de unos tiempos de procesamiento dos órdenes de magnitud inferiores. Aunque significativamente más cerca del tiempo real, el tiempo de procesamiento conseguido por GoRG se sitúa entre 1 y 10 s por cuadro para un ordenador de gama alta y GPU, lo que sigue siendo insuficiente para aplicaciones en tiempo real. Siguiendo esta línea, esta tesis doctoral también investiga el uso de cámaras hiperespectrales (Hyperspectral (HS)) en sistemas multivista para generar información de profundidad. Estas cámaras se diferencian de las cámaras RGB habituales en el número de bandas espectrales que capturan, que puede oscilar entre decenas y cientos, lo que permite caracterizar espectralmente los elementos de la escena capturada. En este contexto, se presenta HS–GoRG, una extensión de GoRG para arrays hiperespectrales multivista. Los resultados muestran que HS–GoRG puede producir resultados con un error Root Mean Squared Error (RMSE) de 6,68 cm (11.3 % del rango total de profundidad probado), aunque principalmente localizado alrededor del error de 2-4 cm (3.3 % - 6.6 % del rango total de profundidad probado) en 2.1 s por cuadr, de media. Este resultado muestra la dificultad de utilizar el algoritmo desarrollado en entornos de tiempo real. En cuanto al refinamiento de profundidad ToF, esta tesis doctoral propone dos nuevos algoritmos de refinamiento de profundidad para cámaras ToF: GoRG–Prior, y Kinect Refinement Tool (KiRT). GoRG–Prior es un método de refinamiento de profundidad basado en cortes de gráficos que mejora la captura en bruto del Intel L515 LiDAR en 0.37 dB IV-PSNR a una tasa de cuadros de 10 FPS, de media, en comparación con los 0.18 dB IV-PSNR a una tasa de cuadro de 250 FPS conseguidos por el segundo algoritmo de mejor calidad probado. El elevado tiempo de procesamiento de GoRG–Prior motivó el desarrollo de KiRT, que reduce la complejidad del algoritmo sustituyendo graph cuts por un algoritmo basado en fronteras. KiRT es un algoritmo de refinamiento de profundidad acelerado en GPU para configuraciones de múltiples cámaras que alcanza frecuencias de cuadro cercanas a 55 FPS, al tiempo que obtiene resultados de calidad ligeramente mejores para la cámara Azure Kinect DK que el segundo algoritmo de mejor calidad probado: 3.07 dB IV-PSNR frente a 2.97 dB IV-PSNR. La principal diferencia subjetiva apreciada entre ambos es la capacidad de KiRT para generar bordes de profundidad abruptos y un mejor rendimiento en regiones de gran profundidad vacías. Estas aportaciones de la tesis doctoral se han probado en dos casos reales enmarcados en los proyectos de investigación: clasificacióN intraopEratoria de tuMores cErebraleS mediante modelos InmerSivos 3D (NEMESIS-3D-CM) y Holographic Vision for Immersive Tele-Robotic OperatioN (HoviTron). NEMESIS- 3D-CM es un proyecto que persigue mejorar las herramientas de visualización médica para operaciones de resección de tumores cerebrales. Los resultados muestran la viabilidad de utilizar el Intel L515 LiDAR más GoRG–Prior en un escenario real para generar una realidad virtual en tiempo real que puede ayudar a los neurocirujanos durante las operaciones de resección de tumores cerebrales. HoviTron persigue generar una representación en tiempo real de alta calidad de escenas en aplicaciones de operaciones telerrobóticas. Estas escenas necesitan ser presentadas en un LF–Head Mounted Display (HMD), lo que requiere información de profundidad generada y procesada en tiempo real. En este proyecto, este trabajo de doctorado se centra en el refinamiento de profundidad de 4 u 8 cámaras Microsoft Kinect Azure DK ToF en tiempo real empleando KiRT. Los resultados muestran que para la configuración de 4 cámaras se alcanzan 20 FPS, mientras que para la configuración de 8 cámaras, 12 FPS, con mejores resultados subjetivos que el algoritmo de segunda mejor calidad probado. En conclusión, esta tesis doctoral demuestra que el análisis de generación de profundidad realizado y las técnicas propuestas contribuyen al desarrollo de sistemas de realidad aumentada interactivos en tiempo real. Aunque la generación de profundidad en tiempo real sigue siendo un problema, se ha demostrado que dispositivos como las cámaras ToF y los algoritmos de refinamiento de profundidad son buenos candidatos para seguir investigando en el futuro.
Research areas:
Year:
2023
Type of Publication:
Phd Thesis
DOI:
https://doi.org/10.20868/UPM.thesis.76730