Virtual Stage

Escenario virtual con IA

Plain Concepts ha desarrollado una herramienta que permite grabar los eventos desde casa, utilizando la inteligencia artificial. El proyecto se realizó con Microsoft. y un algoritmo de la Universidad de Washington

Publicado por

María Jesús Muñiz PrietoRedactora jefe de León y Economía

León

Creado: 07.07.2020 | 03:32

Actualizado: 14.07.2020 | 16:22

En:

Que un conferenciante pueda grabar su charla en cualquier entorno, sin preocuparse de lo que aparece alrededor porque luego un sistema de inteligencia artificial ‘borra’ todo lo que aparece para sustituirlo por el escenario deseado, y que la imagen de la persona aparezca con gran precisión, incluso acompañada de la pantalla de su presentación. Eso es en esencia Virtual Stage, un proyecto desarrollado por la compañía leonesa Plain Concepts con Microsoft, que ha permitido a la multinacional celebrar virtualmente su Microsoft Build 2020. Un sistema de escenarios virtuales que ha tenido un enorme éxito, por lo que continúa su desarrollo para perfeccionar y ampliar sus funciones.

Así lo explica Pablo Peláez, director general de la compañía que sigue teniendo su sede en León, y que explica que «todas estas técnicas permiten que los conferenciantes se graben en un entorno habitual, como su domicilio o la oficina, y que más tarde se genere un vídeo en el que aparezcan en un estudio profesional. Virtual Stage consta de dos aplicaciones: el Speaker Recorder, que permite grabar una conferencia con un dispositivo Azure Kinect; y el procesamiento del vídeo para eliminar el fondo con gran calidad, segmentar el cuerpo e incluir un nuevo escenario.

Plain Concepts nació hace 14 años con cuatro personas, y hoy tiene más de 350 empleados en todo el mundo, y sedes empresariales en cinco países (España, Estados Unidos, Emiratos Árabes Unidos, Reino Unico, Alemania y Holanda). Un proceso de crecimiento imparable que les llevará a crear empresa en otros dos países en el próximo año.

La aportación de plain concepts ha permitido mejorar la calidad de los primeros planos y varias partes del cuerpo

En León se mantiene la sede administrativa, aunque la mayor parte del desarrollo se realiza en Madrid y Barcelona. «Hacemos sobre todo prueba de concepto en nuevas tecnologías», explica Peláez, también director regional de Microsoft desde 1996.

La empresa se ha especializado en desarrollos disruptivos de inteligencia artificial, realidad mixta, internet de las cosas, cloud, blockchain,... A lo largo de su trayectoria ha desarrollado ya más de 2.000 proyectos, y en el último año su facturación creció un 35%, hasta los 25 millones de euros de facturación.

Por lo que se refiere a Virtual Stage, el proyecto surgió de la necesidad de Microsoft, que cada año celebra una conferencia de desarrolladores (Microsoft Build) en la que la compañía anuncia sus últimas herramientas y servicios. La crisis del Covid-19 impidió que este encuentro fuera presencial, como siempre; y se decidió crear un evento de 48 horas de sesiones on line a las que pudiera acceder cualquiera que se registrase.

Sin embargo, se plantearon algunos retos para el nuevo formato, por ejemplo cómo asegurar la calidad de la imagen y el audio de los conferenciantes, que en general se grabarían en sus casas. Y también cómo se apreciaría el entorno de los participantes, así como «qué sensación proyectarían en los asistentes».

Microsoft reemplaza la red neuronal desarrollada por la herramienta azure kinect, que es mucho más precisa

Se trataba de conseguir un resultado óptimo, pero sin la posibilidad de grabar en un estudio o plató con profesionales especializados. «Afortunadamente encontramos una solución», señala Peláez.

Virtual Stage es «una aplicación que aprovecha la potencia del Azure Kinect y los últimos avances de la inteligencia artificial para grabar a los ponentes en su casa, como si estuvieran en un estudio profesional». Los ponentes hablan frente a un croma (una clave de color, una técnica audiovisual que consiste en tener un color de fondo que luego se sustituye por el escenario deseado), y las grabaciones se envían después a postproducción. «Ahí se introducen ya fácilmente los escenarios virtuales, animaciones, composiciones. Lo que se requiera en cada caso».

La tecnología desarrollada por Plain Concepts con Microsoft tiene «dos partes distintas. Una es el Speaker Recorder App, que permite grabar una conferencia usando uno o dos dispositivos Azure Kinect; mientras el Background Matting, elimina el fondo con gran calidad a través de un sofisticado modelo de inteligencia artificial, y la información de los sensores de Azure Kinect».

Peláez señala que la aplicación Speaker Recorder «captura información de color y profundidad con una o dos cámara Azure Kinect. Si se usan dos cámaras pueden grabarse dos ángulos de la misma conferencia». Además, el conferenciante puede utilizar un presentador para desplazarse por las diapositivas de PowerPoint y un micrófono inalámbrico».

Cuando acaba la grabación los vídeos se suben a Azure, «donde son procesados a través del servicio Background Matting, que utiliza la información de profundidad para generar una segmentación imprecisa de la persona que da la charla». Más tarde el backend separa el fondo del conferenciante «con alta precisión, generando un vídeo transparente».

Pablo Peláez explica que el Background Matting se basa «en una nueva técnica de la Universidad de Washington. Aunque debido a la falta de datos de entrenamiento etiquetados que retraten a los humanos de pie, la inteligencia artificial original fue entrenada con imágenes y vídeos cuadrados de 512x512 hasta la cadera o la rodilla».

La aportación de Plain Concepts ha sido también mejorar la calidad de los primeros planos, «sobre todo en zonas como el pelo, las manos o los pies. Para ello hemos hecho dos contribuciones importantes al sistema original».

En primer lugar, reemplazaron «el paso de segmentación original por los modelos de IA del Azure Body Tracking SDK, con lo que se consiguió una segmentación más tolerante con las similitudes de color y las zonas ambiguas de la imagen», explica.

Por otro lado, dividieron el cuerpo en dos imágenes cuadradas con una pequeña superposición y se procesaron por separado. «Esto permite al modelo ver mejor en zonas difíciles como la sombra entre los pies, sin perder precisión en el cabello o las manos».

Todas estas técnicas permiten que los conferenciantes se graben en un entorno habitual, como su domicilio o la oficina, y que más tarde se genere un vídeo en el que aparezcan en un estudio profesional. Virtual Stage consta de dos aplicaciones: el Speaker Recorder, que permite grabar una conferencia con un dispositivo Azure Kinect; y el procesamiento del vídeo para eliminar el fondo con gran calidad, segmentar el cuerpo e incluir un nuevo escenario.

Para llevar a cabo la grabación (a través de una o dos cámaras instaladas en trípodes) se registran en primer lugar cinco segundos de fondo, y después el conferenciante entra en escena y comienza su charla. Es necesario evitar sombras y reflejos, y que la ropa coincida con el color del entorno. que debe evitar también tener muchos colores distintos.

Según explica David Carmona, de Microsoft, se ha utilizado la inteligencia artificial para crear estos escenarios virtuales cuando la grabación en persona no es posible. «El Covid-19 nos ha obligado a repensar nuestra estrategia para hacer las cosas, por ejemplo los eventos. En el Microsoft Build todos los conferenciantes estaban en sus casas, pero utilizando este proceso de fondo de la Universidad de Washington y nuestros sensores Azure Kinect pudimos producir las presentaciones que parecían estar en vivo».

A esta solución se llegó por la necesidad de utilizar únicamente entornos virtuales. «Tuvimos que ser creativos, experimentar sobre cómo presentábamos el contenido utilizando nuestra tecnología, y también la innovación de otros, para crear un escenario virtual en el que ofrecer nuestras sesiones».

Así surgió el proceso de matización en segundo plano a través del uso de los sensores de la compañía Azure Kinect, y con un modelo de inteligencia artificial basado en un trabajo de la Universidad de Washington.

La cámara Kinect captura información de profundidad con una luz infrarroja, que ayuda a que los datos sean tratados de forma más precisa».

El modelo de inteligencia artificial desarrollado por la Universidad de Washington se basa en una red neuronal profunda que toda dos imágenes, una con fondo y otra con una persona en ella. La salida de la red neuronal es una máscara de transparencia suave.

La red neuronal, explica, fue entrenada con imágenes para trabajar en el enmascaramiento, de forma manual. Esa red puede aprender a suavizar áreas como el pelo o los dedos, aunque tiene algunas limitaciones, por ejemplo si la persona lleva una prenda con un color similar al del fondo, que hace que el sistema lo tome como ‘un agujero’.

Para evitar eso, los investigadores combinaron el método con una segunda red neuronal, que intenta adivinar el contorno. La inteligencia artificial identifica la silueta de una persona, y elimina los problemas en las áreas más conflictivas. En Washington desarrollaron la arquitectura ‘cambio de concepto’, que elige la mejor solución de las dos para cada caso.