20 Ene Procesamiento Digital de la Señal, por Ramon Bori (22/12/2004)
(Puedes ver una versión de este caso en catalán en http://www.instituteofnext.com/mejorespracticas/digital.asp)
Reconocimiento de voz, síntesis multiestilo del habla, voz e imagen sincronizada, interfaces de expresión natural y emocionada o movimiento natural de los ojos del avatar hacia su interlocutor son algunos de los atributos que integrarán los sistemas de mediación hombre-máquina en un futuro próximo.
Imagínate: un servicio web que facilita la accesibilidad de los discapacitados visuales mediante un conversor texto-voz. Un robot virtual (verbot) que habla en un perfecto acento de Stradford-upon-Avon me ayuda a perfeccionar mi inglés. Viajamos en el AVE Madrid-Barcelona y en unas pantallas de plasma, unos avatares (imágenes virtuales) pensados para ayudar a los viajeros con deficiencias auditivas, reproducen con perfecta expresión de los labios todos los avisos. Un detector de somnolencia instalado en el vehículo, mediante una cámara y un sistema de visión artificial, dispara una alarma cuando mis ojos empiezan a cerrarse.
Son algunas de las experiencias que pronto ?viviremos? y que nos harán la vida más fácil, más segura o más cómoda. Situaciones que integran diferentes aplicaciones de tratamiento digital de la señal.
En palabras de la Dra. Elisa Martínez, directora del grupo de investigación en procesado digital de la señal (hipertext: grupo de investigación en procesado digital http://www.salleurl.edu/eng/elsDCTS/tsenyal/index.htm ) de l?Escola d?Enginyeria i Arquitectura La Salle de Barcelona, ? nuestras líneas de investigación son cuatro: procesado digital de la señal, tecnologías del habla, visión artificial y nuevas tecnologías aplicadas a la docencia.?
1-Procesado digital de la señal
Entre las líneas de trabajo destacan el filtrado adaptativo, la detección de fuentes independientes, el procesado en array y el procesado multimodal.
Cancelación adaptativa de ruido
Las comunicaciones digitales son el ámbito de aplicación en el que se tiene mayor experiencia. El grupo trabaja en el diseño y optimización de la algorítmica de los sistemas emisor y receptor en comunicaciones digitales inalámbricas. La implicación del grupo en diferentes proyectos de investigación le ha llevado a especializarse en enlaces de HF (3-30MHz) con propagación ionosférica y especialmente en las siguientes áreas de trabajo:
? Sondeo ionosférico
? Estimación, ecualización y codificación de canal
? Sincronización y desmodulación óptimas para sistemas basados en modulaciones DS-SS y CDMA
Actualmente, el grupo participa en el proyecto de investigación ?Caracterización y modelado del canal ionosférica en la Antártica?. El objetivo principal es establecer un enlace digital de HF entre la Antártica (Base Antártica Española) y la península ibérica (Observatori de l?Ebre), que permita la transmisión de los datos sin necesidad de un enlace vía satélite.
2-Tecnologías del habla
La investigación en esta área va dirigida a conseguir un sintetizador de voz de alta calidad para los sistemas de comunicación hombre-máquina. Hoy se está trabajando en grandes bases de datos de voz con selección mediante algoritmos inteligentes que permitan conseguir una mayor naturalidad y emoción de la voz sintética.
El grupo también investiga en la síntesis visual de voz y en el desarrollo de sistemas audiovisuales de ayuda a los discapacitados, como el diccionario de lengua de signos catalán DiLSCAT.
3-Visión artificial
Su objetivo es la interpretación automática de escenas estáticas o en movimiento. Las técnicas con las cuales se trabaja comprenden el preprocesado para mejorar la calidad de las imágenes, la detección de regiones de interés, la extracción de características para la clasificación o reconocimiento de objetos, la estimación de movimiento y la recuperación tridimensional tanto de la estructura como de los movimientos de los objetos presentes en la escena.
El ámbito de aplicación del área del visión artificial es muy amplio y se está utilizando en:
Análisis médicas automáticas. Ejemplos de proyectos llevados a cabo son la clasificación automática de huesos largos a partir de radiografías o la diagnosis automática de cáncer de mama a partir de imágenes de biopsias.
Recuperación de estructura y movimiento en 3D.
A partir de una secuencia de imágenes se calcula el movimiento 3D que ha realizado el objeto observado (en el ejemplo, el altavoz) y se transfiere a un objeto virtual (en el ejemplo, la diana).
Reconocimiento e interpretación de secuencias de imágenes. El grupo se ha centrado fundamentalmente en el reconocimiento de caras y la interpretación de expresiones faciales. Las aplicaciones en las que más se ha profundizado son la detección de somnolencia a partir de la interpretación del estado de los ojos, y la generación de modelos faciales para la síntesis de agentes fotorealistas.
Guía de robots por visión. Navegación autónoma de robots guiados por objetivos visuales, evitando obstáculos y reconociendo el objetivo. Para ello es fundamental estimar el movimiento 3D del robot a partir de la secuencia de imágenes que observa la cámara, detectar el objetivo y extraer un mapa de profundidades de la escena.
4-Innovación docente
Dada la dualidad investigación-docencia de la mayoría de los integrantes del grupo de investigación se mantiene una área de investigación en innovación docente. Esta profundiza fundamentalmente en dos líneas: la experimentación e implantación de nuevas metodologías docentes, y en la incorporación de nuevas tecnologías a la docencia, tanto en lo referente a plataformas como a contenidos. Los resultados obtenidos se están aplicando en diversas asignaturas tanto en su modalidad presencial como semipresencial.
INTERACCIÓ NATURAL. EL LOCUTOR VIRTUAL
Procesado digital de la señal, tecnologías del habla y visión artificial forman las diferentes capas del proyecto PREVIS (Person-specific Realistic Virtual Speaker) que tiene como propósito la síntesis sincronizada de voz e imagen para generar una interfaz natural con la que podamos interactuar de forma similar a como lo haríamos con una persona.
?Como resultado de la creciente demanda de acceso ubicuo y continuo a la información y los servicios? ? comenta la Dra. Elisa Martínez- ?la sociedad de la información tiene que evolucionar hacia un nuevo paradigma caracterizado por una tecnología para la conexión y la computación presente en todo lugar, integrada en cualquier dispositivo y accesible para todo el mundo. Este cambio de paradigma está teniendo profundas consecuencias en las características de los servicios emergentes y en la forma en la que las personas esperan interactuar con ellos. En este contexto, el diseño y desarrollo de interfaces naturales es fundamental para lograr el grado de usabilidad y accesibilidad esperado. Estas interfaces deben emular la forma natural de interacción entre las personas combinando aspectos verbales, visuales y ambientales.?
PREVIS muestra una apariencia real. ?A partir de un conjunto reducido de imágenes de una persona?- explica la Dra. Elisa Martínez- ?se extrae un modelo facial fotorealista que permite la síntesis de diferentes expresiones. Con el modelado se pueden generar vistas intermedias, es decir, imágenes que no están registradas en el conjunto de entrenamiento.?
Hoy PREVIS, el locutor virtual, puede sintetizar de forma realista las expresiones humanas al reproducir un texto. No hay más que consultar su demo (hipertext demo: http://www.salleurl.edu/~jmelen/rvscatv1.mpg ).
Max Headroom, hecho realidad con un potencial ?sin limites? de aplicaciones: ayuda a sordomudos, videoconferencias virtuales, avatares para telefonía móvil, e-learning…
Sorry, the comment form is closed at this time.