Aplicaciones del Procesado digital de audio, voz e imagen

La Teoría de la Señal es un área primordial de las TIC cuyos fundamentos matemáticos se remontan al siglo XVII con el desarrollo de técnicas clásicas de análisis numérico. El nacimiento y proliferación de los ordenadores a partir de la segunda mitad del siglo XX dio pie al Procesado Digital de Señales (PDS), disciplina que ha permitido a los ingenieros del área aplicar estas técnicas al modelado de múltiples problemas del mundo que nos rodea, proporcionando una mejor manera de entenderlo y ofreciendo a menudo soluciones que consiguen transformarlo radicalmente.

El campo de actuación del PDS abarca desde los sistemas de telecomunicaciones a métodos de análisis y predicción financiera, desde los sistemas de control y de toma de decisiones, a las tecnologías multimedia, etc. y afecta a todos los campos de la actividad humana, incluyendo nuestra forma de interactuar con las máquinas.

En el CITSEM nos centramos en el estudio de diferentes señales que son la fuente de algunas de las principales aplicaciones de estas tecnologías: el audio, la voz humana y las imágenes.

El procesado de audio consiste en el estudio de los sonidos registrados mediante uno o más micrófonos e incluye múltiples objetivos: análisis de los sonidos para su caracterización, codificación para su envío o almacenamiento en medios digitales, mejora del sonido, etc. En este campo se incluye también el procesado de señales musicales con múltiples aplicaciones: clasificación automática del contenido, síntesis digital, modelado de la acústica de los instrumentos…

Las líneas de investigación que seguimos en esta área son:

  • Detección de eventos sonoros.
  • Medida de parámetros para cuantificación de emociones.
  • Clasificación de escenas acústicas.
  • Análisis, caracterización y reproducción del efecto coral.

MATLABInterfaz gráfica desarrollada en MATLAB para ajustar la detección automática de notas musicales a partir de la curva de tono de un cantante. La línea naranja representa la curva de tono y la azul las notas musicales detectadas.

El procesado de voz se puede ver como un subconjunto del procesado de audio en el que la señal bajo estudio es la voz humana. Es un área que abarca también muchas disciplinas en función de los objetivos perseguidos: codificación, mejora, reconocimiento de habla, síntesis, análisis, detección de idioma, de locutor,…

Las líneas de investigación que seguimos en esta área se enmarcan en los campos del análisis de la calidad de la voz:

  • Extracción de parámetros objetivos de la voz para la detección, clasificación y cuantificación de patologías, tanto del aparato fonador como de otros sistemas fisiológicos.
  • Caracterización de voz para la síntesis y modelado de locutores.
Espectrograma
Espectrograma. Análisis de voz de un enfermo de Alzheimer en el que se aprecia una subida de casi dos octavas en el tono hacia el final de un grupo fónico.

 

El procesado de imágenes se centra en el estudio de imágenes obtenidas mediante sensores ópticos (cámaras, escáneres) o generadas directamente por el ordenador. Puede perseguir diferentes objetivos: mejora y restauración de imágenes, compresión, segmentación y descripción de formas dentro de la imagen y reconocimiento e interpretación del contenido por métodos de reconocimiento de patrones.

Las líneas de investigación que seguimos en esta área se centran en métodos automáticos de segmentación y clasificación de imágenes, fundamentalmente en aplicaciones médicas:

  • Detección de las cuerdas vocales en vídeos grabados mediante estroboscopia para el análisis y evaluación del funcionamiento del aparato fonador.
  • Segmentación y reconstrucción 3D de estructuras anatómicas a partir de imágenes de TAC. Segmentación de lesiones de piel, detección de atributos clínicos y clasificación de posibles enfermedades a partir de imágenesdermoscópicas.

Lesin piel

 Localización automática de una lesión de piel en una imagen dermoscópica utilizando Deep-Learning.

 

 

Login



Moodle CITSEM