Reconocimiento visual de voz

https://arxiv.org/abs/1409.1411

La lectura de labios se utiliza para comprender o interpretar el habla sin escucharla, una técnica especialmente dominada por personas con dificultades auditivas. La capacidad de leer los labios permite a una persona con discapacidad auditiva comunicarse con los demás y participar en actividades sociales, que de otro modo serían difíciles. Los avances recientes en los campos de la visión por computadora, el reconocimiento de patrones y el procesamiento de señales han llevado a un creciente interés en automatizar esta desafiante tarea de la lectura de labios. De hecho, la automatización de la capacidad humana para leer los labios, un proceso denominado reconocimiento visual de voz (VSR) (o en ocasiones lectura de voz), podría abrir la puerta a otras aplicaciones novedosas relacionadas. VSR ha recibido mucha atención en la última década por su uso potencial en aplicaciones como la interacción humano-computadora (HCI), el reconocimiento de voz audiovisual (AVSR), el reconocimiento de locutor, cabezas parlantes, el reconocimiento del lenguaje de señas y la videovigilancia. Su principal objetivo es reconocer las palabras habladas utilizando únicamente la señal visual que se produce durante el habla. Por lo tanto, VSR se ocupa del dominio visual del habla e implica procesamiento de imágenes, inteligencia artificial, detección de objetos, reconocimiento de patrones, modelado estadístico, etc.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

Crea tu sitio web con WordPress.com
Comenzar
A %d blogueros les gusta esto: