Curso Dr. John Hansen

Advanced Speech Processing Techniques 

Técnicas Avanzadas de Procesamiento del Habla

RESUMEN:

This course provides an overview of the state-of-the-art in robust automatic speech recognition (ASR, the task of recognizing the sequence of words uttered by a speaker), dating back to the 1980’s until the present. Techniques include spectral normalization methods, alternative feature methods, normalization/compensation in the feature domain, and voice-transformation methods for alternative training paradigms. We will also discuss recent advancements in speaker recognition (SR, the task of recognizing the speaker's identity). In particular, we will briefly overview the NIST SRE - Speaker Recognition Evaluation program and contributions made by various research labs worldwide, followed by techniques to improve (i) mismatch compensation using Information Integration Factor Analysis (IIFA), (ii) speaker ID in Whisper and in noise with Lombard Effect, and (iii) reducing the impact of acoustic holes for train/test data sizes for in-set/out-of-set speaker recognition (i.e., training with 5 sec and testing with 2-8sec of data).) Following the three initial lectures (in English), there will be two laboratory sessions (in Spanish), where students will experiment with existing ASR and SR applications.

 

Este curso presenta un resumen de las tecnologías actuales de reconocimiento automático del habla (ASR, la tarea de reconocer la secuencia de palabras dichas por una persona), desde los 1980's hasta el presente. Las ténicas incluyen métodos de normalización espectral, métodos basados en atributos alternativos, normalización/compensación en el dominio de atributos, y métodos de transformación de la voz para paradigmas alternativos de entrenamiento. También vamos a presentar recientes avances de reconocimiento del hablante (SR, la tarea de reconocer la identidad del hablante). En particular, repasaremos brevemente el programa NIST-SRT, así como las contribuciones hechas por varios investigadores y laboratorios de todo el mundo, seguido de técnicas para mejorar (i) la compensación por mismatch usando IIFA, (ii) la identificación del hablante en habla susurrada y en condiciones de ruido con efecto Lombard, y (iii) reducir el impacto de hoyos acústicos para reconocimiento del hablante de tipo in-set/out-of-set (ej: entrenamiento con 5 segundos y testing con 2-8 seg de datos). A continuación de las 3 clases iniciales (en inglés), habrá dos sesiones de laboratorio (en español), en las cuales los estudiantes podrán experimentar con aplicaciones existentes de ASR y SR.

PROGRAMA:

  1. Robust Speech Recognition: Overview & Advancements for Noise, Stress, and Lombard Effect
    • Overview of the state-of-the-art in robust speech recognition
    • Spectral normalization methods
    • Alternative feature methods
    • Normalization/compensation in the feature domain
    • Voice-transformation methods for alternative training paradigms)
  2. Speaker Recognition: Overcoming Speaker Variability and Train/Test Mismatch
    • Recent advancements in speaker recognition.
    • NIST SRE - Speaker Recognition Evaluation program
    • Contributions made by various research labs worldwide
    • Techniques to improve
      1. mismatch compensation using Information Integration Factor Analysis (IIFA)
      2. speaker ID in Whisper and in noise with Lombard Effect
      3. reducing the impact of acoustic holes for train/test data sizes for in-set/out-of-set speaker recognition (i.e., training with 5 sec and testing with 2-8sec of data)
  3. Laboratory sessions, where students will experiment with existing ASR and SR applications.


PROGRAMA EN ESPAÑOL:

  1. Reconocimiento robusto del habla: Avances para condiciones de ruido, stress y efecto Lombard
    • Repaso de técnicas avanzadas de reconocimiento robusto del habla
    • Métodos de normalización espectral
    • Métodos basados en atributos alternativos
    • Normalización/compensación en el dominio de atributos
    • Métodos de transformación de la voz para paradigmas alternativos de entrenamiento
  2. Reconocimiento del hablante: Superando la variabilidad de hablantes y el mismatch entrenamiento/validación
    • Recientes avances de reconocimiento del hablante
    • Programa NIST-SRT y contribuciones hechas por varios investigadores y laboratorios de todo el mundo
    • Técnicas para mejorar:
      1. la compensación por mismatch usando IIFA
      2. la identificación del hablante en habla susurrada y en condiciones de ruido con efecto Lombard
      3. reducir el impacto de hoyos acústicos para reconocimiento del hablante de tipo in-set/out-of-set (ej: entrenamiento con 5 segundos y testing con 2-8 seg de datos)
  3. Sesiones de laboratorio, en las cuales los estudiantes podrán experimentar con aplicaciones existentes de ASR y SR