Tecnologia da fala e métodos multimodais

Vigência: 01/04/2010 - 30/09/2012

Financiador: Fapesp

 

Este plano de pesquisa compõe-se de temas relacionados com análise de voz, codificação de voz, reconhecimento de voz, identificação de locutor e identificação multibiométrica de pessoas. A análise de voz, além de seu interesse específico, propicia as representações do sinal e dos parâmetros necessárias aos outros temas. Novas formas de análise autorregressiva serão exploradas para a codificação da envoltória espectral de curto prazo do sinal de voz de faixa larga, principalmente, com o auxílio de técnicas de quantização vetorial e de modelos de misturas de gaussianas. Estas novas formas de análise também podem se desdobrar para auxiliar na representação do sinal de excitação de voz, que será principalmente representado através dos espectros de modulação de componentes de bancos de filtros. Várias dessas representações paramétricas também serão aplicadas à identificação do locutor, auxiliada pelo reconhecimento de sua própria voz eventualmente. O reconhecimento do locutor também será combinado através de fusão com as identificações do sujeito obtidas através de outros sinais adquiridos por microfones, estetoscópios e câmaras fotográficas para luz visível e infravermelho longo. Estes outros sinais devem ser classificados através da quantização vetorial e de redes neurais.

Equipe

  • Miguel Arjona Ramírez - Coordenador
  • Mário Minami
  • Dante Coaquira Begazo
  • Liselene de Abreu Borges
  • Rodolfo Vertamatti
  • Rafael Iriya

Instituições:

  • Universidade de São Paulo