Universität des Saarlandes

Spoken Language Systems

   
 

Distant Speech Recognition

Geeignet für Hörer der Studiengänge: CoLi, CuK, Mechatronics, VC, CS

Dozent: Dr. John McDonough, Dr. Arnab Ghoshal

Veranstaltungsort: Geb. C7 1, Zi. U 15 

Zeit: Montag um 16:00 Uhr

Vorlesungsbeginn: Dienstag, 20.10.2009 

Übungen: Donnerstag um 16:00 Uhr

Inhalt der Veranstaltung
Da die maschinelle Spracherkennung sich inzwischen aus den Forschungslabors in die Wohnzimmer, Autos und Büros entwickelt hat, wird es immer wichtiger, die potentiellen Benutzer von der Notwendigkeit der Benutzung von Nahbesprechungs-Mikrophonen zu befreien. Die möglichen Anwendungen für diese Technik liegen in den Bereichen Command-and-Control von Computern in Häusern und Büros, Fernsteuerung von Geräten (z.B. Radios und Navigationssysteme) in Autos, Interaktionen mit humanoiden Robotern, und Sprach-zu-Sprach-Übersetzung. Anordnungen mehrerer Mikrophone (Microphone-Arrays) in mittlerer und weiter Entfernung bieten eine mögliche Lösung für dieses Problem, allerdings eine Lösung, die noch viel Forschungs- und Entwicklungsaufwand bis zur Reife benötigt. In dieser Vorlesung werden die klassischen Verfahren des Array Processings und Beamformings eingeführt, und aufgezeigt, wie viele davon, die ursprünglich für ganz andere Bereiche wie Seismologie, Sonare und Weltraum-beobachtung entwickelt wurden, für Probleme auf dem Gebiet der Spracherkennung angepasst werden können. Neuere Arbeiten, in denen Beamforming und Spracherkennung integriert werden, werden auch vorgestellt. Um die optimale Leistung liefern zu können, braucht ein Beamforming-Algorithmus Unterstützung anderer Technologien, vor allem Sprecherlokalisierung, die die genaue Position eines Sprechers in einem Raum bestimmen kann. Deswegen werden solche Methoden auch bei der Vorlesung abgedeckt werden. Die Vorlesung ist als Ausgangspunkt für weitere Studien und Forschungen auf diesem Gebiet gedacht.

Lectures:
2009.10.20: Statistics in Distant Speech Recognition [pdf]
2009.10.26: Review of Digital Signal Processing [pdf]
2009.10.29: Digital Filter Banks [pdf]
2009.11.12: Prototype Design for Digital Filter Banks [pdf]
2009.11.16: Stochastic Signals and Systems [pdf]
2009.11.23: Kalman Filters I [pdf]
2009.11.30: Kalman Filters II (see handout and class notes).
2009.12.07: Speaker Tracking [pdf]
2009.12.10: Mid-Term Review [pdf]
2009.12.14: Mid-Term Presentation (see Problem Set 5).
2010.01.04: Sound Propagation and Array Geometry [pdf]
2010.01.11: Conventional Beamforming Algorithms [pdf]
2010.01.18: RLS Estimation/Generalized Sidelobe Canceller [pdf]
2010.01.21: Nonconventional Beamforming Algorithms [pdf]
2010.01.25: Weighted Finite-State Transducers in Automatic Speech Recognition [pdf]
2010.02.01: Search and Word Lattices [pdf]
2010.02.04: Final Review [pdf]

Handouts


Complex Analysis
Digital Signal Processing
Digital Filter Banks
z-Transform
Bayesian Filters
Speaker Tracking
Beamforming
Search and Weighted-Finite State Transducers


Problem Sets


2009.10.29: Problem Set 1: Complex Analysis [pdf]
2009.11.12: Problem Set 2: Digital Filter Banks [pdf]
2009.11.19: Problem Set 3: Stochastic Signals and Systems [pdf]
2009.11.26: Problem Set 4: Kalman Filters [pdf]
2009.12.14: Problem Set 5: Mid-Term [pdf]
2010.01.21: Problem Set 6: Beamforming [pdf]
2010.02.08: Problem Set 7: Final Exam [pdf]
Beispiellösungen zu den Übungen werden bei den Vorlesungen bzw. Übungen ausgegeben.


Solution Sets


2009.10.29: Solution Set 1: Complex Analysis [pdf] [maple session]
2009.11.05: Solution Set 2: Digital Filter Banks [pdf]
2009.11.19: Solution Set 3: Stochastic Signals and Systems [pdf]
2009.11.26: Solution Set 4: Kalman Filters [pdf]
2009.12.14: Solution Set 5: Mid-Term Examination [pdf]
2010.01.21: Solution Set 6: Beamforming and Diagonal Loading [pdf]
[matlab]
2010.02.08: Solution Set 7: Final Examination [pdf]
[matlab]


Prüfung

Wird noch bekanntgegeben.


Empfohlene Literatur
M. Wölfel, J. McDonough (2009)
Distant Speech Recognition
Wiley
ISBN: 978-0-470-51704-8
[Distant Speech Recognition Homepage]

H. L. Van Trees (2002)
Optimum Array Processing
Wiley
ISBN: 0-471-09390-4

J. G. Proakis, D. G. Manolakis (2007)
Digital Signal Processing, 4th ed.
Prentice Hall
ISBN: 0-13-187374-1

P. P. Vaidyanathan (1993)
Multirate Systems and Filter Banks
Prentice Hall
ISBN: 0-13-605718-7

R. V. Churchill, J. W. Brown (1990)
Complex Variables and Applications, 5th ed.
McGraw Hill
ISBN: 0-07-010905-2

S. Haykin (2002)
Adaptive Filter Theory, 4th ed.
Prentice Hall
ISBN: 0-13-090126-1

Kontakt
Bei Fragen und Problemen wenden Sie sich bitte an John McDonough or Arnab Ghoshal.