Distant Speech Recognition
Geeignet für Hörer der Studiengänge: CoLi, CuK, Mechatronics, VC, CS
Dozent: Dr. John McDonough, Dr. Arnab Ghoshal
Veranstaltungsort: Geb. C7 1, Zi. U 15
Zeit: Montag um 16:00 Uhr
Vorlesungsbeginn: Dienstag, 20.10.2009
Übungen: Donnerstag um 16:00 Uhr
Inhalt der Veranstaltung
Da die maschinelle Spracherkennung sich inzwischen aus den
Forschungslabors in die Wohnzimmer, Autos und Büros entwickelt
hat, wird es immer wichtiger, die potentiellen Benutzer von der
Notwendigkeit der Benutzung von Nahbesprechungs-Mikrophonen zu
befreien. Die möglichen Anwendungen für diese Technik
liegen in den Bereichen Command-and-Control von Computern in
Häusern und Büros, Fernsteuerung von Geräten
(z.B. Radios und Navigationssysteme) in Autos, Interaktionen mit
humanoiden Robotern, und Sprach-zu-Sprach-Übersetzung.
Anordnungen mehrerer Mikrophone (Microphone-Arrays) in mittlerer und
weiter Entfernung bieten eine mögliche Lösung für
dieses Problem, allerdings eine Lösung, die noch viel
Forschungs- und Entwicklungsaufwand bis zur Reife benötigt. In
dieser Vorlesung werden die klassischen Verfahren des Array
Processings und Beamformings eingeführt, und aufgezeigt, wie
viele davon, die ursprünglich für ganz andere Bereiche wie
Seismologie, Sonare und Weltraum-beobachtung entwickelt wurden,
für Probleme auf dem Gebiet der Spracherkennung angepasst
werden können. Neuere Arbeiten, in denen Beamforming und
Spracherkennung integriert werden, werden auch vorgestellt. Um die
optimale Leistung liefern zu können, braucht ein
Beamforming-Algorithmus Unterstützung anderer Technologien, vor
allem Sprecherlokalisierung, die die genaue Position eines Sprechers
in einem Raum bestimmen kann. Deswegen werden solche Methoden auch
bei der Vorlesung abgedeckt werden. Die Vorlesung ist als
Ausgangspunkt für weitere Studien und Forschungen auf diesem
Gebiet gedacht.
Lectures:
2009.10.20: Statistics in Distant Speech Recognition [pdf]
2009.10.26: Review of Digital Signal Processing [pdf]
2009.10.29: Digital Filter Banks [pdf]
2009.11.12: Prototype Design for Digital Filter Banks [pdf]
2009.11.16: Stochastic Signals and Systems [pdf]
2009.11.23: Kalman Filters I [pdf]
2009.11.30: Kalman Filters II (see handout and class notes).
2009.12.07: Speaker Tracking [pdf]
2009.12.10: Mid-Term Review [pdf]
2009.12.14: Mid-Term Presentation (see Problem Set 5).
2010.01.04: Sound Propagation and Array Geometry [pdf]
2010.01.11: Conventional Beamforming Algorithms [pdf]
2010.01.18: RLS Estimation/Generalized Sidelobe Canceller [pdf]
2010.01.21: Nonconventional Beamforming Algorithms [pdf]
2010.01.25: Weighted Finite-State Transducers in Automatic Speech Recognition [pdf]
2010.02.01: Search and Word Lattices [pdf]
2010.02.04: Final Review [pdf]
Handouts
Complex Analysis
Digital Signal Processing
Digital Filter Banks
z-Transform
Bayesian Filters
Speaker Tracking
Beamforming
Search and Weighted-Finite State Transducers
Problem Sets
2009.10.29: Problem Set 1: Complex Analysis [pdf]
2009.11.12: Problem Set 2: Digital Filter Banks [pdf]
2009.11.19: Problem Set 3: Stochastic Signals and Systems [pdf]
2009.11.26: Problem Set 4: Kalman Filters [pdf]
2009.12.14: Problem Set 5: Mid-Term [pdf]
2010.01.21: Problem Set 6: Beamforming [pdf]
2010.02.08: Problem Set 7: Final Exam [pdf]
Beispiellösungen zu den Übungen werden bei den Vorlesungen bzw. Übungen ausgegeben.
Solution Sets
2009.10.29: Solution Set 1: Complex Analysis [pdf]
[maple session]
2009.11.05: Solution Set 2: Digital Filter Banks [pdf]
2009.11.19: Solution Set 3: Stochastic Signals and Systems [pdf]
2009.11.26: Solution Set 4: Kalman Filters [pdf]
2009.12.14: Solution Set 5: Mid-Term Examination [pdf]
2010.01.21: Solution Set 6: Beamforming and Diagonal Loading [pdf] [matlab]
2010.02.08: Solution Set 7: Final Examination [pdf] [matlab]
Prüfung
Wird noch bekanntgegeben.
Empfohlene Literatur
M. Wölfel, J. McDonough (2009) Distant Speech Recognition Wiley ISBN: 978-0-470-51704-8
[Distant Speech Recognition Homepage]
H. L. Van Trees (2002) Optimum Array Processing Wiley ISBN: 0-471-09390-4
J. G. Proakis, D. G. Manolakis (2007) Digital Signal Processing, 4th ed. Prentice Hall ISBN: 0-13-187374-1
P. P. Vaidyanathan (1993) Multirate Systems and Filter Banks Prentice Hall ISBN: 0-13-605718-7
R. V. Churchill, J. W. Brown (1990) Complex Variables and Applications, 5th ed. McGraw Hill ISBN: 0-07-010905-2
S. Haykin (2002) Adaptive Filter Theory, 4th ed. Prentice Hall ISBN: 0-13-090126-1
Kontakt
Bei Fragen und Problemen wenden Sie sich bitte an John McDonough or Arnab Ghoshal.
|