Dereverberation and Robust Speech Recognition Using Spatial Coherence Models

Language
en
Document Type
Doctoral Thesis
Issue Date
2019-12-16
Issue Year
2019
Authors
Schwarz, Andreas
Editor
Abstract

One of the challenges for far-field speech communication and recognition applications is that the acquired speech signal is impacted by reverberation and noise. It is therefore often required to apply signal processing techniques for dereverberation and noise reduction. Particularly effective are techniques which exploit spatial information about the sound field from multichannel microphone signals. One approach for modeling the spatial characteristics of reverberation and noise are spatial coherence functions. These are dependent only on acoustic properties which are relatively similar between different rooms, and require a minimum of assumptions about the acoustic scenario, which provides the motivation for focusing this thesis on signal enhancement approaches exploiting spatial coherence models. As a foundation, the applicability of different spatial coherence models to reverberation, and their dependency on acoustic properties of the room, are investigated. Existing methods for signal enhancement are reviewed, with a focus on spectral enhancement methods which use a short-time coherence estimate to estimate the power ratio between desired coherent and undesired diffuse sound field components. Known spectral enhancement methods are expressed in this framework, and novel estimators are proposed which have both theoretical and practical advantages over existing methods. Based on these estimators, an effective dereverberation system is proposed which can operate without knowledge of the position of the desired source, solely by exploiting the characteristic spatial coherence of reverberation. Furthermore, a more experimental dereverberation system is proposed which additionally accounts for the effect of early signal reflections in the room, showing that this approach can provide promising directions for future research. Finally, the problem of how to effectively use spatial information in an automatic speech recognizer based on a deep neural network acoustic model is investigated. A novel way of exploiting spatial information for reverberation-robust automatic speech recognition is proposed, where a spatial feature vector is extracted from short-time coherence estimates and then supplied as input to the neural network. It is shown that this approach can exceed the improvements that are obtained by the application of signal enhancement methods for dereverberation.

Abstract

Eine der Herausforderungen für Fernfeld-Sprachkommunikations- und Erkennungsanwendungen besteht darin, dass das aufgenommene Sprachsignal durch Nachhall und Rauschen beeinflusst wird. Daher ist es oft erforderlich, Signalverarbeitungstechniken zur Enthallung und Rauschunterdrückung einzusetzen. Besonders effektiv sind Techniken, die räumliche Informationen über das Schallfeld aus mehrkanaligen Mikrofonsignalen nutzen. Ein Ansatz zur Modellierung der räumlichen Eigenschaften von Nachhall und Rauschen sind räumliche Kohärenzfunktionen. Diese sind nur abhängig von akustischen Eigenschaften, welche sich zwischen verschiedenen Räumen relativ ähnlich verhalten, und erfordern dadurch ein Minimum an Annahmen über das akustische Szenario. Daher konzentriert sich diese Arbeit auf Ansätze zur Signalverbesserung, die räumliche Kohärenzmodelle nutzen. Zuerst wird die Anwendbarkeit verschiedener Modelle für die Kohärenz von Nachhall und die Abhängigkeit von den akustischen Eigenschaften eines Raumes untersucht. Bestehende Methoden zur Signalverbesserung werden analysiert. Dabei liegt der Fokus auf spektralen Verbesserungsmethoden, die aus einer Kurzzeitkohärenzschätzung das Leistungsverhältnis zwischen gewünschten kohärenten und unerwünschten diffusen Schallfeldkomponenten schätzen. Bestehende spektrale Verbesserungsmethoden werden in diesem Kontext neu formuliert, und neuartige Schätzverfahren vorgestellt, die sowohl theoretische als auch praktische Vorteile gegenüber vorhandenen Methoden bieten. Basierend auf diesen Schätzverfahren wird ein effektives Enthallungsverfahren präsentiert, das ohne Kenntnis der Position der gewünschten Quelle ausschließlich durch das Ausnutzen der charakteristischen räumlichen Kohärenz von Nachhall arbeitet. Außerdem wird ein experimentelles Enthallungssystem vorgestellt, das zusätzlich die Auswirkungen früher Signalreflexionen im Raum berücksichtigt. Es wird gezeigt, dass dieser Ansatz eine vielversprechende Richtung für zukünftige Forschungen darstellt. Schließlich wird das Problem behandelt, wie man räumliche Informationen in einem automatischen Spracherkenner, der auf einem akustischen Modell eines tiefen neuronalen Netzwerks basiert, effektiv nutzen kann. Es wird ein neuartiger Ansatz zur Ausnutzung räumlicher Informationen für eine nachhallrobuste automatische Spracherkennung vorgestellt, der darin besteht, einen räumlichen Merkmalsvektor aus Kurzzeit-Kohärenzschätzungen zu extrahieren, und diesen als Eingang für das neuronale Netzwerk bereitzustellen. Es wird gezeigt, dass dieser Ansatz zur robusten Spracherkennung die Leistungsfähigkeit von Signalverbesserungsverfahren übertreffen kann.

DOI
Faculties & Collections
Zugehörige ORCIDs