Using Contextual Information to Process Out-of-Vocabulary Words in Spoken Dialog Systems

Language
en
Document Type
Doctoral Thesis
Issue Date
2022-10-24
Issue Year
2022
Authors
Horndasch, Axel
Editor
Abstract

Speech is a very efficient channel for communication, but it is a challenge to cope with words which are unknown to one of the dialogue partners. Human beings are very good at dealing with words that are not in their vocabulary, for example by exploiting the context the unknown word appears in. In this way, the word can be categorized and, based on this information and the pronunciation, the spelling can be worked out as well.

A key source for task-relevant out-of-vocabulary (OOV) words are named entities like names of cities, persons, companies, products etc. in case they are rarely used or newly invented. In a sentence like “Please give me information about the Argentinian soccer player Jorge Burruchaga!” for example, Mr. Burruchaga’s name is the most important piece of information. Automatic speech recognition (ASR) systems usually map words which were not part of the training material to similar sounding words without considering the word class; often, the consequence of such recognition errors is that the human-machine dialogue cannot be finished successfully.

In this work, it is described how an automatic speech recognition (ASR) system can be enhanced with a functionality that closely resembles the human method so that OOV words can be detected, categorized and recovered in a written form. The suggested approach, hierarchical hybrid word-class-based OOV detection in combination with sub-word units, is integrated into the widely used Kaldi speech recognition toolkit. Experiments on the speech corpora EVAR and SmartWeb show that more than 70% of unknown city names and about 50% of OOV celebrity names can be detected while at the same time improving the word error rate of the system.

Abstract

Sprache ist ein sehr effizienter Kommunikationskanal, allerdings stellen Wörter, die einem der Gesprächspartner unbekannt sind, eine Herausforderung dar. Menschen sind sehr gut darin, mit Wörtern umzugehen, die nicht in ihrem Wortschatz enthalten sind, z.B. indem sie den Kontext ausnutzen, in dem ein unbekanntes Wort auftaucht. Auf diese Weise können sie das Wort kategorisieren und, zusammen mit der akustischen Information, dessen Schreibweise ermitteln.

Namen von Städten, Personen, Unternehmen, Produkten etc., die im Englischen als Named Entities bezeichnet werden, sind oftmals nicht im Vokabular eines Sprechers enthalten, wenn die Namen selten verwendet oder neu erfunden werden; allerdings beeinflussen sie maßgeblich den Verlauf eines Gesprächs. In dem Satz “Bitte geben Sie mir Informationen über den argentinischen Fußballspieler Jorge Burruchaga!” beispielsweise ist der Name von Herrn Burruchaga die wichtigste Information. Automatische Spracherkennungssysteme bilden Wörter, die nicht Teil des Trainingsmaterials waren, meistens auf ähnlich klingende Wörter ab ohne die Wortkategorie zu beachten; solche Erkennungsfehler haben häufig zur Folge, dass der Mensch-Maschine-Dialog nicht erfolgreich abgeschlossen werden kann.

In dieser Arbeit wird beschrieben, wie ein automatisches Spracherkennungssystem um eine Funktionalität erweitert werden kann, die der menschlichen Methode im Umgang mit unbekannten Wörtern – im Englischen als out-of-vocabulary words bzw. OOVs bezeichnet – sehr ähnlich ist. Das System kann durch die Erweiterung OOVs erkennen, kategorisieren und eine geschriebene Form für das jeweilige Wort ausgeben. Der vorgeschlagene Ansatz, die hierarchische, hybride wortklassenbasierte OOV-Erkennung in Kombination mit Wortuntereinheiten, wurde in das in der Wissenschaft oft eingesetzte Spracherkennungssystem Kaldi integriert. Experimente mit den Sprachkorpora EVAR und SmartWeb zeigen, dass mehr als mehr als 70% der unbekannten Städtenamen und etwa 50% der unbekannten Namen von Prominenten gefunden werden, gleichzeitig wird die Wortfehlerrate des Systems verbessert.

DOI
Faculties & Collections
Zugehörige ORCIDs