Source Separation and Restoration of Drum Sounds in Music Recordings

Language
en
Document Type
Doctoral Thesis
Issue Date
2018-06-18
Issue Year
2018
Authors
Dittmar, Christian
Editor
Abstract

In the fields of signal processing and music information retrieval (MIR), the task of decomposing a music recording into musically meaningful sound sources is referred to as source separation. As an example, a funk instrumental may consist of drums, bass, and saxophone playing together. Given this mixture, the goal is to recover the individual instruments' sounds|as if they had been recorded in isolation. In this thesis, we focus on separating and restoring drum sounds from music recordings. Drums typically emphasize and shape the rhythm, and often define the musical style. In contrast to melodic instruments, drums mainly produce percussive and inharmonic sounds that may overlap considerably in time and frequency. The challenge is to extract perceptually convincing source signals without introducing audible artifacts. We systematically approach this research problem in three parts of the thesis, each with a different perspective. The first part is about automatic drum transcription (ADT), i. e., the detection and classification of drum sound events in music recordings. Based on a literature review, we give a comprehensive account of prior work on this topic. We then select two families of state-of-the-art ADT algorithms based on Non-Negative Matrix Factorization (NMF) and Recurrent Neural Networks (RNN), and compare their performance in a controlled experimental setting. In the second part of this thesis, we focus on drum sound separation. Aiming for a better understanding of the capabilities and limitations of NMF, we investigate how to embed side information and how to exploit drum-specific properties. As one main contribution, we introduce suitable constraints that help steer iterative NMF methods towards a meaningful solution. Furthermore, to improve the perceptual quality of the separated drum sounds, we propose dictionary-based restoration schemes for repairing cross-talk artifacts. Finally, we investigate signal reconstruction methods and develop a transient restoration technique that is suited to sharpen the attack region of drum sounds. In the third part, we consider an application of automated methods to interdisciplinary microtiming research, particularly swing ratio estimation in jazz performances. Throughout this thesis, we apply our decomposition and restoration approaches to music analysis and editing tasks. By exploring novel algorithmic approaches for drum sound separation within concrete application scenarios, this thesis contributes to fundamental research of theoretical and practical relevance.

Abstract

Der Begriff der Quellentrennung steht in den Bereichen der Signalverarbeitung und des Music Information Retrieval (MIR) für die Zerlegung von Musiksignalen in ihre Klangbestandteile. Wenn beispielsweise in der Aufnahme einer Funk-Band Schlagzeug, Bass und Saxophon gemeinsam spielen, wäre das Ziel, die einzelnen Instrumentenklänge so aus der Mischung zu rekonstruieren, als ob diese einzeln aufgenommen wurden. Die vorliegende Arbeit befasst sich mit der Quellentrennung und Restauration von Schlagzeugklängen. In vielen Musikstilen wird der Rhythmus durch Schlaginstrumente vorgegeben. Im Gegensatz zu Melodieinstrumenten erzeugen diese vorwiegend perkussive und inharmonische Klänge, die zeitlich und spektral große Überlappungen aufweisen können. Die Herausforderung besteht darin, perzeptuell hochwertige Teilsignale ohne hörbare Artefakte zu extrahieren. In der vorliegenden Arbeit nähern wir uns dieser Aufgabe in drei Teilen, in denen wir systematisch verschiedende Aspekte bearbeiten. Der erste Teil befasst sich mit der automatisierten Transkription von Schlagzeuginstrumenten in Musikaufnahmen (ADT). Auf Basis einer umfangreichen Literaturrecherche geben wir zunächst einen kompakten Überblick über den Forschungsstand zu diesem Thema. Anschließend vergleichen wir in einem kontrollierten Experiment die Leistungsfähigkeit von aktuellen ADT-Ansätzen die auf Nicht-Negativer Matrixfaktorisierung (NMF) und rekurrenten neuronalen Netzen (RNN) basieren. Im zweiten Teil konzentrieren wir uns auf die Quellentrennung von Schlagzeugklängen. Als ersten Beitrag zeigen wir auf, wie das Wissen um Schlagzeugeigenschaften genutzt werden kann, um iterative NMF-Algorithmen in Richtung einer musikalisch sinnvollen Lösung zu beeinflußen. Weiter schlagen wir Restaurationsmethoden zur Reduzierung von Übersprechen in den extrahierten Klangkomponenten vor. Schließlich untersuchen wir Vefahren zur Signalrekonstruktion und entwickeln einen Ansatz für die Restauration des transienten Einschwingverhaltens von Schlaginstrumenten. Im dritten Teil leisten wir einen interdisziplinären Beitrag zur computergestützten Erforschung von Microtiming im Jazz, mit besonderem Augenmerk auf Swing Ratio-Schätzung. Durch die Erforschung neuartiger Algorithmen in konkreten Anwendungsszenarion liefert diese Arbeit grundlegende Forschungsbeiträge von sowohl theoretischer als auch praktischer Relevanz.

DOI
Faculties & Collections
Zugehörige ORCIDs