Mask-based Black-box Attacks on Safety-Critical Systems that Use Machine Learning

Language
en
Document Type
Doctoral Thesis
Issue Date
2021-08-02
Issue Year
2021
Authors
Auernhammer, Katja
Editor
Abstract

Machine learning, also known as artificial intelligence, has become a much-researched topic in recent years. Many everyday life applications in a wide variety of fields make use of these powerful self-learning systems. Among such applications are safety-critical software systems, such as autonomous driving systems. However, like any computer system, machine learning systems are not safe from attacks by organizations with malicious intentions.

To analyze how dangerous attacks are to safety-critical systems, we estimate the threat that attacks pose to the systems that contain machine learning and humans, such as road users, if the systems are not secured against attacks. We evaluate attacks on machine learning systems and subsystems in autonomous vehicles and combine both evaluations to assess the actual danger that attacks pose to autonomous vehicles. We find that many attacks are already mitigated by the distributed nature of embedded systems and security measures in place as of today. The greatest threat is posed by attacks that require access to only the inputs and outputs of the machine learning system. These include adversarial example attacks that manipulate inputs to provoke false outputs.

We also conduct interviews with industry experts to analyze how machine learning systems are currently developed in practice and identify areas for potential and need for improvement. As a result of this analysis, we set up a list of requirements that can help create more secure machine learning systems.

Machine learning systems are sensitive to small changes in the input data. For example, when images are slightly manipulated in a specific way they are misclassified even though they were classified correctly before the manipulations were applied. These altered images are called adversarial examples and pose a serious threat. This work deals with this form of attack in more detail and analyzes how the computation of manipulated images can be sped up with the help of masks. We propose an algorithm that selects random pixels in the mask, manipulates them and merges the changes that have the biggest influence on the output of the machine learning system regarding the attackers' goal to create the adversarial example. We run several experiments using different types and sizes of masks and find that masks can indeed have a positive impact on the effectiveness and efficiency of the attack. In addition, it may be possible to add masks to existing adversarial example attack algorithms, which also improves them. We show this by running experiments using other attack algorithms. We also discuss prerequisites under which an improvement of attack algorithms by using masks is possible.

We combine the various small perturbations that turn images into adversarial examples into a universal adversarial perturbation. This is a special modification that does not cause misclassification for only one image, as is the case with adversarial examples but causes misclassification of multiple images. Our experiments show that the universal adversarial perturbations we compute cause misclassification for a large number of images, but the changes in the images need to be very strong, making them easy for a human to detect. Therefore, universal adversarial perturbations need to be obscured differently. For that we use masks, for example, to perturb only the border of the image. These manipulations could be seen as a decorative element. We also see that it is difficult to compute universal adversarial perturbations that cause misclassification for 100% of the images in a dataset.

Abstract

Machine Learning, auch bekannt als künstliche Intelligenz, wurde in den letzten Jahren zu einem viel erforschten Thema. Viele Anwendungen des alltäglichen Lebens in den unterschiedlichsten Bereichen nutzen die mächtigen selbstlernenden Systeme. Unter diesen Anwendungen befinden sich auch sicherheitskritische Softwaresysteme, wie beispielsweise Systeme des autonomen Fahrens. Wie jedes Computersystem, sind jedoch auch Machine Learning Systeme nicht sicher vor Angriffen durch Organisationen mit bösen Absichten.

Um zu sehen, welche Angriffe gefährlich werden können, schätzen wir in dieser Arbeit unter anderem ab, wie hoch die Gefahr ist, die Angriffe für Systeme mit Machine Learning und vor allem die Menschen (bspw. Verkehrsteilnehmer), die von diesen Systemen abhängig sind, darstellen. Vor allem dann, wenn diese Systeme nicht gegen Angriffe abgesichert werden. Wir bewerten die Angriffe auf Machine Learning Systeme und Subsysteme in autonomen Fahrzeugen und kombinieren beide Bewertungen, um die tatsächliche Gefahr, welche Angriffe auf autonome Fahrzeuge darstellen, zu beurteilen. Wir finden heraus, dass viele Angriffe bereits durch das verteilte Embedded System und bereits vorhandene Sicherheitsvorkehrungen erschwert werden. Die größte Gefahr geht von Angriffen aus, die nur Zugriff auf Ein- und Ausgaben des Machine Learning Systems benötigen. Dazu gehören unter anderem Adversarial Example Angriffe, welche die Eingaben manipulieren, um falsche Ausgaben zu provozieren.

Wir führen außerdem Interviews mit Experten aus der Industrie, um zu analysieren, wie Machine Learning Systeme derzeit in der Praxis entwickelt werden und wo es Verbesserungsbedarf und -potential gibt. Als Ergebnis dieser Analyse stellen wir Anforderungen auf, die helfen können, sicherere Machine Learning Systeme zu erstellen.

Machine Learning Systeme reagieren empfindlich auf leichte Veränderungen in den Eingabedaten. Wenn beispielsweise kleine Änderungen an Bildern vorgenommen werden, werden diese falsch erkannt, obwohl sie ursprünglich richtig erkannt wurden. Diese veränderten Bilder werden Adversarial Examples genannt und stellen eine ernstzunehmende Gefahr dar. Diese Arbeit beschäftigt sich genauer mit dieser Form des Angriffs und analysiert, wie die Generierung der Angriffe mit Hilfe von Masken beschleunigt werden kann. Der Algorithmus wählt dabei zufällige Pixel in der Maske aus, manipuliert sie und übernimmt die Veränderungen, die die Ausgabe des Machine Learning Systems am stärksten beeinflussen, in das Adversarial Example. Wir führen mehrer Experimente mit unterschiedlichen Maskentypen und -größen durch und finden heraus, dass sich Masken durchaus positiv auf die Effektivität und Effizienz des Angriffs auswirken können. Zudem wäre es möglich, bereits existierende Adversarial Example Angriffsalgorithmen um Masken zu ergänzen, was diese ebenfalls verbessert. Wir zeigen dies anhand von Beispielen und analysieren, unter welchem Voraussetzungen eine Verbesserung des Angriffsalgorithmus erreicht werden kann.

Wir kombinieren die unterschiedlichen kleinen Veränderungen, die aus Bildern Adversarial Examples machen, zu einer Universal Adversarial Perturbation. Diese ist eine besondere Veränderung, welche nicht nur bei einem Bild für eine fehlerhafte Erkennung sorgt, wie es bei den Adversarial Examples der Fall ist, sondern zur fehlerhaften Erkennung einer hohen Anzahl von Bildern führt. Unsere Experimente zeigen, dass die von uns berechneten Universal Adversarial Perturbations bei einer hohen Anzahl an Bildern zu einer Fehlklassifizierung führen, jedoch sind die vorzunehmenden Veränderungen in den Bildern sehr stark, wodurch sie für einen Menschen leicht zu erkennen sind. Daher müssen Universal Adversarial Perturbations anders versteckt werden. Wir setzen daher Masken so ein, dass beispielsweise nur der Rand des Bildes verändert wird. Diese Manipulationen könnten als dekoratives Element gesehen werden. Wir sehen auch, dass es schwierig ist, Universal Adversarial Perturbations zu berechnen, welche bei 100% der Bilder in einem Datenset zu einer Fehlklassifizierung führen.

DOI
Faculties & Collections
Zugehörige ORCIDs