Machine learning techniques applied to chemotaxonomy and ligand-based virtual screening

Language
en
Document Type
Doctoral Thesis
Issue Date
2007-10-19
Issue Year
2007
Authors
Hristozov, Dimitar Panayotov
Editor
Abstract

This work demonstrated the applicability of different machine learning techniques for extracting knowledge from chemical databases of different size. Two different fields – chemotaxonomy and ligand-based virtual screening were studied. The former demonstrated how a relatively small chemical data set can be coupled with different machine learning techniques in a way, which allows us to better our understanding of the relationships between plants’ secondary metabolism and their taxonomic classification. The ligand-based virtual screening demonstrated how the large amount of chemical data stored across different large chemical databases can be used in a knowledge-driven way for the discovery of new potential drugs. Chapter 2 presented the application of different classification techniques to the assignment of sesquiterpene lactones – important secondary metabolites in the plant family Asteraceae – to the Asteraceae tribe from which they have been isolated. The performance of different machine learning techniques was investigated. Good agreement with the taxonomic division proposed by Bremer was obtained. In addition, the problem of the applicability domain of the built models was investigated and some practical guidance was given. Chapter 3 extended the study presented in Chapter 2. The simultaneous occurrence of secondary metabolites in different taxa was taken into account. A machine learning area, known as multi-labeled classification, was introduced in an attempt to model the reality as closely as possible. With this approach interesting relationships between the studied Asteraceae tribes were discovered. In addition, the practical application of the built classification models to targeted collection of plants with the aim of finding natural products with desired properties was shown. Chapter 4 demonstrated how machine learning techniques can help in the navigation of large chemical spaces. A new approach to ligand-based similarity searching based on a machine learning technique known as novelty detection was described. Its applicability for the knowledge-driven selection of chemical compounds with potential biological activity has been demonstrated comparative to the most common ligand-based virtual screening approach – similarity searching. Chapter 5 extended the work described in Chapter 4 to more concrete practical scenarios. Four such scenarios: prioritizing compounds for a subsequent high-throughput screening experiment; selecting compounds for a subsequent lead-optimization, assessing the probability that a given structure will exhibit a particular biological activity, and the identification of the most active structure were examined. The applicability of different ligand-based virtual screening methods and chemical structure representations in each scenario was tested. Different measures for the success of the virtual screening experiment in each scenario were presented and discussed. The optimal size of the training set, the difference in the chemical spaces covered by two large databases of biologically active compounds, the bias introduced by the training set selection, the differences in the compounds recovered by different methods or/and descriptors were discussed and the best method-descriptor combination was identified for each scenario. The findings of this work can be used as guidance for future studies, including investigations in both chemotaxonomy and ligand-based virtual screening, as well as in other chemistry related areas. Concerning chemotaxonomy, a comparative study using the existing different taxonomic divisions of Asteraceae will no doubt discover new interesting relationships between Asteraceae plant species. With regards to ligand-based virtual screening the investigation of other novelty detection techniques and a study, which accounts for the conformational flexibility of the ligands, will be valuable. On the other hand, the definition of the applicability domain of a machine learning model, discussed in Chapter 2, is of benefit for any machine learning method which is used with predictive purposes. The multi-labeled classification, presented in Chapter 3, may benefit other chemoinformatics fields – like, for example, predicting multi-target drugs. The novelty detection technique presented and discussed in Chapter 4 and Chapter 5 offers an alternative for any case where information about only one of the possible states of a given (chemical) system is known. As such, it may help in discovering knowledge from data in various situations where the classic classification algorithms are not applicable. The studies presented in this work have shown the applicability of machine learning techniques to different chemistry related problems. We have demonstrated how, with the help of different machine learning techniques, knowledge can be gathered from both small and large chemical databases. This knowledge is of great value in the modern, data-rich world.

Abstract

Die hier vorliegende Arbeit zeigt die Eignung unterschiedlicher Techniken maschinellen Lernens zur Extraktion von Wissen aus chemischen Datenbanken verschiedener Größe. Zwei unterschiedliche Gebiete – Chemotaxonomie und ligand-basiertes virtuelles Screening wurden hierfür untersucht. Ersteres zeigt, wie ein verhältnismäßig kleiner chemischer Datensatz in Kombination mit unterschiedlichen Techniken des maschinellen Lernens dazu verwendet werden kann unser Verständnis über die Zusammenhänge des sekundären Metabolismus von Pflanzen und ihrer taxonomischen Klassifikation zu verbessern. Ligandbasiertes virtuelles Screening zeigt, wie umfangreiche Mengen chemischer Daten, die über verschiedene große, chemische Datenbanken verteilt sind mit einem wissensbasierten Ansatz zur Entdeckung neuer potentieller Medikamente genutzt werden können. Kapitel 2 demonstriert die Anwendung unterschiedlicher Klassifikationstechniken bei der Zuordnung von Sesquiterpenlaktonen – wichtige sekundäre Metabolite in der Pflanzenfamilie Asteraceae – zu dem Stamm der Asteraceae aus dem sie isoliert wurden. Die Effizienz verschiedener Klassifikationstechniken wurde untersucht. Hierbei konnte eine gute Übereinstimmung mit der von Bremer vorgeschlagenen taxonomischen Einteilung erreicht werden. Darüber hinaus wurden die Anwendungsbereiche der erstellten Modelle untersucht und es konnten einige praktische Anwendungshinweise gegeben werden. Kapitel 3 erweitert die in Kapitel 2 präsentierte Studie. Die gleichzeitige Anwesenheit sekundärer Metabolite in unterschiedlichen Taxa wurde berücksichtigt. Multi-labeled Klassifizierung wurde eingesetzt um die Realität so gut wie möglich zu reproduzieren. Mit diesem Ansatz konnten interessante Zusammenhängen zwischen den unterschiedlichen untersuchten Asteraceae Stämmen erkannt werden. Darüber hinaus wurde die praktische Anwendung des erstellten Klassifizierungsmodells anhand von gezielten Pflanzensammlungen gezeigt. Kapitel 4 zeigt wie die Techniken des maschinellen Lernens dazu genutzt werden können um sich in großen, chemischen Räumen zu orientieren. Ein neuer Ansatz zur ligand-basierten Ähnlichkeitssuche, der auf einer Technik des maschinellen Lernens beruht die auch unter dem Namen Neuheitserkennung (novelty detection) bekannt ist wurde erprobt. Die Leistungsfähigkeit der Neuheitserkennung zur wissensbasierten Suche chemischer Verbindungen mit potentieller biologischer Aktivität zeigte sich in einer vergleichende Studie mit der am häufigsten zum ligand-basierten virtuellen Screening eingesetzten Methode – der Ähnlichkeitssuche. In Kapitel 5 wurden vier Szenarien untersucht: Die Priorisierung chemischer Verbindungen für ein nachfolgendes Hochdurchsatz Screening, die Auswahl chemischer Verbindungen für eine nachfolgende Leitstrukturoptimierung, die Abschätzung der Wahrscheinlichkeit inwieweit eine chemischer Verbindung eine bestimmte biologische Aktivität zeigt und die Identifizierung derjenigen chemischen Verbindung die die größte Aktivität zeigt wurden hierbei untersucht. Des Weiteren wurde die Eignung unterschiedlicher ligand-basierter Methoden des virtuellen Screenings und verschiedener, chemischer Strukturrepräsentationen für jedes der vier Szenarien überprüft. Unterschiedliche Kriterien zur Bewertung der Güte des durchgeführten virtuellen Screening Experiments wurden untersucht und diskutiert. Die optimale Größe des Trainingsdatensatzes, die unterschiedliche Abdeckung des chemischen Raums zweier großer Datenbanken für biologisch aktive Verbindungen, der systematische Fehler hervorgerufen durch die Auswahl der Trainingsdatensatzes, die Unterschiede der chemischen Verbindungen die mit den verschiedenen Verfahren und/oder Deskriptoren gefunden werden konnten wurden diskutiert. Die Erkenntnisse, die in dieser Arbeit gewonnen wurden, können als Leitfaden für weitere Studien, sowohl für Untersuchungen auf dem Gebiet der Chemotaxonomie und des ligandbasierten virtuellen Screenings. Auf dem Gebiet der Chemotaxonomie beispielsweise, könnte eine vergleichende Studie auf Basis der bestehenden taxonomischen Einteilung der Pflanzenfamilie der Asteraceae neue Erkenntnisse über das wechselseitige Verhältnis zwischen den einzelnen Asteraceae Spezies ans Licht bringen. Basierend auf dem ligand-basierten virtuellen Screening wäre eine Studie interessant, die mit weiteren Techniken der Neuheitserkennung den Einfluss der konformativen Flexibilität des Liganden untersucht. Die in dieser Arbeit präsentierten Studien zeigen die Anwendbarkeit von Techniken des maschinellen Lernens anhand verschiedener Problemkreise aus dem Gebiet der Chemie. Unter Verwendung unterschiedlicher Techniken des maschinellen Lernens konnte gezeigt werden, wie Wissen aus kleinen sowie großen chemischen Datenbanken extrahiert werden kann. Dieses Wissen ist in unserer modernen und an Informationen reichen Welt von großem Wert.

Citation
J. Chem. Inf. Model., 2007, 47, 1, 9-19, J. Chem. Inf. Model., 2007, published online
DOI
Document's Licence
Faculties & Collections
Zugehörige ORCIDs