Statistische Modelle und Inferenz der strukturellen Biophysik.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00021148
Ph.D. Thesis, Primary publication, Publisher's Version
Text
(Einige Grafiken und Tabellen sind von der CC-Lizenz ausgenommen)
Dissertation_Michael_Schmidt_v2.pdf Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike. Download (9MB) |
Item Type: | Ph.D. Thesis | ||||
---|---|---|---|---|---|
Type of entry: | Primary publication | ||||
Title: | Statistische Modelle und Inferenz der strukturellen Biophysik | ||||
Language: | German | ||||
Referees: | Hamacher, Prof. Dr. Kay ; Drossel, Prof. Dr. Barbara | ||||
Date: | 2022 | ||||
Place of Publication: | Darmstadt | ||||
Collation: | xiii, 121 Seiten | ||||
Date of oral examination: | 3 November 2021 | ||||
DOI: | 10.26083/tuprints-00021148 | ||||
Abstract: | Mathematische Modelle sind essentielle Werkzeuge für die Strukturanalyse von Biomolekülen und ergänzen Experimente. Dank enorm steigender Datenmengen sind probabilistische Ansätze aus den Bereichen der statistischen Inferenz und des maschinellen Lernens prominenter denn je. In dieser Arbeit betrachten wir drei verwandte biophysikalische Fragestellungen und bearbeiten diese mit der Entwicklung von effizienten Modellen auf Basis der statistischen Mechanik. Der erste Teil betrachtet die sequenzbasierte Vorhersage von Proteinstrukturen. Schnell wachsende Sequenzdatenbanken machten dies seit dem letzten Jahrzehnt zu einer vielversprechenden Alternative im Vergleich zu teuren und oft limitierten experimentellen Methoden. Wir untersuchen die sogenannte Direct-Coupling-Analysis (DCA), welche Kontaktinformationen aus einem multiplen Sequenzalignment (MSA) extrahiert. Dies entspricht einem inversen Potts-Modell aus der statistischen Physik, bei dem Korrelationen in Form von empirischen relativen Häufigkeiten gegeben sind und Parameter des Hamiltonians bestimmt werden müssen. Hierbei werden die Spin-Zustände durch die q verschiedenen Aminosäuretypen repräsentiert. Die exponentielle Zunahme der Terme in der Zustandssumme erfordert geeignete Approximationsmethoden wie beispielsweise die Mean-Field-Inversion. Wir fügen die folgenden Erweiterungen ein, um eine erhöhte Vorhersagegenauigkeit zu erhalten. 1. Die Vorhersagekraft der DCA ist durch die ausschließliche Berücksichtigung von lokalen Feldern und Zweierkopplungen begrenzt, während Wechselwirkungen höherer Ordnung in Proteinen bekanntlich auftreten. Wir erweitern den Hamiltonian um einen Dreierkopplungsterm und leiten analytische Gleichungen innerhalb der Mean-Field-Approximation her. Eine anschließende Auswertung mit einem Benchmark-Datensatz übertrifft ein reines Zweikörper-DCA-Modell. Unsere Implementierung ist hochgradig parallel, was zu schnellen Laufzeiten auf modernen Computern führt. 2. Die DCA-Scores für die Kontaktvorhersage ergeben sich aus den erhaltenen Zweierkopplungen. Dies wird durch eine Transformation einer q × q-Matrix auf einen skalaren Wert erreicht, wobei jedoch potenziell wichtige Informationen verloren gehen. Wir entwickeln ein Schema zur Nutzung aller verfügbaren Kopplungsinformationen. Es beruht auf der Inferenz eines sekundären Potts-Modells mithilfe eines MSAs, das aus den Feldern und Kopplungen der ersten DCA besteht. Ein Benchmark zeigt erneut eine verbesserte Genauigkeit. Der zweite Teil befasst sich mit dem Vergleich von biomolekularen Strukturen. Wir entwickeln den probabilistischen Subgraphisomorphismus SICOR und wenden ihn auf RNA-Sekundärstrukturgraphen an. Die Graphen stammen aus einem sogenannten Systematic-Evolution-of-Ligands-by-Exponential-Enrichment (SELEX)-Experiment, bei dem die Auswahl von RNA-Aptameren auf struktureller Diversität beruht. Wir sind in der Lage, angereicherte SELEX-Iterationen zu identifizieren und übertreffen bestehende State-of-the-Art-Methoden. Darüber hinaus erlaubt SICORs allgemeines Design den Vergleich beliebiger Graphen und garantiert somit eine breite Anwendbarkeit sowohl in verwandten Bereichen wie der Chemoinformatik als auch in angrenzenden Gebieten wie der Analyse von sozialen Netzwerken. Das Verständnis der funktionellen Eigenschaften einer Proteinstruktur ist von fundamentaler Bedeutung für medizinische Bereiche wie die Medikamentenentwicklung. Im dritten Teil analysieren wir die Proteindynamik in einem informationstheoretischen Kontext und stellen eine Methode zur Identifikation von funktionalen Einheiten vor. Sie beruht auf der Kullback-Leibler-Divergenz DKL zwischen den Boltzmann-Verteilungen von zwei anisotropen Netzwerkmodellen (ANM). Hierbei definieren wir zunächst ein Mapping zwischen einem Ziel-ANM und einem dimensionsreduzierten Modell-ANM und minimieren die DKL in den Modellparametern. Durch Hinzufügen einer zweiten Optimierungsebene sind wir in der Lage, das optimale Mapping und die entsprechenden funktionellen Residuen zu identifizieren. Wir evaluieren die Aussagekraft unserer Methode durch einen Benchmark an einem Satz gut untersuchter Ionenkanalporen. |
||||
Alternative Abstract: |
|
||||
Status: | Publisher's Version | ||||
URN: | urn:nbn:de:tuda-tuprints-211486 | ||||
Classification DDC: | 000 Generalities, computers, information > 004 Computer science 500 Science and mathematics > 510 Mathematics 500 Science and mathematics > 530 Physics 500 Science and mathematics > 570 Life sciences, biology |
||||
Divisions: | 05 Department of Physics > Institute for Condensed Matter Physics | ||||
TU-Projects: | DFG|GRK1657|GRK 1657 | ||||
Date Deposited: | 04 May 2022 05:33 | ||||
Last Modified: | 04 Aug 2022 10:02 | ||||
URI: | https://tuprints.ulb.tu-darmstadt.de/id/eprint/21148 | ||||
PPN: | 495504009 | ||||
Export: |
View Item |