azubiele.png

azubimech.png

Alumni-Preis 2023

Victor Tänzel für seine Masterarbeit: "Learning Pathways in Ligand Unbinding Pulling Simulations"

Alumni-Preis 2023

Victor Tänzel


Betreuer: PD Dr. Steffen Wolf

 

Kurzzusammenfassung der Arbeit (deutsch):

Die Abschätzung von Prozesszeiten und die Beobachtung seltener Übergänge ist nach wie vor eine große Herausforderung in der computergestützten Physik der weichen Materie. Die Wirksamkeit von Arzneimitteln hängt laut Stand der pharmazeutischen Forschung eng damit zusammen, wie lange ein Arzneimittelmolekül an seinem Zielproteinen verbleibt, dessen Funktion es aktiviert oder hemmt. Die Bestimmung dieser Verweilzeiten und damit die Auswahl vielversprechender Wirkstoffkandidaten stellt Computersimulationen jedoch vor erhebliche Schwierigkeiten: Spontane Dissoziationen können aufgrund ihrer Seltenheit nicht oder nur mit unzureichender Statistik beobachtet werden. Deshalb verwendet die dissipationskorrigierte „targeted“ Molekulardynamik (dcTMD) eine Zwangskraft, welche das Arzneimittelmolekül aus seiner Bindungstasche im Protein herauszieht. Die angewendeten Kräfte werden mit Hilfe der Jarzynski-Gleichung im Rahmen einer Markov'schen Langevin-Gleichung ausgewertet, was die Abschätzung von freien Energien und Reibungsfaktoren ermöglicht. Dabei stützt sich dcTMD auf eine Normalverteilung der Zugarbeit, was entlang verschiedener Molekülentbindungswege durch das Protein, sogenannter Pfade, wiedererlangt werden kann. Diese Pfade erscheinen als Wahrscheinlichkeitsmaxima in geeigneten Koordinaten.

Diese Masterarbeit schlägt vor, das Identifizieren von Pfaden als Clustering-Problem zu formulieren, und greift auf Konzepte des Maschinellen Lernens zurück. Als Eingabevariablen für das Clustering erweisen sich systeminterne Distanzen, konkret Hauptkomponenten von Protein-Molekül-Kontaktdistanzen, als besser geeignet als kartesische Koordinaten zur Beschreibung von Molekül-Trajektorien. Um Cluster ähnlicher Trajektorien in diesen Koordinaten zu finden, wird das auf Dendrogrammen basierende hierarchische Clustering von Wolf et al. (2020) durch NeighborNet-Splitsgraphen ersetzt. Diese werden wiederum durch den Leiden-Algorithmus zur Erkennung von Gemeinschaften, der das konstante Potts-Modell optimiert, übertroffen. Die neuartigen Ansätze zum Lernen von Pfaden eröffnen neue Einblicke in die Solvatisierungsdynamik des als Testsystem etablierten Trypsin-Benzamidin-Komplexes. Darüber hinaus ermöglichen sie die Analyse von zwei herausfordernden G-Protein-gekoppelten Rezeptor-Komplexen, bei denen die Vermeidung der Lipidmembran durch Medikamentenmoleküle als entscheidendes Kriterium für die Trennung der Pfade auftritt.

Insgesamt wurde ein systematischer Ansatz zur Identifizierung von Pfaden in Protein-Molekül-Komplexen entwickelt, der direkt auf weitere Systeme angewendet werden kann. Er trägt zur Bewältigung der numerischen Herausforderung bei, Wirkstoffkandidaten basierend auf ihrer Verweildauer zu klassifizieren. Dabei hat die Herangehensweise das Potenzial, auf andere Prozesse in biomolekularen Systemen ausgeweitet zu werden, einschließlich der Klassifizierung von allosterischen Übergängen in Proteinen.

 

Abstract of thesis (english):

Estimating process times and sampling rare transitions remains a major challenge in computational soft matter physics. In pharmaceutical research, drug efficacy is closely linked to how long small drug molecules stay in their binding pockets at target proteins, where they activate or inhibit the protein's function. However, estimating these residence times and thus selecting promising drug candidates poses significant challenges for computer simulations: spontaneous dissociation events cannot be observed with insufficient statistics, if at all. To this end, dissipation-corrected targeted molecular dynamics (dcTMD) simulations employ a moving distance constraint, pulling the drug molecule out of its binding pocket in the protein. The applied pulling forces are evaluated using the Jarzynski equality in a Markovian Langevin equation framework, allowing for the estimation of free energies and friction factors. In doing so, dcTMD relies on normally distributed pulling work, which can be recovered along different ligand unbinding routes through the protein, so-called pathways. These appear as probability maxima in a suitable coordinate spaces.

This thesis proposes to formulate the task of identifying pathways as a clustering problem. As input features for the clustering, system-internal distances, specifically principal components of protein ligand contact distances, prove to be superior to Cartesian coordinates for describing ligand unbinding trajectories. To find clusters of similar trajectories in these coordinates, the dendrogram-based hierarchical clustering used by Wolf et al. (2020) is superseded by NeighborNet splits graphs, which in turn are outperformed by the Leiden community detection algorithm optimizing the constant Potts model. These novel pathway learning approaches reveal new insights into the solvation dynamics of the well-established trypsin-benzamidine complex. Furthermore, they enabled the analysis of two G protein-coupled receptor complexes, for which the ligands’ avoidance of the lipid membrane appears as the crucial pathway separation criterion.

In summary, a systematic approach for the identification of pathways in protein-ligand complexes was developed that can be readily applied to further systems. It contributes to the computational challenge of classifying drug candidates based on their residence times and has the potential to be extended to other processes in biomolecular systems, potentially including the classification of allosteric transitions in proteins.
 

Benutzerspezifische Werkzeuge