CI-SpliceAI

Diagnose genetischer Splicing-Defekte durch Deep Learning
  1. Akademische Veröffentlichung mit PLOS One
  2. Hauptresultat meiner Promotion
  3. Frei verfügbar für die Allgemeinheit
  4. Google Cloud-Services um Prognosen zu generieren

Wissenschaftliche Zusammenfassung

Hintergrund

Schätzungen zufolge beeinflussen bis zu 50% aller krankheitserregenden genetischen Varianten den Splicing-Vorgang. Durch die Komplexität dieses Prozesses sind unsere Prognosen, welche Varianten Splicing beeinflussen, limitiert, was fehlende Diagnosen für Patienten zufolge hat. Die Anwendung von maschinellem Lernen im Kontext patient-spezifischer Medizin birgt großes Potential um Vorhersagen von Splice-Störungen zu verbessern. Der kürzlich veröffentlichte SpliceAI-Algorithmus nutzt komplexe neuronale Netze und soll eine größere Genauigkeit als andere häufig verwendete Methoden aufweisen.

Methoden und Resultate

Der ursprüngliche SpliceAI-Algorithmus wurde auf Splice-Stellen primärer Isoformen, kombiniert mit neuartigen Schnittpunkten aus GTEx, trainiert. Dies könnte statistisches Rauschen zur Folge haben und die Ein- und Ausgabe des maschinellem Lernens de-korrelieren. Die Beschränkung der Daten auf nur validierte und manuell kommentierte primäre und alternativ geschnittenen GENCODE-Stellen im Training kann die Vorhersagefähigkeiten verbessern. Alle diese Gen-Isoformen wurden kollabiert (zu einer Pseudo-Isoform aggregiert) und die SpliceAI-Architektur wurde neu trainiert (CI-SpliceAI). Die Vorhersageleistung auf einem neu kuratierten Datensatz von 1.316 funktional validierten Varianten aus der Literatur wurde neben MMSplice, MaxEntScan und SQUIRLS mit dem ursprünglichen SpliceAI-Algorithmus verglichen.

Beide SpliceAI-Algorithmen übertrafen die anderen Methoden, wobei das originale SpliceAI eine Genauigkeit von ~91 % erreichte und CI-SpliceAI eine Verbesserung von insgesamt ~92 % zeigte. Die Vorhersagegenauigkeit hat sich bei den meisten kuratierten Varianten erhöht.

Schlussfolgerungen

Wir zeigen, dass das Einbeziehen von ausschließlich manuell annotierten alternativen Schnittpunkten in Trainingsdaten die Vorhersage klinisch relevanter Varianten verbessert, und zeigen Möglichkeiten für weitere Leistungsverbesserungen auf.

Technische Zusammenfassung

Dieses Projekt wurde von mir selbst entwickelt und ist quelloffen. Die komplexen CNN-Modelle (Deep Learning) wurden auf dem von der University of Southampton bereitgestellten IRIDIS Supercomputer trainiert. Sowohl das Trainings- als auch das Inferenzmodul von CI-SpliceAI werden als Open Source-Software veröffentlicht, die Offline-Berechnungen ermöglicht. Eine weitere quelloffene Codebasis wurde entwickelt, um CI-SpliceAI mit anderer Domain-Software zu vergleichen.

Ein Kernresultat von CI-SpliceAI ist die Website zur Online-Annotation, auf der Benutzer kostenlos Vorhersagen generieren können. Da Deep Learning für die weniger technisch versierten Forscher auf diesem Gebiet nicht einfach einzurichten ist, ermöglicht die CI-SpliceAI-Website den Forschern, ihre Variantendaten in einem gängigen Format hochzuladen, ohne dass technische Kenntnisse erforderlich sind. Varianten werden auf der Google Cloud berechnet und in einer mySQL Datenbank zwischengespeichert. Die Applikation läuft auf Docker-Containern, auf denen Python-Flask-Server ausgeführt werden, auf denen wiederum das Vorhersagemodell und der Annotationscode ausgeführt werden.

Das Budget wird durch einen Google pub/sub-Dienst überwacht, der dem Backend mitteilt, wenn das monatliche Budget erschöpft ist, was alle Berechnungen beendet und neue Aufrufe des Dienstes verhindert. Neue Varianten können noch eingereicht werden. Sie werden per Cronjob ausgeführt, sobald der neue Monat beginnt und das Budget wieder aufgefüllt ist.

Der Tech-Stack ist aufgrund von Einschränkungen beim Webhoster etwas veraltet. Das CI-SpliceAI-Portal verwendet php mit twig-Rendering und einer mySQL-Datenbank.

Mehr Informationen

Die volle Arbeit ist auf Englisch mit PLOS One publiziert, alternativ ist die Software-Suite und alle Daten im CI-SpliceAI Web-Portal zu finden.