Dein Genom wurde sequenziert. Und jetzt?
Du hast irgendwo zwischen 300 und 500 Dollar für die Ganzgenomsequenzierung bezahlt. Vielleicht Nebula, vielleicht Dante, vielleicht einer der neueren Anbieter, die sich gegenseitig unterbieten. Du hast einen Ordner bekommen. In diesem Ordner: eine VCF-Datei mit 4,86 Millionen Zeilen Variantendaten und ein Dashboard, das dir vielleicht 1 % davon zeigt.
Das Dashboard beantwortet ihre Fragen. Herkunftsanalyse. Eine Handvoll Merkmals-Assoziationen. Vielleicht ein Träger-Screening, wenn du Glück hast. Aber deine Fragen — die, die dir wirklich wichtig sind — haben keinen Button.
„Welche CYP-Enzym-Metabolisierer-Phänotypen habe ich?” Kein Button.
„Welche Varianten habe ich von meinem Vater geerbt, welche von meiner Mutter?” Definitiv kein Button.
„Was sagt ClinVar zu der Variante, die mein Arzt letzte Woche markiert hat?” Nicht mal annähernd.
Dieser Beitrag handelt davon, diese Lücke zu schließen. Ich zeige dir, warum sie existiert, wie es aussieht, wenn sie weg ist, und wie du es selbst einrichtest — lokal, ohne dein Genom irgendwohin hochzuladen.
Das „Und jetzt?”-Problem
Der Markt für Ganzgenomsequenzierung hat eine seltsame Asymmetrie. Sich sequenzieren zu lassen ist einfach. Dreißigfache Abdeckung für unter 500 Dollar in 2026. Die Preiskurve fällt seit Jahren und fällt weiter.
Aber die Interpretation hat nicht Schritt gehalten.
Du bekommst eine VCF-Datei mit Millionen von Variantenzeilen. Jede Zeile ist eine Position in deinem Genom, die von der Referenz abweicht. Manche dieser Unterschiede sind sehr wichtig. Die meisten nicht. Und die Verbraucherplattformen, die dir den Test verkauft haben? Sie zeigen dir eine kuratierte Scheibe — vorgefertigte Berichte mit vorgefertigten Antworten.
Das ist in Ordnung für die Fragen, die sie vorhergesehen haben. Für die, die sie nicht vorhergesehen haben, ist es nutzlos.
Das geht im durchschnittlichen Verbraucher-Dashboard verloren:
Nicht-SNP-Variation. Strukturelle Varianten, Kopienzahlvariationen, mitochondriale DNA. Die meisten Verbraucherplattformen überspringen diese vollständig oder behandeln sie als zweitrangig.
Familienbasierte Abfragen. Wenn du auch deine Eltern sequenziert hast, hast du ein Trio — drei Genome, die dir sagen können, welche Varianten von wem kamen. Null Verbraucherplattformen bieten Trio-Analyse an.
Flexible Evidenzsuche. Du liest in einem Forschungsartikel über eine Variante. Du willst wissen, ob du sie trägst, was ClinVar sagt, wie häufig sie in verschiedenen Populationsgruppen ist. Das Dashboard hat keinen „beliebige rsID nachschlagen”-Button.
Die 23andMe-Insolvenz im März 2025 hat das konkret gemacht. Innerhalb von 24 Stunden nach dem Chapter-11-Antrag erhielt die Seite 1,5 Millionen Besuche — ein Anstieg von 526 %. Die Datenlöschungsseite bekam 376.000 Aufrufe am ersten Tag, 480.000 am zweiten. Die Leute erkannten, dass ihr persönlichster Datensatz auf dem Server von jemand anderem lag, und sie wollten ihn zurück.
Die Nachfrage nach lokaler Analyse ist nicht hypothetisch. Sie wird in Klicks auf der Löschungsseite gemessen.
Wie es aussieht, wenn du die Lücke schließt
Der Stack, den ich verwende, hat drei Komponenten:
GeneChat-MCP übernimmt lokale VCF-Abfragen. Es liest deine Variantendateien direkt — nichts verlässt deinen Rechner. Du kannst nach bestimmten Genen fragen, nach bekannten pathogenen Varianten scannen, Vererbungsmuster zwischen Familienmitgliedern vergleichen.
OpenCRAVAT-MCP verbindet sich mit Cloud-Annotationsdatenbanken, sendet aber nur rsIDs (die öffentlichen Identifikatoren für bekannte Varianten, wie rs4988235 für Laktasepersistenz). Dein tatsächlicher Genotyp bleibt lokal. Was zurückkommt: Populationsfrequenzen, funktionelle Vorhersagen, Proteininteraktionsdaten, regulatorische Annotationen — der Kontext, der eine Variante bedeutsam macht.
Pomera verwaltet Sitzungsnotizen. Wenn du mit komplexen Abfragen arbeitest, brauchst du persistenten Kontext.
Alle drei laufen in deiner IDE über das Model Context Protocol. Antigravity, Codex, Claude Code — alles, was MCP unterstützt. Du fragst in natürlicher Sprache. Die IDE leitet die Abfrage an das richtige Tool weiter. Du bekommst fundierte Antworten aus deinen tatsächlichen Dateien.
Kein Hochladen. Keine Abonnementstufen. Kein Warten auf einen Bericht.
Vier Beispiele aus einem echten Genom
Ich habe all diese Abfragen mit echten Daten durchgeführt. Die vollständigen Berichte — mit Tabellen, Quelldatenbanken und Versionsstempeln — sind im Beispielverzeichnis auf GitHub verfügbar. Das haben sie gefunden.
Arzneimittelmetabolismus (Pharmakogenomik)
Abfrage: „Welche CYP-Enzym-Metabolisierer-Phänotypen habe ich für den Arzneimittelmetabolismus?”
| Gen | Wahrscheinlicher Phänotyp | Wichtigster Befund |
|---|---|---|
| CYP2C19 | Normaler Metabolisierer | Keine *2-, *3- oder *17-Allele |
| CYP2D6 | Intermediärer Metabolisierer | Heterozygoter *4-Träger (*1/*4) |
| CYP2C9 | Normaler Metabolisierer | Keine *2- oder *3-Allele |
| CYP3A5 | Nicht-Expressor (*3/*3) | Häufiger europäischer Genotyp |
CYP2D6 ist hier am wichtigsten. Es metabolisiert etwa 25 % aller verschriebenen Medikamente — Codein, Tramadol, Tamoxifen, viele Antidepressiva, mehrere Betablocker. Ein intermediärer Metabolisierer-Status bedeutet reduzierte Enzymaktivität. Codein wird nicht so effizient in Morphin umgewandelt. Einige Antidepressiva brauchen möglicherweise Dosisanpassungen.
Das sind faktische Genotypdaten, kein Rezept. Aber es ist genau die Art von Information, die es wert ist, mit einem Arzt zu besprechen, bevor er ein Rezept für Tramadol ausstellt.
Über hundert FDA-Arzneimitteletiketten verweisen auf pharmakogenomische Biomarker. Dein Arzt kennt möglicherweise deinen Metabolisierer-Status nicht. Du kannst ihm diese Information mitbringen.
→ Vollständiger Bericht: Pharmakogenomisches Profil
Was du von wem geerbt hast (Trio-Analyse)
Abfrage: „Von welchem Elternteil habe ich diese bekannten Varianten geerbt?”
Drei VCF-Dateien. Drei Genome. Standard-Trio-Logik: Wenn du heterozygot bist und ein Elternteil die Variante trägt, während der andere es nicht tut, weißt du, von welcher Seite sie kam.
| Variante | Gen | Vererbung |
|---|---|---|
| rs1801131 | MTHFR (A1298C) | Väterlich — Vater ist het, Mutter ist Wildtyp |
| rs17822931 | ABCC11 (Ohrschmalztyp) | Mütterlich — Mutter ist het, Vater ist Wildtyp |
| rs4988235 | MCM6 (Laktase) | Beide Eltern — ein Allel von jedem |
| rs1050450 | GPX1 (Antioxidans) | Nicht geerbt — Mutter trägt sie, Proband ist Wildtyp |
Die letzte Zeile ist die, die niemand erwartet. Dein Elternteil trägt eine Variante. Du hast sie nicht geerbt. Das ist eine Frage, die du mit Trio-Analyse beantworten kannst und mit buchstäblich nichts anderem, das Verbrauchern zur Verfügung steht.
→ Vollständiger Bericht: Trio-Vererbungsanalyse
ClinVar-Genomscan
Abfrage: „Scanne mein Genom nach pathogenen ClinVar-Varianten.”
ClinVar ist die NIH-Datenbank klinisch relevanter Varianten — solche, die mit Krankheiten, Arzneimittelreaktionen oder anderen Phänotypen verknüpft sind. Ein vollständiger Scan gegen 4,86 Millionen Varianten ergab:
- 100 pathogene Varianten in 41 Genen
- 25 Arzneimittelreaktions-Varianten
Das klingt alarmierend, bis man genauer hinschaut. Die meisten als „pathogen” markierten Einträge haben widersprüchliche Klassifizierungen. Ein Labor nennt sie pathogen, ein anderes beurteilt sie als gutartig, ein drittes sagt unklare Bedeutung. Die Datenbank erfasst diese Uneinigkeit, was tatsächlich wertvoll ist — sie zeigt dir, wo die Wissenschaft noch nicht abgeschlossen ist.
Eine Handvoll Varianten hatten konsistente pathogene Klassifizierungen über mehrere Einreicher hinweg. Diese lohnt es sich, mit einem genetischen Berater zu besprechen. Der Rest ist Rauschen, oder zumindest Rauschen, bis sich mehr Evidenz ansammelt.
→ Vollständiger Bericht: ClinVar-Variantenscan
Tiefe Variantenannotation (OpenCRAVAT)
Abfrage: „Gib mir eine tiefe Annotation von rs4988235.”
Hier zeigt die Nur-rsID-Cloud-Abfrage ihren Wert. Ein einziger Aufruf — annotate_rsid("rs4988235") — lieferte über 150 Annotationsfelder für die Laktasepersistenz-Variante:
- CADD-Score: Vorhersage der funktionellen Auswirkung
- Populationsfrequenzen über sieben Abstammungsgruppen: 60,2 % bei Europäern, 0,3 % bei Ostasiaten (diese Variante ermöglichte die Milchwirtschaft in Nordeuropa — ihre geografische Verteilung erzählt eine 10.000-jährige Geschichte)
- 56 Proteininteraktoren: Das breitere molekulare Netzwerk
- Regulatorische Elementdaten: Wo diese Variante in der Kontrollarchitektur des Genoms sitzt
Das normalerweise zu bekommen, erfordert eine Bioinformatik-Pipeline — Datenbanken herunterladen, Annotationstools ausführen, Ausgabeformate parsen. Hier ist es ein einziger Funktionsaufruf, der nur die rsID sendet, nicht deinen Genotyp.
→ Vollständiger Bericht: OpenCRAVAT-Tiefannotation
Zwei weitere Berichte — Merkmals-Assoziationen und polygene Risikoscores — sind im GitHub-Beispielverzeichnis verfügbar.
Klonen, konfigurieren, abfragen
Was du brauchst
- Deine VCF-Dateien von einem beliebigen Ganzgenomsequenzierungsanbieter
- Eine agentische IDE, die MCP unterstützt (Antigravity, Codex, Claude Code)
- Python 3.10+ und conda (für GeneChat-MCP)
- Etwa 2 GB Speicherplatz für Annotationsdatenbanken (ClinVar, SnpEff, GWAS Catalog, PGS-Modelle)
- Optional: ein OpenCRAVAT-Cloud-Konto (kostenlose Stufe) für tiefe Annotation
Architektur
Deine IDE (Chat)
Antigravity / Codex / Claude Code
│ │
▼ ▼
┌──────────┐ ┌──────────────┐
│ GeneChat │ │ OpenCRAVAT │
│ MCP │ │ MCP │
│ (lokal) │ │ (Cloud-API) │
└────┬─────┘ └──────┬───────┘
│ │
▼ │ nur rsIDs
┌──────────┐ │ (keine Genomdaten)
│ Deine │ ▼
│ VCF- │ CADD, REVEL,
│ Dateien │ gnomAD, BioGRID
│ (lokal) │
└──────────┘
Einrichtung
Ich werde das README hier nicht reproduzieren. Wenn du einen MCP-Server in deiner IDE konfigurieren kannst, kannst du den Anweisungen im Repository folgen.
Klone es: github.com/matbanik/agentic-genomics
Die Einrichtung hat drei Teile: GeneChat-MCP (lokale VCF-Abfragen), OpenCRAVAT-MCP (Cloud-Annotation) und die MCP-Konfiguration deiner IDE. Das README führt durch jeden Teil.
Zwei Dinge, die Probleme machen:
VCF-Indexierung. Deine VCF-Dateien müssen vor der ersten Abfrage mit tabix indexiert werden. GeneChat erwartet .vcf.gz + .vcf.gz.tbi-Paare. Wenn der Index fehlt, scheitern Abfragen stillschweigend oder werfen kryptische Fehler. Das Repository dokumentiert das, aber es ist das häufigste Einrichtungsproblem.
Contig-Format-Mismatch. Manche Sequenzierungsanbieter verwenden chr1, chr2, chr3-Präfixe. Andere verwenden nur 1, 2, 3. Wenn dein VCF ein Format verwendet und die Referenzdatenbanken das andere erwarten, werden Variantensuchen fehlschlagen. Das Repository übernimmt die Konvertierung, aber es ist gut zu wissen, warum eine Abfrage „nicht gefunden” zurückgeben könnte, obwohl du weißt, dass die Variante da ist.
Trio-Analyse? Gleiche Einrichtung, mehr Genome. Registriere die VCF-Datei jedes Familienmitglieds und frage über alle ab.
Was du fragen kannst
Das sind Prompts in natürlicher Sprache, die du direkt in deine IDE eingeben kannst. Der Agent leitet jede Abfrage automatisch an das richtige MCP-Tool weiter.
Was ist mein CYP2D6-Metabolisierer-Status? Scanne mein Genom nach pathogenen ClinVar-Varianten Welche dieser Varianten habe ich von meiner Mutter geerbt? Berechne meinen BMI-Polygenen-Risikoscore Gib mir eine tiefe Annotation von rs4988235 Welche GWAS-Assoziationen gibt es für den Koffeinmetabolismus?
→ Alle sechs Beispielberichte auf GitHub
Die Landschaft
Du bist nicht allein
Dieser Bereich bewegt sich schnell. Einige Projekte, die man kennen sollte.
ClawBio entstand beim UK AI Agent Hackathon am Imperial College. Es ist eine Python-CLI und Bibliothek — kein MCP-Server, daher unterscheidet sich die Architektur, aber das Ziel überschneidet sich. Sie haben zwei Tools gebaut, die ich anderswo nicht gesehen habe: gwas-lookup föderiert Abfragen über neun GWAS-Datenbanken gleichzeitig, und clinpgx zieht aus PharmGKB-, CPIC-Richtlinien und FDA-Etikettenannotationen in einem einzigen Aufruf. Komplementäre Arbeit, anderes Schnittstellenparadigma.
Auch akademische Signale tauchen auf. Ein Artikel in Briefings in Bioinformatics formalisierte das MCPmed-Framework für medizinische KI-Agenten. EMBL hat BioContextAI in Entwicklung. cBioPortal — die Krebsgenomik-Datenbank — hat jetzt eine MCP-Schnittstelle. IBM Research präsentierte verwandte Arbeiten auf der ISMB.
Auf der Open-Source-Seite: Bio-MCP bietet allgemeinen Zugang zu Bioinformatik-Tools, gget-mcp umhüllt die gget-Bibliothek für Gen-/Proteinabfragen, und IGV-MCP verbindet sich mit dem Integrative Genomics Viewer zur Visualisierung.
Das Muster ist klar. Genomdaten werden über konversationelle Schnittstellen abfragbar. Die Frage ist, ob das auf deinem Rechner passiert oder auf dem von jemand anderem.
Was das nicht ist
Ich möchte direkt über die Grenzen sein.
Das diagnostiziert keine Krankheiten. Eine ClinVar-Markierung als „pathogen” ist keine Diagnose — es ist ein Datenbankeintrag, der eingereichte Evidenz widerspiegelt, oft mit widersprüchlichen Interpretationen.
Das empfiehlt keine Behandlungen. Ein intermediärer CYP2D6-Metabolisierer-Status ist ein genotypisches Faktum. Was man damit macht, ist eine klinische Entscheidung, die von deinem vollständigen medizinischen Kontext, anderen Medikamenten und dem Urteil deines Arztes abhängt.
Das gibt keine Ernährungsberatung. Dein MTHFR-Status sagt dir nicht, welche Nahrungsergänzungsmittel du nehmen sollst.
Sternchenallel-Bestimmungen — CYP2D6 *1/*4, CYP2C19 *1/*1 — sind faktische Genotypdaten. Sie beschreiben, welche Varianten du trägst. Das in Handlung umzusetzen, erfordert einen Menschen mit klinischer Ausbildung und deinem vollständigen Bild.
Wenn du etwas Beunruhigendes findest, besprich es mit einem genetischen Berater oder deinem Arzt. Das ist keine Absicherung; so funktioniert das.
Quelldatenbanken werden in jedem Abfrageergebnis benannt und versioniert: PharmVar für Sternchenallel-Definitionen, CPIC für Genotyp-Phänotyp-Zuordnungen, ClinVar für klinische Variantenklassifizierungen, gnomAD für Populationsfrequenzen.
Abschluss
Dein Genom ist der persönlichste Datensatz, den du jemals besitzen wirst. Gerade jetzt liegt das meiste davon in einem Ordner, den du nie geöffnet hast — oder auf einem Server, den du nicht kontrollierst.
Die Werkzeuge, um das zu ändern, sind kostenlos, offen und laufen auf deinem Rechner.
Wenn du bei der Einrichtung nicht weiterkommst, eröffne ein Issue auf GitHub. Dafür ist es da.
Ressourcen
- Agentic Genomics — GitHub-Repository
- Beispielberichte (Pharmakogenomik, Trio, ClinVar, OpenCRAVAT)
- GeneChat-MCP — Lokale VCF-Abfragen
- OpenCRAVAT-MCP — Cloud-Annotation
- OpenCRAVAT — Variantenannotationsplattform
- Pomera — Sitzungsnotizen für MCP
- MCP-Spezifikation
- Antigravity IDE
- ChatGPT Codex
- Claude Code
- ClinVar — Klinische Variantendatenbank
- PharmVar — Sternchenallel-Definitionen
- CPIC — Genotyp-Phänotyp-Zuordnungen
- gnomAD — Populationsfrequenzen
- FDA-Pharmakogenomische Biomarker
- ClawBio — Python-Genomik-CLI
- Bio-MCP · gget-mcp · IGV-MCP
⚠️ Haftungsausschluss: Dies ist ein faktischer Genotypbericht, keine medizinische Beratung. Bespreche verwertbare Befunde mit deinem Arzt oder genetischen Berater. Quelldatenbanken: PharmVar, CPIC, ClinVar, gnomAD — Versionen pro Abfrage angegeben.