Váš genom byl osekvenován. A co teď?
Zaplatili jste někde mezi 300 a 500 dolary za sekvenování celého genomu. Možná Nebula, možná Dante, možná jeden z novějších poskytovatelů, kteří se navzájem podbízejí. Dostali jste složku. V té složce: VCF soubor s 4,86 miliony řádků variantních dat a dashboard, který vám ukazuje asi 1 % z toho.
Dashboard odpovídá na jejich otázky. Rozložení předků. Hrstka asociací s vlastnostmi. Možná screening nosičství, pokud máte štěstí. Ale vaše otázky — ty, na kterých vám opravdu záleží — nemají žádné tlačítko.
„Jaké jsou mé CYP enzymové metabolizátorové fenotypy?” Žádné tlačítko.
„Které varianty jsem zdědil po otci a které po matce?” Rozhodně žádné tlačítko.
„Co říká ClinVar o té variantě, kterou můj lékař minulý týden označil?” Ani zdaleka.
Tento článek je o tom, jak tuto mezeru překlenout. Ukážu vám, proč existuje, jak to vypadá, když zmizí, a jak si to nastavit sami — lokálně, bez nahrávání genomu kamkoli.
Problém „A co teď?”
Spotřebitelský trh se sekvenováním celého genomu má zvláštní asymetrii. Nechat se osekvenovat je snadné. Třicetinásobné pokrytí za méně než 500 dolarů v roce 2026. Cenová křivka klesá už léta a stále klesá.
Ale interpretace nestíhá.
Dostanete VCF soubor s miliony řádků variant. Každý řádek je pozice ve vašem genomu, která se liší od reference. Některé z těchto rozdílů hodně záleží. Většina ne. A spotřebitelské platformy, které vám test prodaly? Ukazují vám kurátorovaný výřez — předpřipravené reporty s předpřipravenými odpověďmi.
Na otázky, které předvídaly, to stačí. Na ty, které nepředvídaly, je to k ničemu.
Tady je, co se ztrácí v průměrném spotřebitelském dashboardu:
Variace mimo SNP. Strukturální varianty, variace počtu kopií, mitochondriální DNA. Většina spotřebitelských platforem je kompletně přeskakuje nebo je považuje za druhotné.
Dotazy založené na rodině. Pokud jste nechali osekvenovat i své rodiče, máte trio — tři genomy, které vám mohou říct, které varianty přišly od koho. Nula spotřebitelských platforem nabízí analýzu tria.
Flexibilní hledání důkazů. Přečtete si o variantě ve výzkumném článku. Chcete vědět, jestli ji nesete, co říká ClinVar, jaká je populační frekvence v různých skupinách předků. Dashboard nemá tlačítko „vyhledat libovolné rsID”.
Bankrot 23andMe v březnu 2025 to udělal konkrétním. Během 24 hodin od podání Chapter 11 stránka zaznamenala 1,5 milionu návštěv — nárůst o 526 %. Stránka pro smazání dat dostala 376 000 přístupů první den, 480 000 druhý. Lidé si uvědomili, že jejich nejsoukromější datová sada je na serveru někoho jiného, a chtěli ji zpět.
Poptávka po lokální analýze není hypotetická. Měří se v kliknutích na stránku pro smazání.
Jak to vypadá, když překlenete mezeru
Stack, který používám, má tři komponenty:
GeneChat-MCP obstarává lokální VCF dotazy. Čte vaše variantní soubory přímo — nic neopouští váš počítač. Můžete se ptát na konkrétní geny, skenovat známé patogenní varianty, porovnávat vzorce dědičnosti mezi členy rodiny.
OpenCRAVAT-MCP se připojuje ke cloudovým anotačním databázím, ale posílá pouze rsID (veřejné identifikátory známých variant, jako rs4988235 pro laktázovou perzistenci). Váš skutečný genotyp zůstává lokální. Co se vrací: populační frekvence, funkční predikce, data o proteinových interakcích, regulační anotace — kontext, který dělá variantu významnou.
Pomera spravuje poznámky relací. Když pracujete na složitých dotazech, potřebujete persistentní kontext.
Všechny tři běží ve vašem IDE přes Model Context Protocol. Antigravity, Codex, Claude Code — cokoli, co podporuje MCP. Ptáte se přirozeným jazykem. IDE směruje dotaz na správný nástroj. Dostanete podložené odpovědi z vašich skutečných souborů.
Žádné nahrávání. Žádné úrovně předplatného. Žádné čekání na report.
Čtyři příklady ze skutečného genomu
Všechny tyto dotazy jsem spustil na reálných datech. Kompletní reporty — s tabulkami, zdrojovými databázemi a verzními značkami — jsou k dispozici v adresáři příkladů na GitHubu. Tady je, co našly.
Metabolismus léků (Farmakogenomika)
Dotaz: „Jaké jsou mé CYP enzymové metabolizátorové fenotypy pro metabolismus léků?”
| Gen | Pravděpodobný fenotyp | Klíčový nález |
|---|---|---|
| CYP2C19 | Normální metabolizátor | Žádné alely *2, *3 ani *17 |
| CYP2D6 | Intermediární metabolizátor | Heterozygotní nosič *4 (*1/*4) |
| CYP2C9 | Normální metabolizátor | Žádné alely *2 ani *3 |
| CYP3A5 | Neexprimující (*3/*3) | Běžný evropský genotyp |
CYP2D6 je zde nejdůležitější. Metabolizuje přibližně 25 % všech předepsaných léků — kodein, tramadol, tamoxifen, mnoho antidepresiv, několik betablokátorů. Status intermediárního metabolizátora znamená sníženou enzymovou aktivitu. Kodein se nebude tak efektivně konvertovat na morfin. Některá antidepresiva mohou vyžadovat úpravu dávkování.
Jde o faktická genotypová data, ne o předpis. Ale je to přesně typ informace, který stojí za to probrat s předepisujícím lékařem, než napíše recept na tramadol.
Více než sto lékových etiket FDA odkazuje na farmakogenomické biomarkery. Váš předepisující lékař nemusí znát váš metabolizátorový status. Tuto informaci mu můžete přinést.
→ Kompletní report: Farmakogenomický profil
Co jste zdědili od koho (Analýza tria)
Dotaz: „U těchto známých variant, od kterého rodiče jsem je zdědil?”
Tři VCF soubory. Tři genomy. Standardní logika tria: pokud jste heterozygot a jeden rodič nese variantu zatímco druhý ne, víte, z které strany přišla.
| Varianta | Gen | Dědičnost |
|---|---|---|
| rs1801131 | MTHFR (A1298C) | Otcovská — otec je het, matka je wild type |
| rs17822931 | ABCC11 (typ ušního mazu) | Mateřská — matka je het, otec je wild type |
| rs4988235 | MCM6 (laktáza) | Oba rodiče — jedna alela od každého |
| rs1050450 | GPX1 (antioxidant) | Nezděděná — matka ji nese, subjekt je wild type |
Poslední řádek je ten, který lidi nečekají. Váš rodič nese variantu. Vy jste ji nezdědili. Je to otázka, na kterou můžete odpovědět analýzou tria a doslova ničím jiným, co je spotřebitelům k dispozici.
→ Kompletní report: Analýza dědičnosti tria
ClinVar genomový sken
Dotaz: „Proskenuj můj genom na patogenní varianty ClinVar.”
ClinVar je databáze NIH klinicky relevantních variant — těch spojených s nemocemi, lékovými reakcemi nebo jinými fenotypy. Kompletní sken proti 4,86 milionům variant našel:
- 100 patogenních variant ve 41 genech
- 25 variant lékové odpovědi
Zní to alarmujícně, dokud se nezanoříte. Většina položek označených jako „patogenní” má protichůdné klasifikace. Jedna laboratoř ji nazve patogenní, jiná benigní, třetí řekne nejasný význam. Databáze zachycuje tento nesouhlas, což je vlastně cenné — řekne vám, kde věda ještě není rozhodnutá.
Hrstka variant měla konzistentní patogenní klasifikace od více přispěvatelů. Ty stojí za to probrat s genetickým poradcem. Zbytek je šum, nebo alespoň šum, dokud se nenakupí více důkazů.
→ Kompletní report: ClinVar sken variant
Hloubková anotace variant (OpenCRAVAT)
Dotaz: „Dej mi hloubkovou anotaci rs4988235.”
Tady cloudový dotaz jen s rsID dokazuje svou hodnotu. Jediné volání — annotate_rsid("rs4988235") — vrátilo přes 150 anotačních polí pro variantu laktázové perzistence:
- CADD skóre: Predikce funkčního dopadu
- Populační frekvence v sedmi skupinách předků: 60,2 % u Evropanů, 0,3 % u východních Asiatů (tato varianta umožnila chov dojného skotu v severní Evropě — její geografická distribuce vypráví 10 000 let starý příběh)
- 56 proteinových interaktorů: Širší molekulární síť
- Data regulačních prvků: Kde se tato varianta nachází v řídící architektuře genomu
Získat tohle normálně vyžaduje bioinformatický pipeline — stahování databází, spouštění anotačních nástrojů, parsování výstupních formátů. Tady je to jediné volání funkce, které posílá jen rsID, ne váš genotyp.
→ Kompletní report: Hloubková anotace OpenCRAVAT
Dva další reporty — asociace s vlastnostmi a polygenní rizikové skóre — jsou k dispozici v adresáři příkladů na GitHubu.
Klonovat, nakonfigurovat, dotazovat
Co potřebujete
- Vaše VCF soubory od jakéhokoli poskytovatele sekvenování celého genomu
- Agentické IDE s podporou MCP (Antigravity, Codex, Claude Code)
- Python 3.10+ a conda (pro GeneChat-MCP)
- Přibližně 2 GB místa na disku pro anotační databáze (ClinVar, SnpEff, GWAS Catalog, PGS modely)
- Volitelné: cloudový účet OpenCRAVAT (bezplatná úroveň) pro hloubkovou anotaci
Architektura
Vaše IDE (chat)
Antigravity / Codex / Claude Code
│ │
▼ ▼
┌──────────┐ ┌──────────────┐
│ GeneChat │ │ OpenCRAVAT │
│ MCP │ │ MCP │
│ (lokální)│ │ (cloud API) │
└────┬─────┘ └──────┬───────┘
│ │
▼ │ pouze rsID
┌──────────┐ │ (žádná genomová data)
│ Vaše VCF │ ▼
│ soubory │ CADD, REVEL,
│ (lokální)│ gnomAD, BioGRID
└──────────┘
Nastavení
Nebudu zde reprodukovat README. Pokud umíte nakonfigurovat MCP server ve svém IDE, můžete sledovat instrukce v repozitáři.
Naklonujte ho: github.com/matbanik/agentic-genomics
Nastavení má tři části: GeneChat-MCP (lokální VCF dotazy), OpenCRAVAT-MCP (cloudová anotace) a MCP konfigurace vašeho IDE. README provede každou část.
Dvě věci, které způsobují problémy:
Indexování VCF. Vaše VCF soubory musí být před prvním dotazem indexovány pomocí tabix. GeneChat očekává páry .vcf.gz + .vcf.gz.tbi. Pokud index chybí, dotazy tiše selžou nebo vyhodí kryptické chyby. Repozitář to dokumentuje, ale je to nejčastější problém při nastavení.
Nesoulad formátu contigů. Někteří sekvenační poskytovatelé používají předpony chr1, chr2, chr3. Jiní používají prostě 1, 2, 3. Pokud váš VCF používá jeden formát a referenční databáze očekávají druhý, vyhledávání variant selže. Repozitář konverzi řeší, ale stojí za to vědět, proč by dotaz mohl vrátit „nenalezeno”, když víte, že varianta tam je.
Analýza tria? Stejné nastavení, více genomů. Zaregistrujte VCF soubor každého člena rodiny a dotazujte se přes všechny.
Na co se můžete ptát
Toto jsou výzvy v přirozeném jazyce, které můžete psát přímo do svého IDE. Agent automaticky směruje každý dotaz na správný MCP nástroj.
Jaký je můj CYP2D6 metabolizátorový status? Proskenuj můj genom na patogenní varianty ClinVar Které z těchto variant jsem zdědil po matce? Vypočítej mé polygenní rizikové skóre BMI Dej mi hloubkovou anotaci rs4988235 Jaké GWAS asociace existují pro metabolismus kofeinu?
→ Všech šest ukázkových reportů na GitHubu
Krajina
Nejste v tom sami
Tento prostor se rychle vyvíjí. Několik projektů, které stojí za to znát.
ClawBio vzešel z UK AI Agent Hackathonu na Imperial College. Je to Python CLI a knihovna — ne MCP server, takže architektura se liší, ale cíl se překrývá. Vytvořili dva nástroje, které jsem jinde neviděl: gwas-lookup federuje dotazy přes devět GWAS databází současně a clinpgx stahuje z PharmGKB, CPIC guidelines a FDA etiketových anotací v jednom volání. Komplementární práce, jiné rozhraní.
Objevují se i akademické signály. Článek v Briefings in Bioinformatics formalizoval MCPmed framework pro medicínské AI agenty. EMBL má BioContextAI ve vývoji. cBioPortal — databáze nádorové genomiky — má teď MCP rozhraní. IBM Research prezentoval související práci na ISMB.
Na open-source straně: Bio-MCP poskytuje obecný přístup k bioinformatickým nástrojům, gget-mcp obaluje gget knihovnu pro genové/proteinové dotazy a IGV-MCP se připojuje k Integrative Genomics Viewer pro vizualizaci.
Vzorec je jasný. Genomová data se stávají dotazovatelnými přes konverzační rozhraní. Otázka je, jestli se to děje na vašem počítači nebo na cizím.
Co to není
Chci být přímý ohledně omezení.
Tohle nediagnostikuje nemoci. ClinVar značka „patogenní” není diagnóza — je to záznam v databázi odrážející předloženou evidenci, často s protichůdnými interpretacemi.
Tohle nedoporučuje léčbu. Intermediární metabolizátorový status CYP2D6 je genotypové faktum. Co s tím dělat je klinické rozhodnutí, které závisí na vašem kompletním zdravotním kontextu, dalších lécích a úsudku vašeho lékaře.
Tohle neposkytuje výživové rady. Váš MTHFR status vám neřekne, jaké doplňky brát.
Star-alelová volání — CYP2D6 *1/*4, CYP2C19 *1/*1 — jsou faktická genotypová data. Popisují, jaké varianty nesete. Převod toho do akce vyžaduje člověka s klinickým vzděláním a vaším kompletním obrazem.
Pokud najdete něco znepokojivého, proberte to s genetickým poradcem nebo vaším lékařem. Tohle není výhrada; takhle to funguje.
Zdrojové databáze jsou pojmenovány a verzovány v každém výstupu dotazu: PharmVar pro definice star-alel, CPIC pro genotyp-fenotyp mapování, ClinVar pro klinické klasifikace variant, gnomAD pro populační frekvence.
Závěr
Váš genom je nejsoukromější datová sada, jakou kdy budete vlastnit. Právě teď většina z ní leží ve složce, kterou jste nikdy neotevřeli — nebo na serveru, který neovládáte.
Nástroje k tomu to změnit jsou zdarma, otevřené a běží na vašem počítači.
Pokud se zasekněte při nastavení, otevřete issue na GitHubu. K tomu to tam je.
Zdroje
- Agentic Genomics — GitHub repozitář
- Ukázkové reporty (Farmakogenomika, Trio, ClinVar, OpenCRAVAT)
- GeneChat-MCP — Lokální VCF dotazy
- OpenCRAVAT-MCP — Cloudová anotace
- OpenCRAVAT — Platforma pro anotaci variant
- Pomera — Poznámky relací pro MCP
- Specifikace MCP
- Antigravity IDE
- ChatGPT Codex
- Claude Code
- ClinVar — Databáze klinických variant
- PharmVar — Definice star-alel
- CPIC — Mapování genotyp-fenotyp
- gnomAD — Populační frekvence
- FDA farmakogenomické biomarkery
- ClawBio — Python genomická CLI
- Bio-MCP · gget-mcp · IGV-MCP
⚠️ Upozornění: Toto je faktická genotypová zpráva, nikoli lékařská rada. Projednávejte realizovatelné nálezy se svým lékařem nebo genetickým poradcem. Zdrojové databáze: PharmVar, CPIC, ClinVar, gnomAD — verze uvedeny u každého dotazu.