← Zpět na Výživa

Váš genom byl osekvenován. A co teď?

genomicsmcpprivacypharmacogenomicsai-tools

Zaplatili jste někde mezi 300 a 500 dolary za sekvenování celého genomu. Možná Nebula, možná Dante, možná jeden z novějších poskytovatelů, kteří se navzájem podbízejí. Dostali jste složku. V té složce: VCF soubor s 4,86 miliony řádků variantních dat a dashboard, který vám ukazuje asi 1 % z toho.

Dashboard odpovídá na jejich otázky. Rozložení předků. Hrstka asociací s vlastnostmi. Možná screening nosičství, pokud máte štěstí. Ale vaše otázky — ty, na kterých vám opravdu záleží — nemají žádné tlačítko.

„Jaké jsou mé CYP enzymové metabolizátorové fenotypy?” Žádné tlačítko.

„Které varianty jsem zdědil po otci a které po matce?” Rozhodně žádné tlačítko.

„Co říká ClinVar o té variantě, kterou můj lékař minulý týden označil?” Ani zdaleka.

Tento článek je o tom, jak tuto mezeru překlenout. Ukážu vám, proč existuje, jak to vypadá, když zmizí, a jak si to nastavit sami — lokálně, bez nahrávání genomu kamkoli.

Pixel art postava zírající na ohromující genomová data na zářícím monitoru v útulné domácí kanceláři v noci

Problém „A co teď?”

Spotřebitelský trh se sekvenováním celého genomu má zvláštní asymetrii. Nechat se osekvenovat je snadné. Třicetinásobné pokrytí za méně než 500 dolarů v roce 2026. Cenová křivka klesá už léta a stále klesá.

Ale interpretace nestíhá.

Dostanete VCF soubor s miliony řádků variant. Každý řádek je pozice ve vašem genomu, která se liší od reference. Některé z těchto rozdílů hodně záleží. Většina ne. A spotřebitelské platformy, které vám test prodaly? Ukazují vám kurátorovaný výřez — předpřipravené reporty s předpřipravenými odpověďmi.

Na otázky, které předvídaly, to stačí. Na ty, které nepředvídaly, je to k ničemu.

Tady je, co se ztrácí v průměrném spotřebitelském dashboardu:

Variace mimo SNP. Strukturální varianty, variace počtu kopií, mitochondriální DNA. Většina spotřebitelských platforem je kompletně přeskakuje nebo je považuje za druhotné.

Dotazy založené na rodině. Pokud jste nechali osekvenovat i své rodiče, máte trio — tři genomy, které vám mohou říct, které varianty přišly od koho. Nula spotřebitelských platforem nabízí analýzu tria.

Flexibilní hledání důkazů. Přečtete si o variantě ve výzkumném článku. Chcete vědět, jestli ji nesete, co říká ClinVar, jaká je populační frekvence v různých skupinách předků. Dashboard nemá tlačítko „vyhledat libovolné rsID”.

Bankrot 23andMe v březnu 2025 to udělal konkrétním. Během 24 hodin od podání Chapter 11 stránka zaznamenala 1,5 milionu návštěv — nárůst o 526 %. Stránka pro smazání dat dostala 376 000 přístupů první den, 480 000 druhý. Lidé si uvědomili, že jejich nejsoukromější datová sada je na serveru někoho jiného, a chtěli ji zpět.

Poptávka po lokální analýze není hypotetická. Měří se v kliknutích na stránku pro smazání.


Jak to vypadá, když překlenete mezeru

Stack, který používám, má tři komponenty:

GeneChat-MCP obstarává lokální VCF dotazy. Čte vaše variantní soubory přímo — nic neopouští váš počítač. Můžete se ptát na konkrétní geny, skenovat známé patogenní varianty, porovnávat vzorce dědičnosti mezi členy rodiny.

OpenCRAVAT-MCP se připojuje ke cloudovým anotačním databázím, ale posílá pouze rsID (veřejné identifikátory známých variant, jako rs4988235 pro laktázovou perzistenci). Váš skutečný genotyp zůstává lokální. Co se vrací: populační frekvence, funkční predikce, data o proteinových interakcích, regulační anotace — kontext, který dělá variantu významnou.

Pomera spravuje poznámky relací. Když pracujete na složitých dotazech, potřebujete persistentní kontext.

Všechny tři běží ve vašem IDE přes Model Context Protocol. Antigravity, Codex, Claude Code — cokoli, co podporuje MCP. Ptáte se přirozeným jazykem. IDE směruje dotaz na správný nástroj. Dostanete podložené odpovědi z vašich skutečných souborů.

Žádné nahrávání. Žádné úrovně předplatného. Žádné čekání na report.

Pixel art postava relaxující v čistém IDE pracovním prostoru s organizovanými výsledky genomových dotazů a plovoucím robotickým společníkem
Stejný stůl, jiný příběh. Data jsou organizovaná, dotazovatelná a plně lokální.

Čtyři příklady ze skutečného genomu

Všechny tyto dotazy jsem spustil na reálných datech. Kompletní reporty — s tabulkami, zdrojovými databázemi a verzními značkami — jsou k dispozici v adresáři příkladů na GitHubu. Tady je, co našly.

Metabolismus léků (Farmakogenomika)

Dotaz: „Jaké jsou mé CYP enzymové metabolizátorové fenotypy pro metabolismus léků?”

GenPravděpodobný fenotypKlíčový nález
CYP2C19Normální metabolizátorŽádné alely *2, *3 ani *17
CYP2D6Intermediární metabolizátorHeterozygotní nosič *4 (*1/*4)
CYP2C9Normální metabolizátorŽádné alely *2 ani *3
CYP3A5Neexprimující (*3/*3)Běžný evropský genotyp

CYP2D6 je zde nejdůležitější. Metabolizuje přibližně 25 % všech předepsaných léků — kodein, tramadol, tamoxifen, mnoho antidepresiv, několik betablokátorů. Status intermediárního metabolizátora znamená sníženou enzymovou aktivitu. Kodein se nebude tak efektivně konvertovat na morfin. Některá antidepresiva mohou vyžadovat úpravu dávkování.

Jde o faktická genotypová data, ne o předpis. Ale je to přesně typ informace, který stojí za to probrat s předepisujícím lékařem, než napíše recept na tramadol.

Více než sto lékových etiket FDA odkazuje na farmakogenomické biomarkery. Váš předepisující lékař nemusí znát váš metabolizátorový status. Tuto informaci mu můžete přinést.

Kompletní report: Farmakogenomický profil

Pixel art RPG obchod s lektvary přetvořený na farmakogenomickou laboratoř s ikonami enzymů zářícími zeleně a jantarově
Čtyři enzymy, čtyři výsledky. Ten jantarový — CYP2D6 — zpracovává čtvrtinu všech předepsaných léků.

Co jste zdědili od koho (Analýza tria)

Dotaz: „U těchto známých variant, od kterého rodiče jsem je zdědil?”

Tři VCF soubory. Tři genomy. Standardní logika tria: pokud jste heterozygot a jeden rodič nese variantu zatímco druhý ne, víte, z které strany přišla.

VariantaGenDědičnost
rs1801131MTHFR (A1298C)Otcovská — otec je het, matka je wild type
rs17822931ABCC11 (typ ušního mazu)Mateřská — matka je het, otec je wild type
rs4988235MCM6 (laktáza)Oba rodiče — jedna alela od každého
rs1050450GPX1 (antioxidant)Nezděděná — matka ji nese, subjekt je wild type

Poslední řádek je ten, který lidi nečekají. Váš rodič nese variantu. Vy jste ji nezdědili. Je to otázka, na kterou můžete odpovědět analýzou tria a doslova ničím jiným, co je spotřebitelům k dispozici.

Kompletní report: Analýza dědičnosti tria

Pixel art rodina tří lidí kolem stolu se zářícími genomovými koulemi a svítícími vlákny dědičnosti, které je spojují
Tři genomy, tři koule. Vlákna světla sledují, co bylo zděděno — a co ne.

ClinVar genomový sken

Dotaz: „Proskenuj můj genom na patogenní varianty ClinVar.”

ClinVar je databáze NIH klinicky relevantních variant — těch spojených s nemocemi, lékovými reakcemi nebo jinými fenotypy. Kompletní sken proti 4,86 milionům variant našel:

  • 100 patogenních variant ve 41 genech
  • 25 variant lékové odpovědi

Zní to alarmujícně, dokud se nezanoříte. Většina položek označených jako „patogenní” má protichůdné klasifikace. Jedna laboratoř ji nazve patogenní, jiná benigní, třetí řekne nejasný význam. Databáze zachycuje tento nesouhlas, což je vlastně cenné — řekne vám, kde věda ještě není rozhodnutá.

Hrstka variant měla konzistentní patogenní klasifikace od více přispěvatelů. Ty stojí za to probrat s genetickým poradcem. Zbytek je šum, nebo alespoň šum, dokud se nenakupí více důkazů.

Kompletní report: ClinVar sken variant

Hloubková anotace variant (OpenCRAVAT)

Dotaz: „Dej mi hloubkovou anotaci rs4988235.”

Tady cloudový dotaz jen s rsID dokazuje svou hodnotu. Jediné volání — annotate_rsid("rs4988235") — vrátilo přes 150 anotačních polí pro variantu laktázové perzistence:

  • CADD skóre: Predikce funkčního dopadu
  • Populační frekvence v sedmi skupinách předků: 60,2 % u Evropanů, 0,3 % u východních Asiatů (tato varianta umožnila chov dojného skotu v severní Evropě — její geografická distribuce vypráví 10 000 let starý příběh)
  • 56 proteinových interaktorů: Širší molekulární síť
  • Data regulačních prvků: Kde se tato varianta nachází v řídící architektuře genomu

Získat tohle normálně vyžaduje bioinformatický pipeline — stahování databází, spouštění anotačních nástrojů, parsování výstupních formátů. Tady je to jediné volání funkce, které posílá jen rsID, ne váš genotyp.

Kompletní report: Hloubková anotace OpenCRAVAT

Dva další reporty — asociace s vlastnostmi a polygenní rizikové skóre — jsou k dispozici v adresáři příkladů na GitHubu.


Klonovat, nakonfigurovat, dotazovat

Co potřebujete

  • Vaše VCF soubory od jakéhokoli poskytovatele sekvenování celého genomu
  • Agentické IDE s podporou MCP (Antigravity, Codex, Claude Code)
  • Python 3.10+ a conda (pro GeneChat-MCP)
  • Přibližně 2 GB místa na disku pro anotační databáze (ClinVar, SnpEff, GWAS Catalog, PGS modely)
  • Volitelné: cloudový účet OpenCRAVAT (bezplatná úroveň) pro hloubkovou anotaci

Architektura

Vaše IDE (chat)
  Antigravity / Codex / Claude Code
       │                │
       ▼                ▼
  ┌──────────┐   ┌──────────────┐
  │ GeneChat │   │  OpenCRAVAT  │
  │   MCP    │   │     MCP      │
  │ (lokální)│   │ (cloud API)  │
  └────┬─────┘   └──────┬───────┘
       │                │
       ▼                │ pouze rsID
  ┌──────────┐          │ (žádná genomová data)
  │ Vaše VCF │          ▼
  │ soubory  │     CADD, REVEL,
  │ (lokální)│     gnomAD, BioGRID
  └──────────┘

Nastavení

Nebudu zde reprodukovat README. Pokud umíte nakonfigurovat MCP server ve svém IDE, můžete sledovat instrukce v repozitáři.

Naklonujte ho: github.com/matbanik/agentic-genomics

Nastavení má tři části: GeneChat-MCP (lokální VCF dotazy), OpenCRAVAT-MCP (cloudová anotace) a MCP konfigurace vašeho IDE. README provede každou část.

Dvě věci, které způsobují problémy:

Indexování VCF. Vaše VCF soubory musí být před prvním dotazem indexovány pomocí tabix. GeneChat očekává páry .vcf.gz + .vcf.gz.tbi. Pokud index chybí, dotazy tiše selžou nebo vyhodí kryptické chyby. Repozitář to dokumentuje, ale je to nejčastější problém při nastavení.

Nesoulad formátu contigů. Někteří sekvenační poskytovatelé používají předpony chr1, chr2, chr3. Jiní používají prostě 1, 2, 3. Pokud váš VCF používá jeden formát a referenční databáze očekávají druhý, vyhledávání variant selže. Repozitář konverzi řeší, ale stojí za to vědět, proč by dotaz mohl vrátit „nenalezeno”, když víte, že varianta tam je.

Analýza tria? Stejné nastavení, více genomů. Zaregistrujte VCF soubor každého člena rodiny a dotazujte se přes všechny.

Na co se můžete ptát

Toto jsou výzvy v přirozeném jazyce, které můžete psát přímo do svého IDE. Agent automaticky směruje každý dotaz na správný MCP nástroj.

Jaký je můj CYP2D6 metabolizátorový status?

Proskenuj můj genom na patogenní varianty ClinVar

Které z těchto variant jsem zdědil po matce?

Vypočítej mé polygenní rizikové skóre BMI

Dej mi hloubkovou anotaci rs4988235

Jaké GWAS asociace existují pro metabolismus kofeinu?

Všech šest ukázkových reportů na GitHubu


Krajina

Nejste v tom sami

Tento prostor se rychle vyvíjí. Několik projektů, které stojí za to znát.

ClawBio vzešel z UK AI Agent Hackathonu na Imperial College. Je to Python CLI a knihovna — ne MCP server, takže architektura se liší, ale cíl se překrývá. Vytvořili dva nástroje, které jsem jinde neviděl: gwas-lookup federuje dotazy přes devět GWAS databází současně a clinpgx stahuje z PharmGKB, CPIC guidelines a FDA etiketových anotací v jednom volání. Komplementární práce, jiné rozhraní.

Objevují se i akademické signály. Článek v Briefings in Bioinformatics formalizoval MCPmed framework pro medicínské AI agenty. EMBL má BioContextAI ve vývoji. cBioPortal — databáze nádorové genomiky — má teď MCP rozhraní. IBM Research prezentoval související práci na ISMB.

Na open-source straně: Bio-MCP poskytuje obecný přístup k bioinformatickým nástrojům, gget-mcp obaluje gget knihovnu pro genové/proteinové dotazy a IGV-MCP se připojuje k Integrative Genomics Viewer pro vizualizaci.

Vzorec je jasný. Genomová data se stávají dotazovatelnými přes konverzační rozhraní. Otázka je, jestli se to děje na vašem počítači nebo na cizím.

Co to není

Chci být přímý ohledně omezení.

Tohle nediagnostikuje nemoci. ClinVar značka „patogenní” není diagnóza — je to záznam v databázi odrážející předloženou evidenci, často s protichůdnými interpretacemi.

Tohle nedoporučuje léčbu. Intermediární metabolizátorový status CYP2D6 je genotypové faktum. Co s tím dělat je klinické rozhodnutí, které závisí na vašem kompletním zdravotním kontextu, dalších lécích a úsudku vašeho lékaře.

Tohle neposkytuje výživové rady. Váš MTHFR status vám neřekne, jaké doplňky brát.

Star-alelová volání — CYP2D6 *1/*4, CYP2C19 *1/*1 — jsou faktická genotypová data. Popisují, jaké varianty nesete. Převod toho do akce vyžaduje člověka s klinickým vzděláním a vaším kompletním obrazem.

Pokud najdete něco znepokojivého, proberte to s genetickým poradcem nebo vaším lékařem. Tohle není výhrada; takhle to funguje.

Zdrojové databáze jsou pojmenovány a verzovány v každém výstupu dotazu: PharmVar pro definice star-alel, CPIC pro genotyp-fenotyp mapování, ClinVar pro klinické klasifikace variant, gnomAD pro populační frekvence.


Závěr

Váš genom je nejsoukromější datová sada, jakou kdy budete vlastnit. Právě teď většina z ní leží ve složce, kterou jste nikdy neotevřeli — nebo na serveru, který neovládáte.

Nástroje k tomu to změnit jsou zdarma, otevřené a běží na vašem počítači.

Pixel art postava stojící na kopci při západu slunce drží zářící střep genomu, s robotickým společníkem, otočená zády k vzdálené cloudové pevnosti
Vaše data. Váš počítač. Vaše otázky.

Pokud se zasekněte při nastavení, otevřete issue na GitHubu. K tomu to tam je.


Zdroje


⚠️ Upozornění: Toto je faktická genotypová zpráva, nikoli lékařská rada. Projednávejte realizovatelné nálezy se svým lékařem nebo genetickým poradcem. Zdrojové databáze: PharmVar, CPIC, ClinVar, gnomAD — verze uvedeny u každého dotazu.