Seu genoma foi sequenciado. E agora?
Você pagou entre 300 e 500 dólares pelo sequenciamento completo do seu genoma. Talvez Nebula, talvez Dante, talvez um dos provedores mais novos que vivem se subcotando. Você recebeu uma pasta. Dentro dessa pasta: um arquivo VCF com 4,86 milhões de linhas de dados de variantes e um painel que mostra talvez 1% do que há ali.
O painel responde às perguntas deles. Composição ancestral. Um punhado de associações de características. Talvez uma triagem de portador se você tiver sorte. Mas suas perguntas — as que realmente importam para você — não têm botão.
“Quais são meus fenótipos metabolizadores de enzimas CYP?” Sem botão.
“Quais variantes eu herdei do meu pai versus da minha mãe?” Definitivamente sem botão.
“O que o ClinVar diz sobre aquela variante que meu médico sinalizou na semana passada?” Nem de longe.
Este artigo é sobre fechar essa lacuna. Vou mostrar por que ela existe, como é quando ela desaparece, e como configurar tudo você mesmo — localmente, sem enviar seu genoma para lugar nenhum.
O problema do “E agora?”
O mercado de sequenciamento genômico para consumidores tem uma assimetria estranha. Ser sequenciado é fácil. Cobertura de trinta vezes por menos de 500 dólares em 2026. A curva de preços vem caindo há anos e continua caindo.
Mas a interpretação não acompanhou.
Você recebe um arquivo VCF com milhões de linhas de variantes. Cada linha é uma posição no seu genoma que difere da referência. Algumas dessas diferenças importam muito. A maioria não. E as plataformas de consumo que te venderam o teste? Elas mostram uma fatia curada — relatórios pré-construídos com respostas pré-construídas.
Isso é bom para as perguntas que eles anteciparam. É inútil para as que não anteciparam.
Veja o que se perde no painel médio do consumidor:
Variação não-SNP. Variantes estruturais, variações no número de cópias, DNA mitocondrial. A maioria das plataformas de consumo pula isso completamente ou trata como secundário.
Consultas com contexto familiar. Se você também sequenciou seus pais, você tem um trio — três genomas que podem dizer quais variantes vieram de quem. Zero plataformas de consumo oferecem análise de trio.
Busca flexível de evidências. Você lê sobre uma variante em um artigo de pesquisa. Quer saber se a carrega, o que o ClinVar diz, qual é a frequência populacional em diferentes grupos ancestrais. O painel não tem um botão de “buscar um rsID qualquer”.
A falência da 23andMe em março de 2025 tornou isso concreto. Nas 24 horas após o pedido de Chapter 11, o site recebeu 1,5 milhão de visitas — um aumento de 526%. A página de exclusão de dados recebeu 376.000 acessos no primeiro dia, 480.000 no segundo. As pessoas perceberam que seu conjunto de dados mais pessoal estava no servidor de outra pessoa, e queriam ele de volta.
A demanda por análise local não é hipotética. É medida em cliques na página de exclusão.
Como fica quando você fecha a lacuna
O stack que venho usando tem três componentes:
GeneChat-MCP cuida das consultas VCF locais. Ele lê seus arquivos de variantes diretamente — nada sai da sua máquina. Você pode perguntar sobre genes específicos, escanear variantes patogênicas conhecidas, comparar padrões de herança entre membros da família.
OpenCRAVAT-MCP se conecta a bancos de dados de anotação na nuvem, mas envia apenas rsIDs (os identificadores públicos de variantes conhecidas, como rs4988235 para persistência de lactase). Seu genótipo real fica local. O que volta: frequências populacionais, predições funcionais, dados de interação proteica, anotações regulatórias — o contexto que torna uma variante significativa.
Pomera cuida das notas de sessão. Quando você trabalha com consultas complexas, precisa de contexto persistente.
Os três funcionam dentro do seu IDE através do Model Context Protocol. Antigravity, Codex, Claude Code — qualquer coisa que suporte MCP. Você pergunta em linguagem natural. O IDE roteia a consulta para a ferramenta certa. Você recebe respostas fundamentadas dos seus arquivos reais.
Sem uploads. Sem níveis de assinatura. Sem esperar por um relatório.
Quatro exemplos de um genoma real
Executei todas essas consultas com dados reais. Os relatórios completos — com tabelas, bancos de dados fonte e marcadores de versão — estão disponíveis no diretório de exemplos no GitHub. Veja o que encontraram.
Metabolismo de medicamentos (Farmacogenômica)
Consulta: “Quais são meus fenótipos metabolizadores de enzimas CYP para o metabolismo de medicamentos?”
| Gene | Fenótipo provável | Achado principal |
|---|---|---|
| CYP2C19 | Metabolizador normal | Sem alelos *2, *3 ou *17 |
| CYP2D6 | Metabolizador intermediário | Portador heterozigoto de *4 (*1/*4) |
| CYP2C9 | Metabolizador normal | Sem alelos *2 ou *3 |
| CYP3A5 | Não-expressor (*3/*3) | Genótipo europeu comum |
O CYP2D6 é o mais importante aqui. Ele metaboliza aproximadamente 25% de todos os medicamentos prescritos — codeína, tramadol, tamoxifeno, muitos antidepressivos, vários betabloqueadores. Um status de metabolizador intermediário significa atividade enzimática reduzida. A codeína não se converterá em morfina tão eficientemente. Alguns antidepressivos podem precisar de ajustes de dose.
São dados genotípicos factuais, não uma receita. Mas é exatamente o tipo de informação que vale a pena discutir com um prescritor antes que ele receite tramadol.
Mais de cem rótulos de medicamentos da FDA fazem referência a biomarcadores farmacogenômicos. Seu prescritor pode não conhecer seu status metabolizador. Você pode levar essa informação a ele.
→ Relatório completo: Perfil farmacogenômico
O que você herdou de quem (Análise de trio)
Consulta: “Para essas variantes conhecidas, de qual genitor eu as herdei?”
Três arquivos VCF. Três genomas. Lógica de trio padrão: se você é heterozigoto e um genitor carrega a variante enquanto o outro não, você sabe de qual lado ela veio.
| Variante | Gene | Herança |
|---|---|---|
| rs1801131 | MTHFR (A1298C) | Paterna — pai é het, mãe é tipo selvagem |
| rs17822931 | ABCC11 (tipo de cerume) | Materna — mãe é het, pai é tipo selvagem |
| rs4988235 | MCM6 (lactase) | Ambos genitores — um alelo de cada |
| rs1050450 | GPX1 (antioxidante) | Não herdada — mãe carrega, sujeito é tipo selvagem |
Essa última linha é a que as pessoas não esperam. Seu genitor carrega uma variante. Você não a herdou. É uma pergunta que você pode responder com análise de trio e literalmente nada mais disponível para consumidores.
→ Relatório completo: Análise de herança de trio
Scan genômico ClinVar
Consulta: “Escaneie meu genoma em busca de variantes patogênicas do ClinVar.”
ClinVar é o banco de dados do NIH de variantes clinicamente relevantes — aquelas ligadas a doenças, respostas a medicamentos ou outros fenótipos. Um scan completo contra 4,86 milhões de variantes encontrou:
- 100 variantes patogênicas em 41 genes
- 25 variantes de resposta a medicamentos
Isso soa alarmante até você aprofundar. A maioria das entradas marcadas como “patogênicas” tem classificações conflitantes. Um laboratório a chama de patogênica, outro de benigna, um terceiro diz significado incerto. O banco de dados captura esse desacordo, o que na verdade é valioso — te diz onde a ciência ainda não está resolvida.
Um punhado de variantes tinha classificações patogênicas consistentes entre múltiplos submissores. Essas valem a pena revisar com um conselheiro genético. O resto é ruído, ou pelo menos ruído até que mais evidências se acumulem.
→ Relatório completo: Scan de variantes ClinVar
Anotação profunda de variantes (OpenCRAVAT)
Consulta: “Me dê uma anotação profunda de rs4988235.”
Aqui é onde a consulta na nuvem só com rsID mostra seu valor. Uma única chamada — annotate_rsid("rs4988235") — retornou mais de 150 campos de anotação para a variante de persistência de lactase:
- Score CADD: Predição de impacto funcional
- Frequências populacionais em sete grupos ancestrais: 60,2% em europeus, 0,3% em asiáticos orientais (essa variante possibilitou a pecuária leiteira no norte da Europa — sua distribuição geográfica conta uma história de 10.000 anos)
- 56 interatores proteicos: A rede molecular mais ampla
- Dados de elementos regulatórios: Onde essa variante se situa na arquitetura de controle do genoma
Obter isso normalmente requer um pipeline bioinformático — baixar bancos de dados, executar ferramentas de anotação, parsear formatos de saída. Aqui é uma única chamada de função que envia apenas o rsID, não seu genótipo.
→ Relatório completo: Anotação profunda OpenCRAVAT
Dois relatórios adicionais — associações de características e scores de risco poligênico — estão disponíveis no diretório de exemplos do GitHub.
Clonar, configurar, consultar
O que você precisa
- Seus arquivos VCF de qualquer provedor de sequenciamento genômico completo
- Um IDE agêntico que suporte MCP (Antigravity, Codex, Claude Code)
- Python 3.10+ e conda (para GeneChat-MCP)
- Aproximadamente 2GB de espaço em disco para bancos de dados de anotação (ClinVar, SnpEff, GWAS Catalog, modelos PGS)
- Opcional: uma conta cloud OpenCRAVAT (nível gratuito) para anotação profunda
Arquitetura
Seu IDE (chat)
Antigravity / Codex / Claude Code
│ │
▼ ▼
┌──────────┐ ┌──────────────┐
│ GeneChat │ │ OpenCRAVAT │
│ MCP │ │ MCP │
│ (local) │ │ (cloud API) │
└────┬─────┘ └──────┬───────┘
│ │
▼ │ apenas rsIDs
┌──────────┐ │ (sem dados genômicos)
│ Seus VCF │ ▼
│ arquivos │ CADD, REVEL,
│ (local) │ gnomAD, BioGRID
└──────────┘
Configuração
Não vou reproduzir o README aqui. Se você sabe configurar um servidor MCP no seu IDE, pode seguir as instruções do repositório.
Clone: github.com/matbanik/agentic-genomics
A configuração tem três partes: GeneChat-MCP (consultas VCF locais), OpenCRAVAT-MCP (anotação na nuvem), e a configuração MCP do seu IDE. O README percorre cada uma.
Duas coisas que causam problemas:
Indexação VCF. Seus arquivos VCF precisam ser indexados com tabix antes da primeira consulta. GeneChat espera pares .vcf.gz + .vcf.gz.tbi. Se o índice estiver faltando, as consultas falharão silenciosamente ou lançarão erros crípticos. O repositório documenta isso, mas é o problema de configuração mais comum.
Divergência de formato de contig. Alguns provedores de sequenciamento usam prefixos chr1, chr2, chr3. Outros usam simplesmente 1, 2, 3. Se seu VCF usa um formato e os bancos de dados de referência esperam o outro, as buscas de variantes falharão. O repositório lida com a conversão, mas vale saber por que uma consulta poderia retornar “não encontrado” quando você sabe que a variante está lá.
Análise de trio? Mesma configuração, mais genomas. Registre o arquivo VCF de cada membro da família e consulte todos juntos.
O que você pode perguntar
Esses são prompts em linguagem natural que você pode digitar diretamente no seu IDE. O agente roteia cada um para a ferramenta MCP correta automaticamente.
Qual é meu status metabolizador de CYP2D6? Escaneie meu genoma em busca de variantes patogênicas do ClinVar Quais dessas variantes eu herdei da minha mãe? Calcule meu score de risco poligênico de IMC Me dê uma anotação profunda de rs4988235 Que associações GWAS existem para o metabolismo da cafeína?
→ Todos os seis relatórios de exemplo no GitHub
O panorama
Você não está sozinho
Este espaço se move rápido. Alguns projetos que vale conhecer.
ClawBio surgiu do UK AI Agent Hackathon no Imperial College. É uma CLI Python e biblioteca — não um servidor MCP, então a arquitetura difere, mas o objetivo se sobrepõe. Eles construíram duas ferramentas que não vi em outro lugar: gwas-lookup federa consultas em nove bancos de dados GWAS simultaneamente, e clinpgx puxa das diretrizes PharmGKB, CPIC e anotações de rótulos FDA em uma única chamada. Trabalho complementar, paradigma de interface diferente.
Sinais acadêmicos também estão surgindo. Um artigo no Briefings in Bioinformatics formalizou o framework MCPmed para agentes médicos de IA. O EMBL tem o BioContextAI em desenvolvimento. cBioPortal — o banco de dados de genômica do câncer — agora tem uma interface MCP. A IBM Research apresentou trabalhos relacionados no ISMB.
No lado do código aberto: Bio-MCP fornece acesso geral a ferramentas bioinformáticas, gget-mcp encapsula a biblioteca gget para consultas de genes/proteínas, e IGV-MCP se conecta ao Integrative Genomics Viewer para visualização.
O padrão é claro. Dados genômicos estão se tornando consultáveis através de interfaces conversacionais. A questão é se isso acontece na sua máquina ou na de outra pessoa.
O que isso não é
Quero ser direto sobre os limites.
Isso não diagnostica doenças. Uma marcação “patogênica” do ClinVar não é um diagnóstico — é uma entrada de banco de dados refletindo evidências submetidas, frequentemente com interpretações conflitantes.
Isso não recomenda tratamentos. Um status de metabolizador intermediário de CYP2D6 é um fato genotípico. O que fazer a respeito é uma decisão clínica que depende do seu contexto médico completo, outros medicamentos e o julgamento do seu prescritor.
Isso não fornece conselhos nutricionais. Seu status MTHFR não te diz quais suplementos tomar.
Chamadas de alelos estrela — CYP2D6 *1/*4, CYP2C19 *1/*1 — são dados genotípicos factuais. Elas descrevem quais variantes você carrega. Traduzir isso em ação requer um humano com formação clínica e seu quadro completo.
Se você encontrar algo preocupante, discuta com um conselheiro genético ou seu prescritor. Isso não é uma ressalva; é como isso funciona.
Bancos de dados fonte são nomeados e versionados em cada resultado de consulta: PharmVar para definições de alelos estrela, CPIC para mapeamentos genótipo-fenótipo, ClinVar para classificações clínicas de variantes, gnomAD para frequências populacionais.
Encerramento
Seu genoma é o conjunto de dados mais pessoal que você jamais terá. Agora mesmo, a maior parte dele está em uma pasta que você nunca abriu — ou em um servidor que você não controla.
As ferramentas para mudar isso são gratuitas, abertas e rodam na sua máquina.
Se você travar durante a configuração, abra uma issue no GitHub. É para isso que ela existe.
Recursos
- Agentic Genomics — Repositório GitHub
- Relatórios de exemplo (Farmacogenômica, Trio, ClinVar, OpenCRAVAT)
- GeneChat-MCP — Consultas VCF locais
- OpenCRAVAT-MCP — Anotação na nuvem
- OpenCRAVAT — Plataforma de anotação de variantes
- Pomera — Notas de sessão para MCP
- Especificação MCP
- Antigravity IDE
- ChatGPT Codex
- Claude Code
- ClinVar — Banco de dados de variantes clínicas
- PharmVar — Definições de alelos estrela
- CPIC — Mapeamentos genótipo-fenótipo
- gnomAD — Frequências populacionais
- Biomarcadores farmacogenômicos da FDA
- ClawBio — CLI de genômica Python
- Bio-MCP · gget-mcp · IGV-MCP
⚠️ Aviso legal: Este é um relatório genotípico factual, não aconselhamento médico. Discuta achados acionáveis com seu prescritor ou conselheiro genético. Bancos de dados fonte: PharmVar, CPIC, ClinVar, gnomAD — versões indicadas por consulta.