Seu genoma foi sequenciado. E agora?

Você pagou entre 300 e 500 dólares pelo sequenciamento completo do seu genoma. Talvez Nebula, talvez Dante, talvez um dos provedores mais novos que vivem se subcotando. Você recebeu uma pasta. Dentro dessa pasta: um arquivo VCF com 4,86 milhões de linhas de dados de variantes e um painel que mostra talvez 1% do que há ali.

O painel responde às perguntas deles. Composição ancestral. Um punhado de associações de características. Talvez uma triagem de portador se você tiver sorte. Mas suas perguntas — as que realmente importam para você — não têm botão.

“Quais são meus fenótipos metabolizadores de enzimas CYP?” Sem botão.

“Quais variantes eu herdei do meu pai versus da minha mãe?” Definitivamente sem botão.

“O que o ClinVar diz sobre aquela variante que meu médico sinalizou na semana passada?” Nem de longe.

Este artigo é sobre fechar essa lacuna. Vou mostrar por que ela existe, como é quando ela desaparece, e como configurar tudo você mesmo — localmente, sem enviar seu genoma para lugar nenhum.

Personagem pixel art encarando dados genômicos esmagadores em um monitor brilhante em um escritório caseiro aconchegante à noite

O problema do “E agora?”

O mercado de sequenciamento genômico para consumidores tem uma assimetria estranha. Ser sequenciado é fácil. Cobertura de trinta vezes por menos de 500 dólares em 2026. A curva de preços vem caindo há anos e continua caindo.

Mas a interpretação não acompanhou.

Você recebe um arquivo VCF com milhões de linhas de variantes. Cada linha é uma posição no seu genoma que difere da referência. Algumas dessas diferenças importam muito. A maioria não. E as plataformas de consumo que te venderam o teste? Elas mostram uma fatia curada — relatórios pré-construídos com respostas pré-construídas.

Isso é bom para as perguntas que eles anteciparam. É inútil para as que não anteciparam.

Veja o que se perde no painel médio do consumidor:

Variação não-SNP. Variantes estruturais, variações no número de cópias, DNA mitocondrial. A maioria das plataformas de consumo pula isso completamente ou trata como secundário.

Consultas com contexto familiar. Se você também sequenciou seus pais, você tem um trio — três genomas que podem dizer quais variantes vieram de quem. Zero plataformas de consumo oferecem análise de trio.

Busca flexível de evidências. Você lê sobre uma variante em um artigo de pesquisa. Quer saber se a carrega, o que o ClinVar diz, qual é a frequência populacional em diferentes grupos ancestrais. O painel não tem um botão de “buscar um rsID qualquer”.

A falência da 23andMe em março de 2025 tornou isso concreto. Nas 24 horas após o pedido de Chapter 11, o site recebeu 1,5 milhão de visitas — um aumento de 526%. A página de exclusão de dados recebeu 376.000 acessos no primeiro dia, 480.000 no segundo. As pessoas perceberam que seu conjunto de dados mais pessoal estava no servidor de outra pessoa, e queriam ele de volta.

A demanda por análise local não é hipotética. É medida em cliques na página de exclusão.

Como fica quando você fecha a lacuna

O stack que venho usando tem três componentes:

GeneChat-MCP cuida das consultas VCF locais. Ele lê seus arquivos de variantes diretamente — nada sai da sua máquina. Você pode perguntar sobre genes específicos, escanear variantes patogênicas conhecidas, comparar padrões de herança entre membros da família.

OpenCRAVAT-MCP se conecta a bancos de dados de anotação na nuvem, mas envia apenas rsIDs (os identificadores públicos de variantes conhecidas, como rs4988235 para persistência de lactase). Seu genótipo real fica local. O que volta: frequências populacionais, predições funcionais, dados de interação proteica, anotações regulatórias — o contexto que torna uma variante significativa.

Pomera cuida das notas de sessão. Quando você trabalha com consultas complexas, precisa de contexto persistente.

Os três funcionam dentro do seu IDE através do Model Context Protocol. Antigravity, Codex, Claude Code — qualquer coisa que suporte MCP. Você pergunta em linguagem natural. O IDE roteia a consulta para a ferramenta certa. Você recebe respostas fundamentadas dos seus arquivos reais.

Sem uploads. Sem níveis de assinatura. Sem esperar por um relatório.

Personagem pixel art relaxado em um espaço de trabalho IDE limpo com resultados de consulta genômica organizados e um companheiro robô flutuante — Mesma mesa, outra história. Os dados estão organizados, consultáveis e totalmente locais.

Quatro exemplos de um genoma real

Executei todas essas consultas com dados reais. Os relatórios completos — com tabelas, bancos de dados fonte e marcadores de versão — estão disponíveis no diretório de exemplos no GitHub. Veja o que encontraram.

Metabolismo de medicamentos (Farmacogenômica)

Consulta: “Quais são meus fenótipos metabolizadores de enzimas CYP para o metabolismo de medicamentos?”

Gene	Fenótipo provável	Achado principal
CYP2C19	Metabolizador normal	Sem alelos 2, 3 ou *17
CYP2D6	Metabolizador intermediário	Portador heterozigoto de 4 (1/*4)
CYP2C9	Metabolizador normal	Sem alelos 2 ou 3
CYP3A5	Não-expressor (3/3)	Genótipo europeu comum

O CYP2D6 é o mais importante aqui. Ele metaboliza aproximadamente 25% de todos os medicamentos prescritos — codeína, tramadol, tamoxifeno, muitos antidepressivos, vários betabloqueadores. Um status de metabolizador intermediário significa atividade enzimática reduzida. A codeína não se converterá em morfina tão eficientemente. Alguns antidepressivos podem precisar de ajustes de dose.

São dados genotípicos factuais, não uma receita. Mas é exatamente o tipo de informação que vale a pena discutir com um prescritor antes que ele receite tramadol.

Mais de cem rótulos de medicamentos da FDA fazem referência a biomarcadores farmacogenômicos. Seu prescritor pode não conhecer seu status metabolizador. Você pode levar essa informação a ele.

→ Relatório completo: Perfil farmacogenômico

Loja de poções RPG pixel art reimaginada como laboratório de farmacogenômica com ícones de enzimas brilhando em verde e âmbar — Quatro enzimas, quatro resultados. A âmbar — CYP2D6 — processa um quarto de todos os medicamentos prescritos.

O que você herdou de quem (Análise de trio)

Consulta: “Para essas variantes conhecidas, de qual genitor eu as herdei?”

Três arquivos VCF. Três genomas. Lógica de trio padrão: se você é heterozigoto e um genitor carrega a variante enquanto o outro não, você sabe de qual lado ela veio.

Variante	Gene	Herança
rs1801131	MTHFR (A1298C)	Paterna — pai é het, mãe é tipo selvagem
rs17822931	ABCC11 (tipo de cerume)	Materna — mãe é het, pai é tipo selvagem
rs4988235	MCM6 (lactase)	Ambos genitores — um alelo de cada
rs1050450	GPX1 (antioxidante)	Não herdada — mãe carrega, sujeito é tipo selvagem

Essa última linha é a que as pessoas não esperam. Seu genitor carrega uma variante. Você não a herdou. É uma pergunta que você pode responder com análise de trio e literalmente nada mais disponível para consumidores.

→ Relatório completo: Análise de herança de trio

Família pixel art de três ao redor de uma mesa com orbes genômicos brilhantes e fios luminosos de herança conectando-os — Três genomas, três orbes. Os fios de luz traçam o que foi herdado — e o que não foi.

Scan genômico ClinVar

Consulta: “Escaneie meu genoma em busca de variantes patogênicas do ClinVar.”

ClinVar é o banco de dados do NIH de variantes clinicamente relevantes — aquelas ligadas a doenças, respostas a medicamentos ou outros fenótipos. Um scan completo contra 4,86 milhões de variantes encontrou:

100 variantes patogênicas em 41 genes
25 variantes de resposta a medicamentos

Isso soa alarmante até você aprofundar. A maioria das entradas marcadas como “patogênicas” tem classificações conflitantes. Um laboratório a chama de patogênica, outro de benigna, um terceiro diz significado incerto. O banco de dados captura esse desacordo, o que na verdade é valioso — te diz onde a ciência ainda não está resolvida.

Um punhado de variantes tinha classificações patogênicas consistentes entre múltiplos submissores. Essas valem a pena revisar com um conselheiro genético. O resto é ruído, ou pelo menos ruído até que mais evidências se acumulem.

→ Relatório completo: Scan de variantes ClinVar

Anotação profunda de variantes (OpenCRAVAT)

Consulta: “Me dê uma anotação profunda de rs4988235.”

Aqui é onde a consulta na nuvem só com rsID mostra seu valor. Uma única chamada — annotate_rsid("rs4988235") — retornou mais de 150 campos de anotação para a variante de persistência de lactase:

Score CADD: Predição de impacto funcional
Frequências populacionais em sete grupos ancestrais: 60,2% em europeus, 0,3% em asiáticos orientais (essa variante possibilitou a pecuária leiteira no norte da Europa — sua distribuição geográfica conta uma história de 10.000 anos)
56 interatores proteicos: A rede molecular mais ampla
Dados de elementos regulatórios: Onde essa variante se situa na arquitetura de controle do genoma

Obter isso normalmente requer um pipeline bioinformático — baixar bancos de dados, executar ferramentas de anotação, parsear formatos de saída. Aqui é uma única chamada de função que envia apenas o rsID, não seu genótipo.

→ Relatório completo: Anotação profunda OpenCRAVAT

Dois relatórios adicionais — associações de características e scores de risco poligênico — estão disponíveis no diretório de exemplos do GitHub.

Clonar, configurar, consultar

O que você precisa

Seus arquivos VCF de qualquer provedor de sequenciamento genômico completo
Um IDE agêntico que suporte MCP (Antigravity, Codex, Claude Code)
Python 3.10+ e conda (para GeneChat-MCP)
Aproximadamente 2GB de espaço em disco para bancos de dados de anotação (ClinVar, SnpEff, GWAS Catalog, modelos PGS)
Opcional: uma conta cloud OpenCRAVAT (nível gratuito) para anotação profunda

Arquitetura

Seu IDE (chat)
  Antigravity / Codex / Claude Code
       │                │
       ▼                ▼
  ┌──────────┐   ┌──────────────┐
  │ GeneChat │   │  OpenCRAVAT  │
  │   MCP    │   │     MCP      │
  │ (local)  │   │ (cloud API)  │
  └────┬─────┘   └──────┬───────┘
       │                │
       ▼                │ apenas rsIDs
  ┌──────────┐          │ (sem dados genômicos)
  │ Seus VCF │          ▼
  │ arquivos │     CADD, REVEL,
  │ (local)  │     gnomAD, BioGRID
  └──────────┘

Configuração

Não vou reproduzir o README aqui. Se você sabe configurar um servidor MCP no seu IDE, pode seguir as instruções do repositório.

Clone: github.com/matbanik/agentic-genomics

A configuração tem três partes: GeneChat-MCP (consultas VCF locais), OpenCRAVAT-MCP (anotação na nuvem), e a configuração MCP do seu IDE. O README percorre cada uma.

Duas coisas que causam problemas:

Indexação VCF. Seus arquivos VCF precisam ser indexados com tabix antes da primeira consulta. GeneChat espera pares .vcf.gz + .vcf.gz.tbi. Se o índice estiver faltando, as consultas falharão silenciosamente ou lançarão erros crípticos. O repositório documenta isso, mas é o problema de configuração mais comum.

Divergência de formato de contig. Alguns provedores de sequenciamento usam prefixos chr1, chr2, chr3. Outros usam simplesmente 1, 2, 3. Se seu VCF usa um formato e os bancos de dados de referência esperam o outro, as buscas de variantes falharão. O repositório lida com a conversão, mas vale saber por que uma consulta poderia retornar “não encontrado” quando você sabe que a variante está lá.

Análise de trio? Mesma configuração, mais genomas. Registre o arquivo VCF de cada membro da família e consulte todos juntos.

O que você pode perguntar

Esses são prompts em linguagem natural que você pode digitar diretamente no seu IDE. O agente roteia cada um para a ferramenta MCP correta automaticamente.

Qual é meu status metabolizador de CYP2D6?

Escaneie meu genoma em busca de variantes patogênicas do ClinVar

Quais dessas variantes eu herdei da minha mãe?

Calcule meu score de risco poligênico de IMC

Me dê uma anotação profunda de rs4988235

Que associações GWAS existem para o metabolismo da cafeína?

→ Todos os seis relatórios de exemplo no GitHub

O panorama

Você não está sozinho

Este espaço se move rápido. Alguns projetos que vale conhecer.

ClawBio surgiu do UK AI Agent Hackathon no Imperial College. É uma CLI Python e biblioteca — não um servidor MCP, então a arquitetura difere, mas o objetivo se sobrepõe. Eles construíram duas ferramentas que não vi em outro lugar: gwas-lookup federa consultas em nove bancos de dados GWAS simultaneamente, e clinpgx puxa das diretrizes PharmGKB, CPIC e anotações de rótulos FDA em uma única chamada. Trabalho complementar, paradigma de interface diferente.

Sinais acadêmicos também estão surgindo. Um artigo no Briefings in Bioinformatics formalizou o framework MCPmed para agentes médicos de IA. O EMBL tem o BioContextAI em desenvolvimento. cBioPortal — o banco de dados de genômica do câncer — agora tem uma interface MCP. A IBM Research apresentou trabalhos relacionados no ISMB.

No lado do código aberto: Bio-MCP fornece acesso geral a ferramentas bioinformáticas, gget-mcp encapsula a biblioteca gget para consultas de genes/proteínas, e IGV-MCP se conecta ao Integrative Genomics Viewer para visualização.

O padrão é claro. Dados genômicos estão se tornando consultáveis através de interfaces conversacionais. A questão é se isso acontece na sua máquina ou na de outra pessoa.

O que isso não é

Quero ser direto sobre os limites.

Isso não diagnostica doenças. Uma marcação “patogênica” do ClinVar não é um diagnóstico — é uma entrada de banco de dados refletindo evidências submetidas, frequentemente com interpretações conflitantes.

Isso não recomenda tratamentos. Um status de metabolizador intermediário de CYP2D6 é um fato genotípico. O que fazer a respeito é uma decisão clínica que depende do seu contexto médico completo, outros medicamentos e o julgamento do seu prescritor.

Isso não fornece conselhos nutricionais. Seu status MTHFR não te diz quais suplementos tomar.

Chamadas de alelos estrela — CYP2D6 *1/*4, CYP2C19 *1/*1 — são dados genotípicos factuais. Elas descrevem quais variantes você carrega. Traduzir isso em ação requer um humano com formação clínica e seu quadro completo.

Se você encontrar algo preocupante, discuta com um conselheiro genético ou seu prescritor. Isso não é uma ressalva; é como isso funciona.

Bancos de dados fonte são nomeados e versionados em cada resultado de consulta: PharmVar para definições de alelos estrela, CPIC para mapeamentos genótipo-fenótipo, ClinVar para classificações clínicas de variantes, gnomAD para frequências populacionais.

Encerramento

Seu genoma é o conjunto de dados mais pessoal que você jamais terá. Agora mesmo, a maior parte dele está em uma pasta que você nunca abriu — ou em um servidor que você não controla.

As ferramentas para mudar isso são gratuitas, abertas e rodam na sua máquina.

Personagem pixel art de pé no topo de uma colina ao pôr do sol segurando um fragmento de genoma brilhante, com um companheiro robô, de costas para uma fortaleza de nuvem distante — Seus dados. Sua máquina. Suas perguntas.

Se você travar durante a configuração, abra uma issue no GitHub. É para isso que ela existe.

Recursos

⚠️ Aviso legal: Este é um relatório genotípico factual, não aconselhamento médico. Discuta achados acionáveis com seu prescritor ou conselheiro genético. Bancos de dados fonte: PharmVar, CPIC, ClinVar, gnomAD — versões indicadas por consulta.