आपके पूरे जीनोम की सीक्वेंसिंग हो गई। अब क्या?

आपने पूरे जीनोम सीक्वेंसिंग के लिए 300 से 500 डॉलर के बीच भुगतान किया। शायद Nebula, शायद Dante, शायद कोई नया प्रदाता जो एक-दूसरे की कीमतें काट रहे हैं। आपको एक फोल्डर मिला। उस फोल्डर के अंदर: 48.6 लाख पंक्तियों के वैरिएंट डेटा वाली एक VCF फाइल और एक डैशबोर्ड जो शायद उसका 1% ही दिखाता है।

डैशबोर्ड उनके सवालों का जवाब देता है। वंशावली विश्लेषण। कुछ गुण संबंध। अगर किस्मत अच्छी हो तो शायद कैरियर स्क्रीनिंग। लेकिन आपके सवाल — जो वास्तव में आपके लिए मायने रखते हैं — उनके लिए कोई बटन नहीं है।

“मेरे CYP एंजाइम मेटाबोलाइज़र फेनोटाइप क्या हैं?” कोई बटन नहीं।

“कौन से वैरिएंट मुझे पिता से विरासत में मिले बनाम माता से?” बिल्कुल कोई बटन नहीं।

“पिछले हफ्ते मेरे डॉक्टर ने जो वैरिएंट बताया, उसके बारे में ClinVar क्या कहता है?” इसकी तो कल्पना भी मुश्किल है।

यह लेख उस अंतर को पाटने के बारे में है। मैं दिखाऊंगा कि यह अंतर क्यों है, जब यह दूर हो जाता है तो कैसा दिखता है, और इसे खुद कैसे सेट अप करें — स्थानीय रूप से, अपना जीनोम कहीं अपलोड किए बिना।

रात में एक आरामदायक घरेलू कार्यालय में चमकते मॉनिटर पर भारी जीनोम डेटा को देखता पिक्सेल आर्ट किरदार

“अब क्या?” समस्या

उपभोक्ता जीनोम सीक्वेंसिंग बाजार में एक अजीब विषमता है। सीक्वेंसिंग करवाना आसान है। 2026 में 500 डॉलर से कम में तीस गुना कवरेज। कीमत का ग्राफ सालों से गिर रहा है और अभी भी गिर रहा है।

लेकिन व्याख्या साथ नहीं रख पाई है।

आपको लाखों वैरिएंट पंक्तियों वाली VCF फाइल मिलती है। हर पंक्ति आपके जीनोम में एक स्थिति है जो संदर्भ से अलग है। उनमें से कुछ अंतर बहुत मायने रखते हैं। ज्यादातर नहीं। और जिन उपभोक्ता प्लेटफॉर्मों ने आपको टेस्ट बेचा? वे एक क्यूरेटेड हिस्सा दिखाते हैं — पूर्व-निर्मित रिपोर्ट पूर्व-निर्मित उत्तरों के साथ।

जो सवाल उन्होंने पहले से सोचे थे, उनके लिए यह ठीक है। जो नहीं सोचे, उनके लिए बेकार है।

औसत उपभोक्ता डैशबोर्ड में यह खो जाता है:

गैर-SNP वैरिएशन। संरचनात्मक वैरिएंट, कॉपी संख्या विविधताएं, माइटोकॉन्ड्रियल DNA। ज्यादातर उपभोक्ता प्लेटफॉर्म इन्हें पूरी तरह छोड़ देते हैं या द्वितीयक मानते हैं।

पारिवारिक संदर्भ वाली क्वेरी। अगर आपने अपने माता-पिता की भी सीक्वेंसिंग कराई है, तो आपके पास एक ट्रायो है — तीन जीनोम जो बता सकते हैं कि कौन सा वैरिएंट किससे आया। शून्य उपभोक्ता प्लेटफॉर्म ट्रायो विश्लेषण प्रदान करते हैं।

लचीली साक्ष्य खोज। आपने एक शोध पत्र में किसी वैरिएंट के बारे में पढ़ा। आप जानना चाहते हैं कि क्या आप इसे वहन करते हैं, ClinVar क्या कहता है, विभिन्न वंश समूहों में जनसंख्या आवृत्ति क्या है। डैशबोर्ड में “कोई भी rsID खोजें” बटन नहीं है।

मार्च 2025 में 23andMe की दिवालियापन ने इसे ठोस बना दिया। Chapter 11 फाइलिंग के 24 घंटों के भीतर, साइट पर 15 लाख विज़िट आईं — 526% की बढ़ोतरी। डेटा-डिलीशन पेज को पहले दिन 3,76,000 और दूसरे दिन 4,80,000 हिट मिले। लोगों को एहसास हुआ कि उनका सबसे निजी डेटासेट किसी और के सर्वर पर था, और वे इसे वापस चाहते थे।

स्थानीय-प्रथम विश्लेषण की मांग काल्पनिक नहीं है। यह डिलीशन-पेज क्लिक में मापी जाती है।

जब आप अंतर पाटते हैं तो कैसा दिखता है

मैं जिस स्टैक का उपयोग कर रहा हूं उसके तीन घटक हैं:

GeneChat-MCP स्थानीय VCF क्वेरी संभालता है। यह सीधे आपकी वैरिएंट फाइलें पढ़ता है — कुछ भी आपकी मशीन से बाहर नहीं जाता। आप विशिष्ट जीन के बारे में पूछ सकते हैं, ज्ञात पैथोजेनिक वैरिएंट स्कैन कर सकते हैं, परिवार के सदस्यों के बीच विरासत पैटर्न की तुलना कर सकते हैं।

OpenCRAVAT-MCP क्लाउड एनोटेशन डेटाबेस से जुड़ता है, लेकिन केवल rsIDs भेजता है (ज्ञात वैरिएंट के सार्वजनिक पहचानकर्ता, जैसे लैक्टेज़ पर्सिस्टेंस के लिए rs4988235)। आपका वास्तविक जीनोटाइप स्थानीय रहता है। वापस आता है: जनसंख्या आवृत्तियां, कार्यात्मक पूर्वानुमान, प्रोटीन इंटरैक्शन डेटा, नियामक एनोटेशन — वह संदर्भ जो एक वैरिएंट को सार्थक बनाता है।

Pomera सत्र नोट्स प्रबंधित करता है। जब आप जटिल क्वेरी पर काम करते हैं, तो स्थायी संदर्भ चाहिए।

तीनों Model Context Protocol के माध्यम से आपके IDE के अंदर चलते हैं। Antigravity, Codex, Claude Code — जो भी MCP का समर्थन करता हो। आप प्राकृतिक भाषा में पूछते हैं। IDE क्वेरी को सही टूल तक पहुंचाता है। आपको अपनी वास्तविक फाइलों से प्रमाणित उत्तर मिलते हैं।

कोई अपलोड नहीं। कोई सब्सक्रिप्शन स्तर नहीं। किसी रिपोर्ट का इंतजार नहीं।

व्यवस्थित जीनोम क्वेरी परिणामों और एक तैरते रोबोट साथी के साथ एक साफ IDE कार्यक्षेत्र में आराम से बैठा पिक्सेल आर्ट किरदार — वही डेस्क, अलग कहानी। डेटा व्यवस्थित है, क्वेरी करने योग्य है, और पूरी तरह स्थानीय है।

एक वास्तविक जीनोम से चार उदाहरण

मैंने ये सभी क्वेरी वास्तविक डेटा पर चलाई हैं। पूर्ण रिपोर्ट — तालिकाओं, स्रोत डेटाबेस और संस्करण स्टैंप के साथ — GitHub पर उदाहरण निर्देशिका में उपलब्ध हैं। उन्होंने क्या पाया यह रहा।

दवा चयापचय (फार्माकोजेनोमिक्स)

क्वेरी: “दवा चयापचय के लिए मेरे CYP एंजाइम मेटाबोलाइज़र फेनोटाइप क्या हैं?”

जीन	संभावित फेनोटाइप	प्रमुख निष्कर्ष
CYP2C19	सामान्य मेटाबोलाइज़र	कोई 2, 3, या *17 एलील नहीं
CYP2D6	मध्यवर्ती मेटाबोलाइज़र	हेटेरोज़ायगस 4 कैरियर (1/*4)
CYP2C9	सामान्य मेटाबोलाइज़र	कोई 2 या 3 एलील नहीं
CYP3A5	गैर-अभिव्यक्तक (3/3)	सामान्य यूरोपीय जीनोटाइप

CYP2D6 यहां सबसे अहम है। यह सभी निर्धारित दवाओं का लगभग 25% मेटाबोलाइज़ करता है — कोडीन, ट्रामाडोल, टैमोक्सिफेन, कई एंटीडिप्रेसेंट, कई बीटा-ब्लॉकर। मध्यवर्ती मेटाबोलाइज़र स्थिति का मतलब कम एंजाइम गतिविधि है। कोडीन उतनी कुशलता से मॉर्फिन में नहीं बदलेगी। कुछ एंटीडिप्रेसेंट को खुराक समायोजन की आवश्यकता हो सकती है।

ये तथ्यात्मक जीनोटाइप डेटा हैं, प्रिस्क्रिप्शन नहीं। लेकिन यह बिल्कुल वही जानकारी है जो ट्रामाडोल का प्रिस्क्रिप्शन लिखने से पहले एक प्रिस्क्राइबर से चर्चा करने लायक है।

सौ से अधिक FDA दवा लेबल फार्माकोजेनोमिक बायोमार्कर का संदर्भ देते हैं। आपका प्रिस्क्राइबर शायद आपकी मेटाबोलाइज़र स्थिति नहीं जानता। आप यह जानकारी उन तक पहुंचा सकते हैं।

→ पूर्ण रिपोर्ट: फार्माकोजेनोमिक प्रोफाइल

हरे और एम्बर में चमकते एंजाइम आइकन के साथ फार्माकोजेनोमिक्स लैब के रूप में पुनर्कल्पित पिक्सेल आर्ट RPG पोशन शॉप — चार एंजाइम, चार परिणाम। एम्बर वाला — CYP2D6 — सभी निर्धारित दवाओं का एक चौथाई संसाधित करता है।

किससे क्या विरासत में मिला (ट्रायो विश्लेषण)

क्वेरी: “इन ज्ञात वैरिएंट के लिए, मुझे किस माता-पिता से विरासत मिली?”

तीन VCF फाइलें। तीन जीनोम। मानक ट्रायो तर्क: अगर आप हेटेरोज़ायगस हैं और एक माता-पिता वैरिएंट वहन करता है जबकि दूसरा नहीं, तो आप जानते हैं कि यह किस तरफ से आया।

वैरिएंट	जीन	विरासत
rs1801131	MTHFR (A1298C)	पैतृक — पिता हेट है, माता वाइल्ड टाइप है
rs17822931	ABCC11 (ईयरवैक्स प्रकार)	मातृक — माता हेट है, पिता वाइल्ड टाइप है
rs4988235	MCM6 (लैक्टेज़)	दोनों माता-पिता — प्रत्येक से एक एलील
rs1050450	GPX1 (एंटीऑक्सीडेंट)	विरासत में नहीं मिला — माता इसे वहन करती है, विषय वाइल्ड टाइप है

आखिरी पंक्ति वह है जिसकी लोग उम्मीद नहीं करते। आपके माता-पिता एक वैरिएंट वहन करते हैं। आपको यह विरासत में नहीं मिला। यह एक ऐसा सवाल है जिसका उत्तर आप ट्रायो विश्लेषण से दे सकते हैं और शाब्दिक रूप से उपभोक्ताओं के लिए उपलब्ध किसी और चीज़ से नहीं।

→ पूर्ण रिपोर्ट: ट्रायो विरासत विश्लेषण

चमकते जीनोम गोलों और उन्हें जोड़ते प्रकाशमान विरासत धागों के साथ एक मेज के चारों ओर तीन लोगों का पिक्सेल आर्ट परिवार — तीन जीनोम, तीन गोले। प्रकाश के धागे दर्शाते हैं कि क्या विरासत में मिला — और क्या नहीं।

ClinVar जीनोम स्कैन

क्वेरी: “मेरा जीनोम ClinVar पैथोजेनिक वैरिएंट के लिए स्कैन करो।”

ClinVar क्लिनिकली प्रासंगिक वैरिएंट का NIH डेटाबेस है — जो बीमारियों, दवा प्रतिक्रियाओं या अन्य फेनोटाइप से जुड़े हैं। 48.6 लाख वैरिएंट के विरुद्ध पूर्ण स्कैन ने पाया:

100 पैथोजेनिक वैरिएंट 41 जीन में
25 दवा-प्रतिक्रिया वैरिएंट

यह तब तक चिंताजनक लगता है जब तक आप गहराई में नहीं जाते। “पैथोजेनिक” के रूप में चिह्नित अधिकांश प्रविष्टियों में विरोधाभासी वर्गीकरण हैं। एक प्रयोगशाला इसे पैथोजेनिक कहती है, दूसरी बिनाइन, तीसरी अनिश्चित महत्व कहती है। डेटाबेस इस असहमति को दर्ज करता है, जो वास्तव में मूल्यवान है — यह बताता है कि विज्ञान कहां अभी तय नहीं हुआ है।

कुछ वैरिएंट में कई प्रस्तुतकर्ताओं में सुसंगत पैथोजेनिक वर्गीकरण था। उन्हें आनुवंशिक परामर्शदाता के साथ समीक्षा करने लायक है। बाकी शोर है, या कम से कम तब तक शोर जब तक अधिक साक्ष्य एकत्र न हो जाएं।

→ पूर्ण रिपोर्ट: ClinVar वैरिएंट स्कैन

गहन वैरिएंट एनोटेशन (OpenCRAVAT)

क्वेरी: “मुझे rs4988235 का गहन एनोटेशन दो।”

यहां rsID-ओनली क्लाउड क्वेरी अपनी कीमत साबित करती है। एक कॉल — annotate_rsid("rs4988235") — ने लैक्टेज़ पर्सिस्टेंस वैरिएंट के लिए 150 से अधिक एनोटेशन फ़ील्ड लौटाए:

CADD स्कोर: कार्यात्मक प्रभाव पूर्वानुमान
जनसंख्या आवृत्तियां सात वंश समूहों में: यूरोपीय में 60.2%, पूर्व एशियाई में 0.3% (इस वैरिएंट ने उत्तरी यूरोप में डेयरी फार्मिंग को सक्षम किया — इसका भौगोलिक वितरण 10,000 वर्षों की कहानी बताता है)
56 प्रोटीन इंटरैक्टर: व्यापक आणविक नेटवर्क
नियामक तत्व डेटा: जीनोम की नियंत्रण वास्तुकला में यह वैरिएंट कहां बैठता है

इसे सामान्य रूप से प्राप्त करने के लिए बायोइन्फॉर्मेटिक्स पाइपलाइन की आवश्यकता होती है — डेटाबेस डाउनलोड करना, एनोटेशन टूल चलाना, आउटपुट फॉर्मेट पार्स करना। यहां यह एक फ़ंक्शन कॉल है जो केवल rsID भेजता है, आपका जीनोटाइप नहीं।

→ पूर्ण रिपोर्ट: OpenCRAVAT गहन एनोटेशन

दो अतिरिक्त रिपोर्ट — गुण संबंध और पॉलीजेनिक रिस्क स्कोर — GitHub उदाहरण निर्देशिका में उपलब्ध हैं।

क्लोन, कॉन्फ़िगर, क्वेरी

आपको क्या चाहिए

किसी भी पूर्ण जीनोम सीक्वेंसिंग प्रदाता से आपकी VCF फाइलें
MCP का समर्थन करने वाला एजेंटिक IDE (Antigravity, Codex, Claude Code)
Python 3.10+ और conda (GeneChat-MCP के लिए)
एनोटेशन डेटाबेस के लिए लगभग 2GB डिस्क स्पेस (ClinVar, SnpEff, GWAS Catalog, PGS मॉडल)
वैकल्पिक: गहन एनोटेशन के लिए OpenCRAVAT क्लाउड अकाउंट (मुफ्त स्तर)

आर्किटेक्चर

आपका IDE (चैट)
  Antigravity / Codex / Claude Code
       │                │
       ▼                ▼
  ┌──────────┐   ┌──────────────┐
  │ GeneChat │   │  OpenCRAVAT  │
  │   MCP    │   │     MCP      │
  │ (स्थानीय) │   │ (क्लाउड API) │
  └────┬─────┘   └──────┬───────┘
       │                │
       ▼                │ केवल rsIDs
  ┌──────────┐          │ (कोई जीनोम डेटा नहीं)
  │ आपकी VCF │          ▼
  │ फाइलें   │     CADD, REVEL,
  │ (स्थानीय) │     gnomAD, BioGRID
  └──────────┘

सेटअप

मैं README यहां दोहराने नहीं जा रहा। अगर आप अपने IDE में MCP सर्वर कॉन्फ़िगर कर सकते हैं, तो रिपॉजिटरी में दिए निर्देशों का पालन कर सकते हैं।

इसे क्लोन करें: github.com/matbanik/agentic-genomics

सेटअप के तीन हिस्से हैं: GeneChat-MCP (स्थानीय VCF क्वेरी), OpenCRAVAT-MCP (क्लाउड एनोटेशन), और आपके IDE का MCP कॉन्फ़िगरेशन। README हर एक को समझाता है।

दो चीजें जो परेशानी करती हैं:

VCF इंडेक्सिंग। पहली क्वेरी से पहले आपकी VCF फाइलों को tabix से इंडेक्स करना जरूरी है। GeneChat .vcf.gz + .vcf.gz.tbi जोड़ियां अपेक्षित करता है। अगर इंडेक्स गायब है, तो क्वेरी चुपचाप विफल होंगी या रहस्यमय त्रुटियां देंगी। रिपॉजिटरी इसे दस्तावेज़ करती है, लेकिन यह सबसे आम सेटअप समस्या है।

कॉन्टिग फ़ॉर्मेट बेमेल। कुछ सीक्वेंसिंग प्रदाता chr1, chr2, chr3 उपसर्गों का उपयोग करते हैं। अन्य केवल 1, 2, 3 का उपयोग करते हैं। अगर आपकी VCF एक फ़ॉर्मेट का उपयोग करती है और संदर्भ डेटाबेस दूसरे की अपेक्षा करते हैं, तो वैरिएंट खोज विफल होगी। रिपॉजिटरी रूपांतरण संभालती है, लेकिन यह जानने लायक है कि क्वेरी “नहीं मिला” क्यों लौटा सकती है जब आपको पता है कि वैरिएंट वहां है।

ट्रायो विश्लेषण? वही सेटअप, अधिक जीनोम। प्रत्येक परिवार के सदस्य की VCF फ़ाइल पंजीकृत करें और सभी पर क्वेरी करें।

आप क्या पूछ सकते हैं

ये प्राकृतिक भाषा प्रॉम्प्ट हैं जो आप सीधे अपने IDE में टाइप कर सकते हैं। एजेंट प्रत्येक क्वेरी को स्वचालित रूप से सही MCP टूल तक पहुंचाता है।

मेरा CYP2D6 मेटाबोलाइज़र स्टेटस क्या है?

मेरे जीनोम को ClinVar पैथोजेनिक वैरिएंट के लिए स्कैन करो

इनमें से कौन से वैरिएंट मुझे मेरी माता से विरासत में मिले?

मेरा BMI पॉलीजेनिक रिस्क स्कोर कैलकुलेट करो

rs4988235 का गहन एनोटेशन दो

कैफीन मेटाबॉलिज्म के लिए कौन से GWAS संबंध मौजूद हैं?

→ GitHub पर सभी छह उदाहरण रिपोर्ट

परिदृश्य

आप अकेले नहीं हैं

यह क्षेत्र तेज़ी से आगे बढ़ रहा है। कुछ परियोजनाएं जानने लायक हैं।

ClawBio Imperial College में UK AI Agent Hackathon से निकला। यह एक Python CLI और लाइब्रेरी है — MCP सर्वर नहीं, इसलिए आर्किटेक्चर अलग है, लेकिन लक्ष्य ओवरलैप करता है। उन्होंने दो टूल बनाए हैं जो मैंने कहीं और नहीं देखे: gwas-lookup नौ GWAS डेटाबेस पर एक साथ क्वेरी फेडरेट करता है, और clinpgx PharmGKB, CPIC दिशानिर्देशों और FDA लेबल एनोटेशन से एक कॉल में डेटा खींचता है। पूरक कार्य, अलग इंटरफ़ेस प्रतिमान।

शैक्षणिक संकेत भी उभर रहे हैं। Briefings in Bioinformatics में एक पेपर ने चिकित्सा AI एजेंटों के लिए MCPmed फ्रेमवर्क को औपचारिक बनाया। EMBL के पास BioContextAI विकास में है। cBioPortal — कैंसर जीनोमिक्स डेटाबेस — में अब MCP इंटरफेस है। IBM Research ने ISMB में संबंधित कार्य प्रस्तुत किया।

ओपन-सोर्स पक्ष पर: Bio-MCP सामान्य बायोइन्फॉर्मेटिक्स टूल एक्सेस प्रदान करता है, gget-mcp जीन/प्रोटीन क्वेरी के लिए gget लाइब्रेरी को रैप करता है, और IGV-MCP विज़ुअलाइज़ेशन के लिए Integrative Genomics Viewer से जुड़ता है।

पैटर्न स्पष्ट है। जीनोमिक डेटा संवादात्मक इंटरफेस के माध्यम से क्वेरी करने योग्य बन रहा है। सवाल यह है कि यह आपकी मशीन पर होता है या किसी और की पर।

यह क्या नहीं है

मैं सीमाओं के बारे में स्पष्ट रहना चाहता हूं।

यह बीमारी का निदान नहीं करता। ClinVar का “पैथोजेनिक” फ्लैग कोई निदान नहीं है — यह एक डेटाबेस प्रविष्टि है जो प्रस्तुत साक्ष्य को दर्शाती है, अक्सर विरोधाभासी व्याख्याओं के साथ।

यह उपचार की सिफारिश नहीं करता। CYP2D6 मध्यवर्ती मेटाबोलाइज़र स्थिति एक जीनोटाइप तथ्य है। इसके बारे में क्या करना है यह एक नैदानिक निर्णय है जो आपके पूर्ण चिकित्सा संदर्भ, अन्य दवाओं और आपके प्रिस्क्राइबर के निर्णय पर निर्भर करता है।

यह पोषण सलाह प्रदान नहीं करता। आपका MTHFR स्टेटस आपको यह नहीं बताता कि कौन से सप्लीमेंट लेने हैं।

स्टार-एलील कॉल — CYP2D6 *1/*4, CYP2C19 *1/*1 — तथ्यात्मक जीनोटाइप डेटा हैं। वे बताते हैं कि आप कौन से वैरिएंट वहन करते हैं। इसे कार्रवाई में बदलने के लिए नैदानिक प्रशिक्षण वाले इंसान और आपकी पूरी तस्वीर की जरूरत है।

अगर आपको कुछ चिंताजनक मिलता है, तो आनुवंशिक परामर्शदाता या अपने प्रिस्क्राइबर से चर्चा करें। यह कोई बचाव नहीं है; यह ऐसे काम करता है।

स्रोत डेटाबेस प्रत्येक क्वेरी आउटपुट में नामित और संस्करणित हैं: PharmVar स्टार एलील परिभाषाओं के लिए, CPIC जीनोटाइप-फेनोटाइप मैपिंग के लिए, ClinVar नैदानिक वैरिएंट वर्गीकरण के लिए, gnomAD जनसंख्या आवृत्तियों के लिए।

समापन

आपका जीनोम आपके स्वामित्व वाला सबसे निजी डेटासेट है। अभी, इसका अधिकांश भाग एक ऐसे फोल्डर में पड़ा है जो आपने कभी नहीं खोला — या एक ऐसे सर्वर पर जिसे आप नियंत्रित नहीं कर सकते।

इसे बदलने के उपकरण मुफ्त, खुले और आपकी मशीन पर चलते हैं।

सूर्यास्त पर पहाड़ी पर खड़ा पिक्सेल आर्ट किरदार चमकते जीनोम टुकड़े को पकड़े, रोबोट साथी के साथ, दूर के क्लाउड किले से मुंह मोड़े — आपका डेटा। आपकी मशीन। आपके सवाल।

सेटअप के दौरान अटकें, तो GitHub पर एक issue खोलें। यह इसीलिए है।

संसाधन

⚠️ अस्वीकरण: यह एक तथ्यात्मक जीनोटाइप रिपोर्ट है, चिकित्सा सलाह नहीं। कार्रवाई योग्य निष्कर्षों पर अपने प्रिस्क्राइबर या आनुवंशिक परामर्शदाता से चर्चा करें। स्रोत डेटाबेस: PharmVar, CPIC, ClinVar, gnomAD — संस्करण प्रति क्वेरी बताए गए।