जैव सूचना विज्ञान: जैव सूचना विज्ञान पर एक उपयोगी निबंध

जैव सूचना विज्ञान को विज्ञान की एक शाखा के रूप में परिभाषित किया जा सकता है जहां कोई भी जैविक डेटा की व्याख्या, तुलना और विश्लेषण कर सकता है। यह एक नए अनुशासन के रूप में उभरा है जो जीवन विज्ञान में जटिल समस्याओं को हल करने की कोशिश कर रहा है, विशेष रूप से जैव प्रौद्योगिकी में।

डेटा कैप्चरिंग, डेटा वेयरहाउसिंग और डेटा माइनिंग बायोटेक्नोलॉजिस्टों और जैविक वैज्ञानिकों के लिए जीव विज्ञान में मात्रात्मक डेटा में अचानक वृद्धि के कारण प्रमुख मुद्दे बन गए हैं, जैसे कि मानव जीनोम, प्रोटीन अनुक्रम, प्रोटीन 3-आयामी संरचनाएं, चयापचय मार्ग सहित जैविक प्रजातियों के पूर्ण जीनोम। डेटाबेस, सेल लाइनों, जैव विविधता से संबंधित जानकारी। सूचना प्रौद्योगिकी में उन्नति, विशेष रूप से इंटरनेट का उपयोग जीव विज्ञान और जैव प्रौद्योगिकी में बढ़ती जानकारी को इकट्ठा करने, उपयोग करने और प्रसारित करने के लिए किया जा रहा है।

जैव सूचना विज्ञान एक बहुत व्यापक क्षेत्र है और यह मानचित्रण, अनुक्रमण, अनुक्रम तुलना, जीन पहचान, प्रोटीन मॉडलिंग, नेटवर्क डेटाबेस, विज़ुअलाइज़ेशन और नैतिकता जैसे मुद्दों को शामिल करता है। यह एक अंतःविषय विषय है कि एक तरफ जैविक जानकारी की आवश्यकता होती है- बुनियादी ढांचे के निर्माण और दूसरी ओर गणना आधारित जैविक अनुसंधान की आवश्यकता होती है। यह सब प्रयोगात्मक और व्युत्पन्न डेटा के बड़े स्टोर पर निर्भर करता है।

जैव सूचना विज्ञान की नींव कम्प्यूटेशनल तकनीकों, एल्गोरिदम, कृत्रिम बुद्धिमत्ता, डेटाबेस प्रबंधन, सॉफ्टवेयर इंजीनियरिंग आदि पर आधारित है। यह सब सामुदायिक डेटा संसाधनों के विकास की ओर ले जाता है और इसी से आनुवांशिक डेटा के विश्लेषण के लिए जैव सूचना विज्ञान के अपने अनुप्रयोगों का विकास शुरू होता है।

अपने बड़े डेटाबेस के साथ जैव सूचना विज्ञान ने कंप्यूटर वैज्ञानिकों को कई चुनौतियों को जन्म दिया है। य़े हैं:

1. सूचना भंडारण

2. जैविक डेटा का प्रबंधन और एकीकरण

3. अनुक्रम विश्लेषण सॉफ्टवेयर

4. प्रोटीन तह भविष्यवाणी सॉफ्टवेयर

5. नक्शा विधानसभा और एकीकरण सॉफ्टवेयर

6. तुलनात्मक जीनोमिक्स उपकरण

7. जीन खनन

8. कंप्यूटर एडेड ड्रग डिजाइनिंग

जैविक डेटा संसाधन:

चूंकि बड़ी मात्रा में डेटा तीव्र गति से उत्पन्न हो रहा है, इसलिए इस जानकारी को एक्सेस करना, खोजना और उसकी व्याख्या करना अनिवार्य हो जाता है। विभिन्न डेटा पुनर्प्राप्ति प्रणाली हैं, जो विभिन्न अनुसंधान उद्देश्यों के लिए बनाई गई हैं और व्यापक रूप से उपयोग की जाती हैं। आनुवंशिक अनुक्रमों के कई अंतरराष्ट्रीय डेटाबेस हैं जो एक निश्चित सीमा तक, जैव-अनुक्रमों के संग्रह को समन्वित करते हैं।

सैकड़ों न्यूक्लियोटाइड और प्रोटीन अनुक्रम डेटाबेस हैं जो विशिष्ट उद्देश्यों के लिए बनाए गए हैं। उन्हें उनके कार्य के अनुसार वर्गीकृत किया जाता है जो न्यूक्लिक एसिड के पहले अंक में अद्यतन और सूचीबद्ध होते हैं। हर साल की शुरुआत में रिसर्च जर्नल। डेटाबेस डीबीसीएटी की एक सूची है जो डेटाबेस के बारे में जानकारी प्रदान करती है, जहां यह उपलब्ध है और उन डेटाबेस का उपयोग करने के लिए किससे संपर्क करना है।

वर्तमान में डीबीसीएटी 60 डीएनए, 22 आरएनए, 75 प्रोटीन, 58 जीनोमिक, 29 मैपिंग, 18 प्रोटीन संरचना, 37 साहित्य और 113 विविध डेटाबेस को सूचीबद्ध करता है। न्यूक्लियोटाइड और प्रोटीन अनुक्रम, प्रोटीन त्रि-आयामी संरचनाओं के व्यापक भंडार डेटाबेस, जो अच्छी तरह से ज्ञात हैं और व्यापक रूप से उपयोग किए जाते हैं, इंटरनेट के माध्यम से दुनिया भर में प्रसारित होते हैं। इनमें जीन बैंक, प्रोटीन डेटा बैंक, अनुक्रम पुनर्प्राप्ति सॉफ्टवेयर उपकरण आदि शामिल हैं।

प्रोटीन डाटा बैंक (PDB):

एक्स-रे क्रिस्टलोग्राफी, न्यूट्रॉन डिफैक्टर और एनएमआर अध्ययनों द्वारा निर्धारित प्रोटीन की तीन आयामी संरचनाएं पहले नेशनल ब्रूकेवन लेबोरेटरीज, न्यूयॉर्क, यूएसए में स्थापित प्रोटीन डेटाबैंक में जमा की गई थीं।

प्रोटीन डेटाबैंक को वर्तमान में रटगर्स, यूएसए में स्ट्रक्चरल बायोइनफॉरमैटिक्स के रिसर्च कोलैबोरेटर्स द्वारा बनाए रखा गया है, वर्तमान में डेटाबेस में 12500 संरचनाएं हैं, हालांकि 50 फीसदी संरचनाएं बेमानी हैं, क्योंकि अधिकांश संरचनाएं होमोलॉग हैं या विभिन्न प्रस्तावों के साथ हैं। हर साल लगभग 2500 नए 3-आयामी संरचनाएं जोड़े जाने की संभावना है।

जीन पहचान / एनोटेशन:

कम्प्यूटेशनल जैव-अनुक्रम विश्लेषण के लिए सबसे अधिक दबाव वाले कार्य हैं:

1. विभिन्न जीवों के डीएनए अनुक्रमों में जीन का पता लगाएं। यह पता चला है कि जीन को डीएनए के साथ मिलाया जाता है जिसमें अन्य कार्य होते हैं, जैसे कि जीन विनियमन, और स्वयं जीन की सटीक सीमाओं का पता लगाना मुश्किल है, ताकि उन्हें डीएनए डेटाबेस से निकाला जा सके। GRAIL, Gene-lD, Gene-Parser, Gene-Lang, FGELEH, Genie और Eco-Phrase जैसे जीन खोजने वाले कार्यक्रम डीएनए अनुक्रमों में जीन का पता लगाने के लिए तंत्रिका जाल और अन्य AI या सांख्यिकीय तरीके हैं।

2. एक बार डीएनए डेटाबेस से एक जीन की सही पहचान हो जाने के बाद, यह ज्ञात प्रोटीन कोड का उपयोग करके प्रोटीन को निर्धारित करने के लिए सीधा है। एक प्रोटीन को 20-अक्षर वर्णमाला एमिनो एसिड के अनुक्रम के रूप में दर्शाया जा सकता है।

इस अनुक्रम को आनुवंशिक कोड के अनुसार, प्रोटीन की प्राथमिक संरचना के रूप में जाना जाता है। हालांकि प्रोटीन की प्राथमिक संरचना को निर्धारित करना आसान है, 3-डी संरचना की भविष्यवाणी करना थोड़ा मुश्किल है।

एक सेल में, प्रोटीन अनुक्रम अपने आप में एक फैशन में गुना होता है जो प्रत्येक प्रोटीन के लिए अद्वितीय होता है, जिससे यह संरचना का एक उच्च क्रम होता है। इस उच्च क्रम संरचना को समझना प्रोटीन के कार्यों को समझना महत्वपूर्ण है।

आरएनए अणुओं के लिए स्थिति समान है। कम्प्यूटेशनल जैव-अनुक्रम विश्लेषण के लिए दूसरा दबाव कार्य इसलिए नए खोजे गए प्रोटीन की संरचना और / या कार्य और एक संरचनात्मक आरएनए अनुक्रमों की भविष्यवाणी करने के तरीकों को विकसित करना है।

इस समस्या के लिए एक सामान्य दृष्टिकोण यह है कि ज्ञात अनुक्रम या अनुक्रम का एक डेटाबेस खोजा जाए जो नए खोजे गए अनुक्रम के समान हो। यहां उन अनुक्रमों की खोज करना महत्वपूर्ण है जो अधिक क्रमबद्ध संरचना और / या नए अनुक्रमों के लिए कार्य करेंगे, बजाय एक अधिक भोले स्ट्रिंग मिलान करने के, जो केवल प्राथमिक संरचना में मैचों पर ध्यान देता है। यह एक बेहद चुनौतीपूर्ण काम साबित हुआ है।

अनुक्रम विश्लेषण (जीन / प्रोटीन):

एक नए डीएनए अनुक्रम का विश्लेषण करने के कुछ तरीके शामिल हैं:

1. यदि किसी ने पहले से ही एक ही क्षेत्र में अनुक्रम किया है, तो एक डेटाबेस खोज में एक जांच के रूप में अनुक्रम का उपयोग करें,

2. एक विधि का उपयोग करें, जो कोडिंग क्षेत्रों का पता लगाने की कोशिश करेगी,

3. एक ऐसी विधि का उपयोग करें, जो संभावित कोडिंग फ्रेम के क्षेत्र में प्रमोटर, अनुवाद दीक्षा क्षेत्र, आरएनए प्रसंस्करण स्थल और टर्मिनेटर जैसे संकेतों का पता लगाने की कोशिश करेगी।

4. एक सतत खंड में कोडिंग अनुक्रम को इकट्ठा करने और अनुवाद करने का प्रयास करें,

5. परिणामी हीन प्रोटीन का उपयोग एक डेटाबेस खोज में जांच के रूप में किया जाना चाहिए ताकि यह निर्धारित करने का प्रयास किया जा सके कि क्या होमोलॉगस प्रोटीन हैं। यदि एक समान अनुक्रम पाया जाता है, तो एक सावधान तुलना जांच अनुक्रम में संभावित त्रुटियों को दिखाएगा जो कि परिणामित उत्पाद, इंट्रॉन-एक्सॉन सीमाओं की गलत पसंद और गैर-कोडिंग अनुक्रम को सम्मिलित करने वाले निकटवर्ती फ़्रेम शिफ़्ट में गलत हो जाएगा।

6. स्टेम और लूप संरचनाओं के लिए दिलचस्प क्षेत्र खोजें जो संभवतः अभिव्यक्ति के नियमन में महत्वपूर्ण हैं। विशेष रूप से 5 particular या 3-गैर-कोडिंग क्षेत्रों में, संभावित इंट्रोन्स की जांच की जा सकती है।

प्रोटिओमिक्स:

प्रोटिओमिक्स या प्रोटिओम तकनीक शब्द प्रोटिओम (जीनोम द्वारा कोडित प्रोटीन का सेट) से लिया गया है। प्रोटिओमिक्स में प्रोटीन के भौतिक पृथक्करण को शामिल किया गया है, पोस्ट ट्रांसलेशन संशोधनों के कारण अंतर, हाई प्रेशर लिक्विड क्रोमैटोग्राफी (एचपीएलसी) द्वारा मात्रात्मक अलगाव और बड़े पैमाने पर स्पेक्ट्रोस्कोपी द्वारा एन-टर्मिनल अनुक्रमण द्वारा अन्य प्रकार के कॉलम और प्रोटीन की पहचान। प्रोटीन गतिविधि का मापन कार्यात्मक परख द्वारा किया जा सकता है।

संरचनात्मक जीनोमिक्स:

जीनोम की सीक्वेंसिंग से प्रोटीन की एक सरणी का पता चला है जिसके कार्य अज्ञात हैं। ऐसे मामलों में, दूर के विकासवादी संबंधों को प्रकट करने के लिए संरचना की शक्ति ऐसे प्रोटीन की जैव रासायनिक भूमिकाओं की पहचान करने के लिए एक उपकरण प्रदान करती है। कम्प्यूटेशनल और प्रयोगात्मक दृष्टिकोण प्रत्येक प्रोटीन को पूरा करने के लिए एक प्रयोगात्मक संरचना या अच्छा सैद्धांतिक मॉडल प्रदान करने के प्रयास में मानार्थ भूमिका निभाते हैं।

हालांकि, सभी प्रोटीनों के एक्स-रे संरचना को निर्धारित करना संभव नहीं है जो अलग-थलग हैं। एनएमआर (परमाणु चुंबकीय अनुनाद) संरचनात्मक विश्लेषण कुछ हद तक मदद कर सकता है, लेकिन यह प्रभावी लागत नहीं हो सकता है और बड़ी संख्या में एमिनो एसिड अवशेषों के साथ प्रोटीन को हल करने में मदद नहीं करेगा।

वर्तमान में, स्विसहार्ट डेटाबेस में अस्सी पचहत्तर हजार गैर-निरर्थक प्रोटीन अनुक्रमों और प्रोटिन पहचान पहचान संसाधन डेटाबेस में लगभग एक लाख हजार प्रोटीन अनुक्रमों की तुलना में ब्रुकहैवेन प्रोटीन डेटा बैंक, यूएसए में प्रोटीन संरचनाओं की लगभग तेरह हजार प्रविष्टियाँ हैं।

इन तेरह हजार प्रविष्टियों में से, केवल 300-400 अद्वितीय संरचनाएँ हैं, जिन्हें सबसे अधिक संरचना और कार्य करने वाले प्रोटीन परिवारों के रूप में वर्गीकृत किया जा सकता है। मानव प्रोटिओम में यह भविष्यवाणी की गई है कि एक लाख प्रोटीन होंगे और सभी प्रोटीनों में एक हजार से अधिक अद्वितीय प्रोटीन सिलवट नहीं हो सकते हैं।

इस प्रकार संरचनात्मक विश्लेषण तीन आयामी संरचनात्मक जानकारी के निर्माण में महत्वपूर्ण भूमिका निभाएगा और साथ ही ज्ञात प्रोटीन सिलेंडरों को अनुक्रमित करके भविष्यवाणी पूर्वानुमानों को मोड़ देगा। नई सुलझी हुई या मॉडलिंग की गई संरचनाओं की तुलना एससीओपी (प्रोटीन का संरचनात्मक वर्गीकरण), CATH (क्लास, आर्किटेक्चर, टोपोलॉजी और होमोलोजी) या FSSP (प्रोटीन के संरचना संरेखण के आधार पर गुना वर्गीकरण) जैसे वर्गीकरणों में ज्ञात संरचना के अन्य प्रोटीनों से की जाती है। उनके विकास और कार्य के बारे में जानकारी।

औषधि डिजाइन (आणविक चिकित्सा):

1980 के दशक की शुरुआत में संरचना आधारित दवा डिजाइन में कंप्यूटर की भूमिका अस्तित्व में आई और हाल के वर्षों में कंप्यूटरों ने ड्रग डिजाइन प्रक्रिया में लगातार बढ़ती भूमिका निभाई है। तेजी से विकसित हो रहे सुपर-फास्ट कंप्यूटर के साथ, लिगैंड स्क्रीनिंग में बेहतर सटीकता, कॉम्बीनेटरियल केमिस्ट्री डिज़ाइन में सुधार, तीन आयामी संरचनात्मक जानकारी और जीनोम सीक्वेंस डेटाबेस की उपलब्धता में आभासी विस्फोट, कम्प्यूटेशनल तकनीक ड्रग के कई अलग-अलग पहलुओं में एक केंद्र चरण लेती रहेगी। डिजाइन और विकास की प्रक्रिया।

संरचना आधारित दवा डिजाइन (तर्कसंगत दवा डिजाइन) विभिन्न रोगों के लिए उपन्यास दवाओं को डिजाइन करने के लिए मैक्रोलेक्युलर लक्ष्य और संबंधित लक्ष्य-लिगैंड परिसरों के तीन आयामी संरचनाओं में निहित जानकारी का उपयोग करने की एक शामिल प्रक्रिया है।

कम्प्यूटेशनल विधियों का उपयोग प्रभावकारी दवाओं के डिजाइन के लिए उपलब्ध संरचनाओं से सभी प्रासंगिक जानकारी निकालने के लिए किया जाता है। एक्स-रे क्रिस्टलोग्राफी, आणविक मॉडलिंग, एनएमआर आदि जैसे व्यापक रूप से उपयोग की जाने वाली कई तकनीकों में व्यापक गणना शामिल है। डेटाबेस खोज, लक्ष्य-लिगंड डॉकिंग और लिगेंड ऑप्टिमाइज़ेशन तकनीक लीड यौगिकों के विकास के लिए महत्वपूर्ण हैं और ये सभी दृष्टिकोण कम्प्यूटेशनल विधियों का उपयोग करते हैं।

2- और 3-आयामी QSAR (क्वांटिटेटिव स्ट्रक्चर एक्टिविटी रिलेशनशिप) तकनीक जिसमें अतिरिक्त यौगिकों की गतिविधि की भविष्यवाणी करने के लिए जैविक रूप से सक्रिय अणुओं की एक श्रृंखला के लिए गुणों या विवरणकों के एक सेट का सांख्यिकीय विश्लेषण शामिल है, मॉडेम कंप्यूटरों के लिए महत्वपूर्ण रूप से लाभान्वित हुए हैं, तेजी से और अधिक कठोर विश्लेषण।

कंप्यूटर एडेड संरचना आधारित ड्रग डिज़ाइन ने एड्स (एचआईवी प्रोटीज इनहिबिटर) और सूजन (सीओएक्स -2 इनहिबिटर) के उपचार के लिए दवाओं के हाल के सफल विकास में महत्वपूर्ण भूमिका निभाई। आजकल की दवा खोज प्रक्रिया के लगभग हर पहलू में कंप्यूटर शामिल हैं।

एक लक्ष्य के खिलाफ गतिविधि के लिए हजारों यौगिकों की स्क्रीनिंग का पारंपरिक दृष्टिकोण, एक प्रमुख यौगिक को खोजने के लिए, तेजी से एचटीएस (उच्च थ्रूपुट स्क्रीनिंग) दृष्टिकोण द्वारा प्रतिस्थापित किया जा रहा है। एचटीएस प्रक्रिया उच्च गति वाले कंप्यूटर संचालित रोबोटिक्स मशीनों को नियोजित करती है, जिससे स्क्रीनिंग समय में काफी कमी आती है।

जीनोम डेटा के खनन के लिए कम्प्यूटेशनल उपकरण, संभावित नई दवा के लक्ष्यों की पहचान करना, प्राथमिक संरचना से लक्ष्यों के तीन आयामी संरचना की व्याख्या करना और भविष्यवाणी करना, वर्तमान जैव सूचना विज्ञान प्रौद्योगिकी के मूल में हैं। कम्प्यूटेशनल आधारित दृष्टिकोण चल रहे और भविष्य के दवा डिजाइन और विकास प्रक्रिया का अनिवार्य हिस्सा बने रहेंगे।

निष्कर्ष:

जैव-अनुक्रमों के कंप्यूटर-आधारित विश्लेषण का जीव विज्ञान के क्षेत्र पर प्रभाव बढ़ रहा है। कम्प्यूटेशनल जैव अनुक्रम विश्लेषण और डेटाबेस खोज उपकरण अब क्षेत्र का एक एकीकृत और आवश्यक हिस्सा हैं, और पिछले दशक में कई महत्वपूर्ण वैज्ञानिक खोजों का नेतृत्व करते हैं। इनमें से अधिकांश डेटाबेस खोजों से उत्पन्न हुए हैं जो अणुओं के बीच अप्रत्याशित समानताएं प्रकट करते हैं जो पहले से संबंधित नहीं थे।

हालांकि, बायोमोलेक्यूल की संरचना और कार्य के प्रत्यक्ष निर्धारण में भी ये विधियां तेजी से महत्वपूर्ण हैं। आमतौर पर यह प्रक्रिया जैविक ज्ञान और प्रयोगशाला प्रयोग के मानव अनुप्रयोग पर बहुत अधिक निर्भर करती है, कई अलग-अलग सरल कार्यक्रमों के आवेदन के परिणाम के साथ जो डेटा के सांख्यिकीय विश्लेषण करते हैं और / या सरल संयोजन विधियों को लागू करते हैं।

भविष्य के लिए महत्वपूर्ण चुनौती कंप्यूटर विधियों का निर्माण करना है जो जैविक ज्ञान और सांख्यिकीय तरीकों के एक और अधिक पूर्ण एकीकरण का उपयोग करके जैव-अनुक्रमों की व्याख्या कर सकते हैं। यह जीवविज्ञानी व्याख्या की प्रक्रिया में एक उच्च स्तर पर संचालित करने में सक्षम होगा जहां उसकी रचनात्मकता अधिकतम मूल्य हो सकती है।