Sekundárne databázy obsahujú údaje odvodené z výsledkov analýz primárnych údajov. Často čerpajú informácie z mnohých zdrojov, vrátane iných databáz a vedeckej literatúry. Sú vysoko kurátorské, často využívajú komplexnú kombináciu výpočtových algoritmov a manuálnej analýzy a interpretácie na odvodenie nových poznatkov z verejných vedeckých záznamov. Množstvo výpočtového spracovania sa medzi sekundárnymi databázami veľmi líši. Niektoré sú jednoduchými archívmi údajov o preloženej sekvencii z identifikovaných otvorených čítacích rámcov v DNA, zatiaľ čo iné poskytujú informácie týkajúce sa štruktúry a funkcie.
K dispozícii sú rôzne sekundárne databázy, ktoré obsahujú informácie o biologických sekvenciách a ich atribútoch, ako je expresia, štruktúra, funkcia a interakcie. Niektoré príklady sekundárnych databáz sú SWISS-PROT, PROSITE, Pfam, PRINTS, BLOCKS, InterPro, UniProt Knowledgebase, OMIM a Ensembl.
• SWISS-PROT (https://www.sib.swiss/swiss-prot) poskytuje vysokú úroveň anotácie (ako je popis funkcie proteínu, jeho doménová štruktúra, posttranslačné modifikácie, varianty atď.), minimálnu úroveň redundancie a vysokú úroveň integrácie s inými databázami. Údaje o sekvenciách sú odvodené hlavne z TrEMBL čo je databáza preložených sekvencií nukleových kyselín, uložených v databáze EMBL. Anotácia proteínu zahŕňa funkciu, štruktúru domény, katalytické miesta, väzbu kofaktora, posttranslačnú modifikáciu, informácie o metabolických dráhach, asociáciu s ochoreniami a podobnosť s inými sekvenciami. Anotácia poskytuje významnú pridanú hodnotu každému pôvodnému záznamu sekvencie. Záznam údajov tiež poskytuje krížové odkazy na ďalšie zaujímavé zdroje. Nedávne úsilie o skombinovanie databáz SWISS-PROT, TrEMBL a PIR viedlo k vytvoreniu databázy UniProt, ktorá má väčšie pokrytie ako ktorákoľvek z týchto troch databáz a zároveň si zachováva pôvodnú funkciu SWISS-PROT s vysokou kvalitou anotácií. Existujú aj sekundárne databázy, ktoré sa týkajú klasifikácie proteínových rodín podľa funkcie alebo štruktúry.
• InterPro (https://www.ebi.ac.uk/interpro/.) poskytuje funkčnú analýzu proteínov ich klasifikáciou do rodín a predikciou domén a dôležitých miest. Na klasifikáciu proteínov týmto spôsobom používa InterPro prediktívne diagnostické modely označované ako “protein signature“, ktoré charakterizujú niektorú vybranú biologický znak proteínu. Tieto modely pre databázu sú kombinované z 13 databáz do jedného centrálneho zdroja (CATH, CDD, HAMAP, PANTHER,PFAM, PIRSF, PRINTS, PROSITE, SMART, SFLD, SUPERFAMILY,TIGRFAM)
• Ensembl (https://www.ensembl.org/index.html) poskytuje prehliadač genómov, ktorý funguje ako jediný prístupový bod k anotovaným genómom rôznych stavovcov. Podporuje výskum v oblasti komparatívnej genomiky, evolúcie, sekvenčných variácií a transkripčnej regulácie. Ensembl anotuje gény, počíta viacnásobné zarovnania, predpovedá regulačnú funkciu a zbiera údaje o chorobách. Týmto spôsobom je možné získať informácie o génoch, transkriptoch a ďalšej anotácii na úrovni genómu, génu a proteínu. To zahŕňa informácie o proteínových doménach, genetických variáciách, homológii, syntetických oblastiach a regulačných prvkoch.
• OMIM (Online Mendelian Inheritance in Man; https://www.ncbi.nlm.nih.gov/omim) predstavuje neustále aktualizovaný katalóg ľudských génov a genetických porúch a vlastností, s osobitným zameraním na molekulárny vzťah medzi genetickou variabilitou a fenotypovou expresiou. Tento komplexný prehľad ľudských génov a genetických fenotypov, je voľne dostupný a denne aktualizovaný.
Využi pri ďalšom štúdiu tejto témy e-learningový kurz.
Prihlás sa do e-learningového kurzu a okrem plnej verzie textovej časti tejto témy získaj prístup aj k:
Ak ešte nemáš prístup k e-learningovému kurzu, prečítaj si, ako ho môžeš získať.