Biomedicínske a bioinformatické databázy v biológii

Špecializované databázy známe aj ako výskumné alebo knižničné databázy sú súborom informácií zameraných na jeden alebo viac špecifických súborov dát. Vyhľadávaním v špecializovaných databázach máme možnosť odhaliť odborné informácie, ktoré nie sú dostupné prostredníctvom bežného vyhľadávania na webe. Špecializované databázy sú obzvlášť užitočné, ak požadujete špecifický formát alebo aktuálne odborné informácie na konkrétnu tému. Mnoho databáz je dostupných ako v bezplatnej verzii, tak aj v predplatiteľskej verzii. Mnohé dátové zdroje majú primárne aj sekundárne charakteristiky. Niektoré databázy majú rôzne „vetvy“ pre primárne a sekundárne údaje. Medzi špecializované databázy zaraďujeme databázy, ktoré sú zamerané na konkrétnu problematiku napr.: metabolické dráhy a enzýmy, rakovinu, génovú expresiu, metyláciu DNA, polymorfizmy, LncRNA a miRNA, monogénne či komplexné ochorenia.
Integrované databázove systémy často spájajú rôzne primárne zdroje pomocou kritérií, ktoré pomáhajú zachovať úroveň redundancie. Namiesto pripojenia k niekoľkým zdrojom môže používateľ pristupovať ku všetkým potrebným informáciám pomocou integrovaných databázových systémov. Takýto systém predstavuje databáza NCBI (National Center for Biotechnology Information), ktorá kombinuje viacero primárnych a sekundárnych databáz vrátane GenBank, PubMed, OMIM atď., je jedným z najväčších príkladov zloženej databázy.

Databázy interakcií

Interakčné databázy katalogizujú interakcie na úrovni proteín-proteín, interakcie proteín-DNA a iné molekulárne interakcie. Príkladom takýchto databáz sú napr.
• STRING (https://string-db.org/) - je databáza známych a predpovedaných interakcií proteín-proteín. Interakcie zahŕňajú priame (fyzické) a nepriame (funkčné) asociácie; pramenia z výpočtovej predikcie, z prenosu znalostí medzi organizmami a z interakcií agregovaných z iných (primárnych) databáz.
• BioGRID (https://thebiogrid.org/) - databázový zdroj s otvoreným prístupom, ktorý obsahuje manuálne upravené proteínové a genetické interakcie z viacerých druhov vrátane kvasiniek, červov, múch, myší a ľudí.
• IntAct (https://www.ebi.ac.uk/intact) - predstavuje databázový systém s otvoreným zdrojom a analytickými nástrojmi pre údaje o biomolekulárnych interakciách, ktoré sú základom takmer všetkých procesov v živých organizmoch.

Databázy metabolických dráh

Tieto databázy poskytujú informácie o metabolických dráhach, reakciách, enzýmoch a zlúčeninách podieľajúce sa na bunkovom metabolizme. Metabolické dráhy predstavujú sériu interakcií medzi molekulami v bunke, ktorá vedie k určitému produktu alebo ku zmene v bunke. Jednotlivé metabolické dráhy majú schopnosť zapínať a vypínať gény prípadne podnecovať bunku k pohybu. Biologické dráhy sa podieľajú na metabolizme, regulácii génovej expresie a prenose signálov. Dráhy zohrajú kľúčovú úlohu i v pokročilých štúdiách genomiky. Príkladom takýchto databáz sú:
• KEGG (Kyoto Encyclopedia of Genes and Genomes) (https://www.genome.jp/kegg/)- predstavuje sériu databáz orientovaných na informácie potrebné pre systémové pochopenie biológie na genomickej a molekulárnej úrovni. Slúži na integráciu a interpretáciu rozsiahlych súborov molekulárnych údajov generovaných sekvenovaním genómu a inými vysokovýkonnými experimentálnymi technológiami. Časť KEGG „Pathway“ (https://www.genome.jp/kegg/pathway.html) obsahuje naše poznatky získané z vedeckej literatúry o biologických molekulárnych interakciách a biochemických reakčných dráh, vrátane interakcie proteín-proteín, väzby proteín-DNA, interakcie proteín-ligand, reakcie biomasy sprostredkovanej enzýmom atď. Interakcie v rámci jedného špecifického biologického procesu alebo funkcie sú manuálne zakreslené do grafických máp. Je jedinečný svojím zameraním a pokrytím metabolických dráh kvasiniek, myší a ľudí.
• Reactome (https://reactome.org/) je bezplatná manuálne spravovaná a recenzovaná databáza signálnych a metabolických molekúl a ich vzťahov organizovaných do biologických dráh. Ponúka množstvo bioinformatických nástrojov na vyhľadávanie, organizovanie a využívanie biologických informácií na vykonávanie vizualizácie, integrácie a analýzy údajov s cieľom podporiť základný a klinický výskum ako I systémovú biológiu. V databáze je zastúpených niekoľko „reaktómov“, z ktorých najväčší je zameraný na biológiu človeka a ľudský reaktóm.
• BioCyc (https://biocyc.org/) - je zbierka viac ako 1700 databáz Pathway/Genome (PGDB) špecifických pre organizmus. Každý BioCyc PGDB obsahuje celý genóm s predpokladanou metabolickou sieťou jedného organizmu.

Databázy chorôb

Tieto databázy poskytujú informácie o genetických variáciách, génoch spojených s ochoreniami a klinickými údajmi týkajúce sa konkrétnych chorôb. Príkladom sú databázy:
• OMIM (Online Mendelian Inheritance in Man) (https://www.omim.org/) - (neustále aktualizovaný katalóg ľudských génov a genetických porúch a vlastností, s osobitným zameraním na molekulárny vzťah medzi genetickou variáciou a fenotypovou expresiou.
• DISEASES (https://diseases.jensenlab.org/) ma cieľ poskytnúť komplexný prehľad systematickou integráciou a priraďovaním skóre spoľahlivosti dôkazom o asociáciách medzi chorobami a génmi z kurátorských databáz, celogenómových asociačných štúdií (GWAS) a automatického získavania textov z biomedicínskej literatúry. Kombinuje mnohé typy dôkazov o asociáciách medzi ochoreniami a génmi. Najznámejšie z nich sú MalaCards/GeneCards a DisGeNET, ktoré využívajú dva veľmi odlišné prístupy.

Bibliografické databázy

Literárne databázy indexujú a poskytujú prístup k vedeckým článkom, publikáciám a citáciám súvisiacim s biologickým výskumom. Príklady zahŕňajú PubMed, Scopus a Web of Science.

RNA databázy

• miRBase (www .mirbase .org) predstavuje biologická databáza, ktorá funguje ako archív mikroRNA sekvencií a ich anotácií
• PolymiRTS (https://compbio.uthsc.edu/miRSNP/) (Polymorphism in microRNAs and their TargetSites) je databáza prirodzene sa vyskytujúcich zmien DNA a ich cieľových miestach pre miRNA. MikroRNA sa spájajú s transkriptami génov kódujúcich proteíny a spôsobujú translačnú represiu alebo destabilizáciu mRNA.

Biologické databázy sú nevyhnutné na poskytovanie a ukladanie informácií o sekvenciách DNA, RNA, proteínoch, molekulách, ochoreniach či interakciách medzi nimi ako i všetkých možných údajoch z rôznych druhov a zvieracích modelov. Zhromažďovanie informácií z biologických databázach v jednom prehľade centralizuje hľadanie najnovších a ľahko použiteľných bioinformatických nástrojov, ktoré môžu pomôcť riešiť niektoré výzvy vo výskume založenom na dátach. Biomedicínske databázy zohrávajú kľúčovú úlohu v modernom vedeckom výskume, nakoľko tiež umožňujú jednoduché a rýchle zdieľanie údajov v rámci vedeckej komunity, čo vedie k poznaniu a objavom. V súčasnosti je k dispozícii veľké množstvo nukleotidových, proteínových a špecializovaných databáz.