Univerzálny proteínový zdroj (UniProt) (https://www.uniprot.org/) poskytuje stabilný, komplexný, voľne dostupný centrálny zdroj proteínových sekvencií a ich funkčnej anotácie. UniProt poskytuje množstvo datasetov, z ktorých ku hlavným patria UniProt Knowledgebase (UniProtKB), Proteomes, UniProt Reference Clusters (UniRef) a UniProt Archive (UniParc). UniProtKB je centrálnym zdrojom pre všetky funkčné informácie o proteínoch. Pozostáva z dvoch častí:
• Swiss-Prot - recenzovaná databáza, obsahuje odborne anotované záznamy
• TrEMBL - nerecenzovaná databáza, obsahuje výpočtovo analyzované a anotované záznamy

UniProt tiež poskytuje súbor údajov o proteómoch pre druhy s úplne sekvenovanými genómami. Proteóm predstavuje súbor proteínov, o ktorých sa predpokladá, že sú exprimované organizmom. Okrem týchto základných súborov údajov o proteínoch poskytuje UniProt podporné súbory údajov pre citácie literatúry, taxonómiu, kľúčové slová, subcelulárne polohy, databázy krížových odkazov a ľudské choroby.
• Údaje z vybraných zdrojov sú dodatočne integrované do záznamov UniProtKB, pre rozšírenie biologických znalostí a súvisiacich metadát, čo umožňuje, aby databáza fungovala ako centrálny rozbočovač, z ktorého sa môžu používatelia pripojiť k 183 ďalším zdrojom. Integrácia týchto údajov a ručné spracovanie proteínových vlastností, ako sú funkčné domény a aktívne miesta, varianty aminokyselín, väzbové miesta ligandov a posttranslačné modifikácie (PTM) v zázname UniProt, poskytujú mechanické informácie o tom, ako napríklad špecifické varianty môžu viesť k ochoreniu alebo rezistencii na liečivo prípadne patogén.
• V roku 2022 EMBL-EBI začal využívať i systém umelej inteligencie AlphaFold vyvinutý spoločnosťou Google DeepMind, ktorý robí najmodernejšie presné predpovede štruktúry proteínu z jeho aminokyselinovej sekvencie, čím umožňuje predpovedať 3-rozmernú (3D) štruktúru proteínu z jeho aminokyselinovej sekvencie.

Vyhľadávací panel na domovskej stránke databázy UniProt.

Na obrázku môžeme vidieť zobrazenie výsledkov vyhľadávania pre kľúčové slovo „tp53“. Svoje výsledky môžeme filtrovať pomocou fazety na ľavej strane, pričom filtrovať výsledky je možné na základe niekoľkých kritérií: podľa anotácie proteínu (Swiss-Prot, TrEMBL), organizmov, taxonómie, sekvenčnej dĺžky atď. SWISS-PROT ako kurátorská databanka proteínových sekvencií, obsahuje nielen sekvenčné dáta, ale aj anotáciu relevantnú pre konkrétnu sekvenciu.
Anotácia pridaná ku každému záznamu je vykonaná tímom biológov a pochádza predovšetkým z článkov v časopisoch, v ktorých sú uvedené sekvenačné údaje a niekedy aj charakteristika. Úlohu zohrávajú aj recenzné články a spolupráca s externými odborníkmi spolu s informáciami pochádzajúcimi zo sekundárnych databáz ako PROSITE a Pfam. Anotácia pridaná týmito metódami sa kontroluje z hľadiska relevantnosti a pravdepodobnosti pre konkrétnu sekvenciu. TrEMBL pozostáva zo záznamov vo formáte SWISS-PROT, ktoré sú odvodené z prekladu všetkých kódujúcich sekvencií v databáze nukleotidových sekvencií EMBL, ktoré nie sú vo SWISS-PROT. Na rozdiel od záznamov SWISS-PROT tie v TrEMBL čakajú na manuálnu anotáciu.
Vo výsledkoch sa nám zobrazia informácie o hľadanom kľúčovom slove, ako je prístup k položke, názov položky, názvy proteínov, názvy génov a organizmus. Môžeme tiež prepnúť do tabuľkového zobrazenia pre podrobnejšie zobrazenie výsledkov. Pomocou funkcie „customize columns“ si môžeme prispôsobiť zobrazenie údajov v jednotlivých stĺpcoch.

Záznam dopytovanej informácie v databáze UniProt.

Kliknutím na vybraný proteín sa nám rozbalí záznam informácií k danému proteínu. Informácie v zázname UniProtKB sú štruktúrované do niekoľkých sekcií, ktoré nám pomôžu nájsť údaje, ktoré hľadáme. Karty umožňujú prepínať medzi záznamom (Entry), grafickým zobrazením sekvenčných funkcií (prehliadač funkcií; Feature viewer), genomickými koordinátmi (Genomic coordinates), publikáciami (Publications) či externými odkazmi (External Links). Navigačná lišta na ľavej strane obrazovky obsahuje zoznam vstupných sekcií. Sú to skratky, ktoré vám pomôžu prejsť na konkrétne sekcie (názov, taxonómia, súvisiace ochorenia, varianty, expresia, interakcie, štruktúra, proteínové rodiny, domény..atď.) čo umožní ľahký pohyb v rámci položky. Navigačná lišta zostáva na rovnakom mieste na obrazovke, keď sa pohybujete nahor a nadol v položke, pre rýchlu navigáciu do oblastí záujmu.

Štruktúra záznamu v UniProt.

Na hlavnej vstupnej stránke je k dispozícii viacero vizualizácií, ktoré umožňujú skúmanie vlastností proteínu, napr. väzbových miest alebo katalytických zvyškov, v kontexte sekvencie proteínu. Funkcie prezentované v každej vizualizácii sú vhodné pre sekciu vstupnej stránky, do ktorej sú integrované, čo umožňuje čistejší pohľad na funkcie zoskupené podľa kategórií. Vstupná stránka tiež integruje vizualizáciu štruktúry, ktorá umožňuje používateľovi zobraziť 3D štruktúry z PDB, ako aj predpovede štruktúry z AlphaFold integrované so všetkými ostatnými údajmi na vstupnej stránke.
Okrem toho môže používateľ vidieť aj úplný prehliadač funkcií ProtVista na samostatnej karte, ktorá integruje všetky vizualizácie s prehliadačom štruktúr, čo umožňuje jednotný pohľad na funkcie proteínovej sekvencie.

Túto tému nájdeš aj
v e-learningovom kurze

Prihlás sa do e-learningového kurzu a okrem plnej verzie textovej časti tejto témy získaj prístup aj k:

  • prezentáciám tejto témy
  • podporným materiálom k tejto téme
  • možnosti otestovať svoje vedomosti
  • komunikácii s autormi tejto témy
  • diskusnému fóru k tejto téme

Ak ešte nemáš prístup k e-learningovému kurzu, prečítaj si, ako ho môžeš získať.

Predchádzajúca téma

Nasledujúca téma