UniProt

Z Wikipedie, otevřené encyklopedie
Skočit na navigaci Skočit na vyhledávání

Uniprot je komplexní databáze proteinových sekvencí. Tato volně přístupná databáze obsahuje informace o funkci proteinu. Informace v UniProt sdružují výsledky projektů sekvenujících genomy a informace o biologických funkcích bílkovin.

UniProt konsorcium[editovat | editovat zdroj]

UniProt konsorcium se skládá z Evropského institutu Bioinformatiky (EMBL-EBI), Švýcarského institutu bioinformatiky (SIB) a Protein Information Resource (PIR). V tomto projektu je zapojeno více než sto zaměstnanců, kteří se podílí na správě databáze, vývoji softwaru a podpoře uživatelů.

Původ UniProt databází[editovat | editovat zdroj]

UniProt vznikl sloučením Swiss-Prot, TrEMBL a PIR-PSD.

EMBL-EBI a SIB byli společně správci Swiss-Prot a TrEMBL. TrEMBL (Translated EMBL Nucleotide Sequence Data Library) byl vytvořen za účelem pomoci Swiss-Prot, neboť rychlost generování sekvenčních dat byla rychlejší než byl schopen stíhat. Protein Information Resource (PIR) byl zachován a po sloučení těchto tří institucí vzniklo v roce 2002 UniProt Consortium.

Organizace UniProt databází[editovat | editovat zdroj]

UniProt se skládá ze čtyř databází: the UniProt Knowledgebase (UniProtKB)[1], the UniProt Archive (UniParc)[2], the UniProt Reference Clusters (UniRef) [3] a The UniProt Metagenomic and Environmental Sequences (UniMes).

UniProtKB[editovat | editovat zdroj]

UniProtKB je složen ze dvou částí: UniProtKB/Swiss-Prot a UniProtKB/TrEMBL

UniProtKB/Swiss-Prot je kvalitní, manuálně anotovaná sekce UniProtuKB, která sdružuje experimentální výsledky a vědecké závěry. Anotace se skládají z informací o proteinech, jejich struktuře, post-translační modifikaci, doménách, sekundární a kvartérní struktuře, podobnosti k jiným proteinům atd. V porovnání s UniProtKB/TrEMBL můžeme ve SWISS-PROT najít výrazně méně výsledků.

UniProtKB/TrEMBL obsahuje kvalitní výpočetně analyzované záznamy obohacené o automatickou anotaci. Anotované překlady kódujících sekvencí z jiných databází jsou automaticky zpracovány a převedeny do UniProtKB/TrEMBL. UniProtKB/TrEMBL obsahuje také sekvence například z PDB[4].

UniParc[editovat | editovat zdroj]

UniParc je rozsáhlá databáze obsahující všechny proteinové sekvence bez anotací, z hlavních, veřejně dostupných databází proteinových sekvencí. Proteiny se mohou objevovat v několika různých zdrojových databázích nebo v několika kopiích ve stejné databázi. UniParc ukládá každou jedinečnou sekvenci zvlášť, čímž se zabraňuje zbytečnému opakování. Každá sekvence má svůj identifikátor (UPI), díky kterému je možné určit stejný protein z různých databází.

UniRef[editovat | editovat zdroj]

UniRef poskytuje seskupený soubor sekvencí z UniProtKB a vybrané záznamy z UniParc. UniRef100 seskupuje všechny identické sekvence a subfragmenty s 11 nebo více zbytky do jednoho záznamu. UniRef50 a UniRef90 jsou sestaveny na bázi UniRef100.

UniMes[5][editovat | editovat zdroj]

UniMes slouží jako úložiště metagenomických a environmentálních údajů.

Přístup do databáze[editovat | editovat zdroj]

Internetové stránky UniProt jsou primárním přístupovým bodem k datům a dokumentaci. Tyto stránky nabízí různé nástroje jako např.: fulltextové vyhledávání, fulltextové vyhledávání pro jednotlivé pole, vyhledávání podobné sekvence, sériové vyhledávání pro více sekvencí současně, mapování identifikátoru v databázi. Web také nabízí stručný úvod pro začátečníky, příslušný odkaz lze nalézt na domovské stránce. Při vyhledávání není třeba mít znalost o funkcích organizace dat ani syntaxe vyhledávání, takže je vhodný i pro uživatele-začátečníky. Výsledky vyhledávání jsou seřazeny dle podobnosti s vyhledávaným slovem. V levé části webu je po vyhledání možné výsledky filtrovat dle různých parametrů. Výsledky vyhledávání sekvenční podobnosti lze filtrovat podle taxonomie, pro získání rychlého přehledu o taxonomickém rozdělení výsledků. Anotace sekvencí shodných záznamů mohou být transformovány do alignmentu, aby bylo vidět, zda zůstávají zachovány důležité pozice. Web umožňuje si vyhledané struktury dávat do záložek (funkce Basket) a sady výsledků stahovat.

Informace v databázi[editovat | editovat zdroj]

UniProt je jedna z nejlépe anotovaných proteinových databází současnosti. U vyhledaných struktur je možné najít mnoho informací o funkci, regulaci, umístění v buňce, patologických projevech souvisejících s proteinem a konkrétní příklady mutací, které je způsobují. Dále se zde nachází informace o posttranslačních modifikacích a interakcích, na kterých se protein podílí. Je zde možno nalézt odkazy na konkrétní PDB struktury. Nezbytnou součástí databáze jsou informace o jednotlivých doménách a proteinové rodině. Také se zde nachází sekvence, kterou je možné stáhnout ve formátu FASTA a mnoho dalších.

Reference[editovat | editovat zdroj]

  1. Archivovaná kopie. database.oxfordjournals.org [online]. [cit. 2016-05-29]. Dostupné v archivu pořízeném dne 2016-06-24. 
  2. http://bioinformatics.oxfordjournals.org/content/20/17/3236
  3. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4375400/
  4. Protein Data Bank. [s.l.]: [s.n.] Dostupné online. (anglicky) Page Version ID: 717466106. 
  5. www.uniprot.org [online]. www.uniprot.org [cit. 2016-05-14]. Dostupné online. 

Externí odkazy[editovat | editovat zdroj]