GenBank

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání

GenBank je veřejně přístupná anotovaná sekvenční nukleotidová databáze (http://www.ncbi.nlm.nih.gov). V současné době obsahuje nukleotidové sekvence více než 260 000 popsaných druhů organismů. GenBank je spravována National Center for Biotechnology Information (NCBI) spadajícím pod National Library of Medicine (NLM) umístěném v kampusu National Institutes of Health (NIH) v Bethesdě v USA. GenBank je součástí konsorcia International Nucleotide Sequence Database Collaboration (INSDC), mezi něž patří také DNA DataBank of Japan (DDBJ) a databáze European Molecular Biology Laboratory (EMBL). Tyto tři největší světové primární databáze (tzv. databáze Velké trojky) každý den navzájem sdílejí data a zároveň se tak zálohují. Do GenBanku přispívají jednotlivé individuální laboratoře i velká genomová sekvenační centra.[1][2]

Přístup[editovat | editovat zdroj]

Přístup a vyhledávaní na GenBank je zajištěno přes NCBI Etrez, který zároveň integruje vyhledávání v hlavních DNA a proteinových strukturních a sekvenčních databázích a v hlavní databázi odborných biomedicínsky zaměřených časopisů – PubMed. Kromě přístupu přes webové rozhraní (http://www.ncbi.nlm.nih.gov/genbank/) lze také prostřednictvím FTP celou databázi k danému datu bezplatně nainstalovat na konkrétní počítač. V tomto případě je však nutno ji pravidelně aktualizovat – NCBI uvolňuje novou verzi každé 2 měsíce.[3]

Nahrání záznamu[editovat | editovat zdroj]

K nahrání dat do databáze slouží specializované programy BankIt a Sequin, jejichž prostřednictvím nahrávají vědečtí pracovníci svá originální sekvenační data. Většina impaktovaných časopisů v současné době už podmiňuje publikaci výsledků nahráním sekvenačních dat do některé z veřejně přístupných databází, nejčastěji databází Velké trojky.[3]

Po nahrání do databáze obdrží každá sekvence svůj unikátní identifikátor – přístupový kód (accession nuber) skládající se z proměnného počtu čísel a písmen. Tento kód je neměnný, je společný GenBank, DDBJ a EMBL-Bank a lze podle něj příslušnou sekvenci kdykoliv dohledat. Spolu s publikací v GenBank každá sekvence obdrží tzv. GI číslo (GenBank Identifier). Na rozdíl od přístupového kódu tento identifikátor již není po celou dobu záznamu neměnný, ale může se změnit s úpravou sekvence, např. při nahrání nové či opravené verze sekvence. GI umožňuje efektivnější a rychlejší vyhledání konkrétního záznamu.[2]

Po nahrání mohou záznam upravovat pouze autoři, a to i v případě, že je záznam chybný nebo duplicitní. Vzhledem k tomu, že většina databází včetně Genbank je nemoderovaných, databáze mohou obsahovat duplicitní záznamy – více záznamů stejné sekvence vložené různými autory s různým accession number. Mohou obsahovat také chybné určení sekvence dané kontaminací, např. houbový patogen rostlin může být popsán jako rostlinná sekvence, jelikož může kontaminovat vzorky rostlinné DNA.[3] Řada chyb v sekvencích se může objevit také během nahrávacího procesu. Někteří autoři se domnívají, že až více než jedna polovina sekvencí mitochondriální DNA člověka nahrané do GenBank obsahuje chyby, a proto by měl být její obsah více kontrolován a kriticky posuzován.[4]

Základní typy datových záznamů[editovat | editovat zdroj]

Základní typy záznamů v databázi GenBank jsou:[2][3]

standardní originální nukleotidové sekvence – sekvence získané sekvenováním fragmentů genomové DNA

sekvence EST (expressed sequence tags) – neúplné sekvence konců jinak necharakterizovaných cDNA; data obvykle nižší kvality než "standardní" sekvence

sekvence HTGS (high throughput genome sequencing) – dosud neposkládané a neanotované sekvence pocházející ze sekvenování genomů

sekvence WGS (whole-genome shotgun) - referenční sekvence již většinou poskládaných a anotovaných kompletních genomů

sekvence TPA (third party annotation)sekvence anotované jinými než původními autory

sekvence TSA (transcriptome shotgun assembly sequence)sekvence transkriptomů získané reverzním přepisem revezní transkriptázou z mRNA do cDNA, jedna z nejrychleji narůstajících oblastí dat

sekvence ENV (Environmental sample sequence)environmentální DNA získaná sekvenováním celých společenstev často nepopsaných organismů, např. metagenomická data získaná z biofilmů, sedimentů, horkých pramenů, povrchu tkání apod.; v případě prokaryot se nejčastěji jedná o sekvenci 16S rRNA

Vyhledávání[editovat | editovat zdroj]

K vyhledávání sekvenčně podobných záznamů slouží program BLAST a jeho nejrůznější modifikace. Hledaná sekvence (query) je podle algoritmu porovnána se sekvencemi obsaženými v databázi.

Historie[editovat | editovat zdroj]

Databáze GenBank vznikla jako veřejná databáze v roce 1982 přeměnou databáze Los Alamos Sequence Database Waltera Goada a jeho spolupracovníků z Theoretical Biology and Biophysics Group na Los Alamos National Laboratory (LANL) z roku 1979. Na vzniku databáze se finančně podílely National Institute of Health (NIH), National Science Foundation, Department of Energy a Department of Defense v USA. Od poloviny 80. let správu nad GenBank převzala IntelliGenetics Bioinformatics Company na Stanfordově univerzitě společně s LANL. Mezi roky 1989 a 1992 byla databáze GenBank postupně převedena pod správu nově vytvořeného National Center for Biotechnology Information (NCBI).[5]

Růst[editovat | editovat zdroj]

Počet párů bází se na GenBank od roku 1982 zdvojnásobí zhruba každých 18 měsíců, což klade velké nároky na softwarové a hardwarové vybavení. Každé 2 měsíce je uvolňována nová verze databáze pro stažení přes FTP programy, tzv. release. K aktualizaci záznamů online dochází průběžně. V dubnu 2013 pří uvolnění 195. verze GenBank databáze obsahovala celkově 151 178 979 155 bází 164 136 731 sekvencí.[6]

Reference[editovat | editovat zdroj]

V tomto článku byl použit překlad textu z článku Genbank na anglické Wikipedii.

  1. DENNIS A. BENSON, ILENE KARSCH-MIZRACHI, DAVID J. LIPMAN, JAMES OSTELL AND DAVID L. WHEELER. GenBank. Nucleic Acids Research [online]. 2013 [cit. 2013-05-18], s. 21-25. DOI:doi:10.1093/nar/gkl986.  
  2. a b c DENNIS A. BENSON, MARK CAVANAUGH, KAREN CLARK, ILENE KARSCH-MIZRACHI, DAVID J. LIPMAN, JAMES OSTELL AND ERIC W. SAYERS. GenBank. Nucleic Acids Research. 2007, roč. 41, s. 36-41. DOI:doi:10.1093/nar/gks1195.  
  3. a b c d CVRČKOVÁ, Fatima. Úvod do praktické bioinformatiky. [s.l.] : Academia, 2006. ISBN 80-200-1360-1. S. 148.  
  4. D. JAMES HARRIS. Can you bank on GenBank?. TRENDS in Ecology and Evolution [online]. Roč. 18 [cit. 2013-05-18], s. 317-319. DOI:10.1016/S0169-5347(03)00150-2.  
  5. LANL GenBank History [online].  [cit. 2013-05-18]. Dostupné online.  
  6. Growth of GenBank and WGS. GenBank [online]. 2013 [cit. 2013-05-18], NCBI. Dostupné online.