Biologické databáze

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání

Biologické databáze jsou knihovny biologických dat získaných z vědeckých experimentů, publikované literatury, experimentálních technologií a počítačových analýz. Obsahují informace z různých vědeckých oblastí, zejména se jedná o genomiku, proteomiku, metabolomiku, microarray a fylogenetiku. Biologické databáze obsahují informace o funkcích genů, struktuře, lokalizaci (buněčné i chromozomální), klinickém efektu mutací a podobnosti biologických sekvencí a struktur. Biologické databáze představují pro vědce nepostradatelnou pomůcku při jejich vyhodnocování a plánování experimentů. Pomáhají jim k porozumění a vysvětlení velkého množství biologických jevů ze struktury biomolekul a jejich interakcí, metabolismu organismů a porozumění evoluci druhů. Tyto znalosti pomáhají v boji proti nemocem, ve vývoji léků a objevení základních vztahů mezi druhy v průběhu evoluce. Biologická data jsou skladována v různých všeobecných i specializovaných databázích.

Biologická data[editovat | editovat zdroj]

Biologická data jsou data nebo výsledky různých měření shromážděná z biologických zdrojů. Tato data jsou běžně uchovávána v digitální formě v celé řadě souborů nebo databází. Věda zabývající se hledáním a interpretací biologických dat se nazývá bioinformatika. Jako příklady biologických dat lze uvést:

  • Sekvence (DNA, RNA, proteiny)
  • Struktury biologických molekul
  • Biochemické dráhy
  • Genové expresní profily
  • Mapování chromozomů
  • Genomická data
  • Bibliografická data
  • Fylogenetická data
  • EST (expressed sequence tag)
  • SNP (single nucleotide polymorphisms) a jiné variace

Využití biologických dat ve výzkumu[editovat | editovat zdroj]

Biologická data mohou být velmi různorodá. Týkají se prakticky všech vědeckých oborů, např. genetiky, strukturální biologie, microarrays, farmakologie. Každý z těchto oborů má svou vlastní terminologii, nomenklaturu, pravidla a také biologická data. Je důležité si uvědomit, že laboratorní experimenty v mnoha případech produkují podobná a blízce související, ale ne identická data. Typy dat se mohou lišit ve formátech, ve kterých jsou ukládána. Nejčastěji se biologická data uchovávají jako obrázky, kresby, grafické struktury, nestrukturalizovaný text, sekvence, 3D proteinové struktury apod.

Nejčastější typy biologických dat[editovat | editovat zdroj]

  • Experimentální data – data, která byla získána jako výsledky laboratorních experimentů, např. digitální obrázky, výsledky pozorování.
  • Fylogenetická data – data o evoluční příbuznosti mezi různými skupinami organismů. Informace jsou získávány prostřednictvím molekulárních sekvenčních dat (multiple sequence alignmenty) a morfologických dat.
  • Metabolická data – data o metabolických drahách organismů (enzymatické reakce v živých organismech apod.).
  • Nezpracovaná data – data, která nikdy nebyla předmětem manipulace nebo zpracování.
  • Sekvence – data z DNA sekvencí nebo proteinových sekvencí, multiple sequence alignmenty.
  • Strukturní data – 3D struktury proteinů, DNA, RNA nebo malých molekul.
  • EST (expressed sequence tag) – jsou krátké DNA sekvence (okolo 300 – 1000 bp), které jsou odvozené z cDNA. Reprezentují geny exprimované ve tkáních ze kterých je odvozena cDNA knihovna (transkriptom). Tato data nám umožňují základní srovnávání mezi různými organismy, rozlišování genových rodin, poskytují informace o genech exprimovaných ve specifických tkáních, nebo v závislosti na odpovědi vůči vnějším vlivům, používají se k identifikaci genových transkriptů a pomáhají v objevování genů a determinaci sekvencí, atd.
  • SNP (single nucleotide polymorphisms) a jiné variace – jsou odchylky individuálních nukleotidů v sekvenci DNA. Jednonukleotidové polymorfismy jsou nejčastěji nalézanou genetickou změnou v lidské populaci. Každý SNP reprezentuje rozdíl v jednom stavebním bloku DNA. Většina SNP pravděpodobně nemá přímý vliv na lidské zdraví, ale mohou pozměnit účinek léků nebo odpověď organismu na vystavení zátěži chemickým či biologickým škodlivinám v životním prostředí. SNP navíc mohou být použity k vysledování zákonů, kterými se řídí dědičnost v rodinách s vysokým výskytem některých chorob, např.: diabetu, kardiovaskulárních, či nádorových onemocnění.

Přístup do databází[editovat | editovat zdroj]

Většina biologických databází je přístupná přes webové stránky, biologická data jsou uspořádána tak, že uživatelé je mohou snadno prohlížet online a stahovat je v různých formátech. Biologická data jsou uchovávána v mnoha formátech (např. text, sekvenční data, proteinové struktury). Každý typ formátu je zpravidla nalézán v určitém typu databáze např.:

  • Textové formáty jsou dostupné na PubMed a OMIM.
  • Sekvenční data jsou dostupná na GenBank pro DNA a UniProt, Swiss – Prot pro proteiny.
  • Proteinové struktury jsou dostupné na PDB, SCOP a CATH.

Příklady databází pro základní biologická data[editovat | editovat zdroj]

Databáze sekvencí DNA a proteinů:

Strukturní databáze:

Databáze zabývající se klasifikací proteinových rodin a proteinových domén:

Databáze SNP:

Databáze odborné literatury:

Databáze interakcí protein-protein, metabolické dráhy, proteinové dráhy:

Genetické databáze (mutace, geneticky podmíněné nemoci, genetické mapování):

Databáze datových center (zahrnující sekvence, struktury, funkce, literaturu atd.):

Genomové databáze (kompletní genomové sekvence a příbuzné informace pro specifické organismy):

Databáze expresních profilů (microarray a genová exprese cDNA):

Reference[editovat | editovat zdroj]

  • Attwood T.K., Gisel A., Eriksson N-E. and Bongcam-Rudloff E. (2011). "Concepts, Historical Milestones and the Central Place of Bioinformatics in Modern Biology: A European Perspective". Bioinformatics - Trends and Methodologies. InTech. Retrieved 8 Jan 2012.
  • Altman RB (2004). "Building successful biological databases". Brief. Bioinformatics 5 (1): 4–5. doi:10.1093/bib/5.1.4. PMID 15153301.
  • Bourne P. (2005). "Will a biological database be different from a biological journal?" PLoS Comput. Biol. 1 (3): 179 – 81. doi:10.1371/journal.pcbi.0010034. PMC 1193993. PMID 16158097.
  • BioInfoBank library: http://lib.bioinfo.pl/courses/view/160
  • Jin Xiong, Essential Bioinformatics, Cambridge University Press, ISBN 978-0-521-84098-9, 2006 (1. vydání)
  • Jean-Michel Claverie, Ferdic Notredame, Bioinformatics for Dummies, Wiley Publishing, Inc., ISBN 978-0-470-08985-9, 2007 (2. vydání)
  • Wooley J. C:, Lin H. S. (eds.) (2005): National Research Council (US) Committee on Frontiers at the Interface of Computing and Biology. Catalyzing Inquiry at the Interface of Computing and Biology. Washington (DC): National Academies Press (US); http://www.ncbi.nlm.nih.gov/books/NBK25464/?report=printable