Protein data bank

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání
Příklad struktury v PDB databázi. Na obrázku molekula měsíce (březen 2000) DNA polymeráza

Protein data bank (zkráceně PDB) je primární databáze 3-D struktur makromolekul jako např. proteinů, nukleových kyselin. PDB je důležitý zdroj bioinformatických dat pro molekulární biologii, medicínu a farmacii. Všechny uložené struktury a data jsou volně dostupné. Může je vkládat kdokoliv, není tedy zajištěna bezchybnost uveřejněných záznamů. Zdrojem dat bývá experimentální měření metodami NMR a X-ray krystalografie. V roce 2003 byla založena organizace wwPDB (Worldwide Protein Data Bank), která zajišťuje chod celé online databáze, její anotaci a sleduje její vývoj.[1] Financování databáze je umožněno díky vládním příspěvkům a uživatelským poplatkům.

Historie[editovat | editovat zdroj]

PDB byla založena v roce 1971 doktorem Walterem Hamiltonem na podnět Americké krystalografické společnosti (ACA).[2] Na začátku obsahovala databáze pouhých 7 struktur, které byly distribuovány na magnetických páscích. V této době záznamy přibývaly s rychlostí zhruba 25 struktur za rok. Až teprve po zdokonalení technik krystalografie začaly data přibývat exponencionálně, od roku 1987 je to až 50 struktur týdně.
Po vzniku wwPDB v roce 2003 se stala PDB databáze mezinárodním projektem. Sdružuje PDBe[3] (Evropa), PDBj[4] (Japonsko), RCSB[5] (USA) a od roku 2005 také BMRB (Biological magnetic resonance bank). Za management PDB je zodpovědná RCSB, a to od roku 1998 až do současnosti.

Počet struktur[editovat | editovat zdroj]

Každá struktura má přiřazené své PDB ID. Je to individuální 4 místný kód. Na prvním místě je vždy číslice od 1-9, na druhém až čtvrtém místě je libovolné číslo od 0-9 nebo písmeno z anglické abecedy A-Z. Možných ID je tedy 419 904. Počet struktur lze vypočítat dle:

n = exp(0,19y)
n – počet struktur za rok
y – počet roků od roku 1960

Tento vzorec byl odvozen v roce 1978 Richardem E. Dickersonem, který předpovídal exponenciální růst počtu vložených struktur.[6] Na konci roku 2012 mělo být dle tohoto vzorce 112 891 struktur v databázi, ve skutečnosti jich ale v PDB bylo méně- 87 030. Dickersonův předpoklad exponencionálního růstu dnes již neplatí. Graf počtu struktur je k dispozici na stránce PDB.

Vyhledávání v PDB[editovat | editovat zdroj]

V databázi PDB lze struktury vyhledávat podle ID, názvu molekuly, autora, který strukturu nahrál nebo dle sekvence. V pokročilém vyhledávání lze blíže specifikovat i např. datum nahrání, experimentální metodu nebo biologický původ molekuly. Zajímavostí PDB je, že je pravidelně vybírána molekula měsíce. Její struktura, funkce a význam pro lidské zdraví je presentováno srozumitelným způsobem, vhodným pro kohokoliv.

Format PDB[editovat | editovat zdroj]

Výsledek hledání je textový soubor ve formátu PDB, který popisuje 3D strukturu pomocí interpretace elektronové hustoty atomů molekuly. Formát obsahuje základní údaje o molekule a autorovi. Experimentální údaje jsou zapsány do sloupců, které udávají číslo atomu, jeho druh, typ aminokyselinového zbytku a jeho pořadí. Také jsou uvedeny X, Y a Z souřadnice, které udávají polohu daného atomu v molekule. Poslední dva sloupce udávají počet možných konformací a teplotní flexibilitu. Výsledný zápis vypadá takto:

HEADER    EXTRACELLULAR MATRIX                    22-JAN-98   1A3I
TITLE     X-RAY CRYSTALLOGRAPHIC DETERMINATION OF A COLLAGEN-LIKE
TITLE    2 PEPTIDE WITH THE REPEATING SEQUENCE (PRO-PRO-GLY)
...
EXPDTA    X-RAY DIFFRACTION
AUTHOR    R.Z.KRAMER,L.VITAGLIANO,J.BELLA,R.BERISIO,L.MAZZARELLA,
AUTHOR   2 B.BRODSKY,A.ZAGARI,H.M.BERMAN
...
REMARK 350 BIOMOLECULE: 1
REMARK 350 APPLY THE FOLLOWING TO CHAINS: A, B, C
REMARK 350   BIOMT1   1  1.000000  0.000000  0.000000        0.00000
REMARK 350   BIOMT2   1  0.000000  1.000000  0.000000        0.00000
...
SEQRES   1 A 9  PRO PRO GLY PRO PRO GLY PRO PRO GLY
SEQRES   1 B 6  PRO PRO GLY PRO PRO GLY
SEQRES   1 C 6  PRO PRO GLY PRO PRO GLY
...
ATOM      1  N   PRO A 1       8.316  21.206  21.530  1.00 17.44           N
ATOM      2  CA  PRO A 1       7.608  20.729  20.336  1.00 17.44           C
ATOM      3  C   PRO A 1       8.487  20.707  19.092  1.00 17.44           C
ATOM      4  O   PRO A 1       9.466  21.457  19.005  1.00 17.44           O
ATOM      5  CB  PRO A 1       6.460  21.723  20.211  1.00 22.26           C
...
HETATM  130  C   ACY   401       3.682  22.541  11.236  1.00 21.19           C
HETATM  131  O   ACY   401       2.807  23.097  10.553  1.00 21.19           O
HETATM  132  OXT ACY   401       4.306  23.101  12.291  1.00 21.19           O
...


PDB formát má koncovku .pdb. Lze ho otevřít v mnoha programech, např. Discovery Studio, PyMol, Jmol, UCSF, Cn3D. Některé z těchto programů lze zdarma stáhnout z internetu.

Odkazy[editovat | editovat zdroj]

Související články[editovat | editovat zdroj]

Reference[editovat | editovat zdroj]

V tomto článku byl použit překlad textu z článku Protein Data Bank na anglické Wikipedii.

  1. Berman, H. M., Henrick, K. & Nakamura, H. Announcing the worldwide Protein Data Bank. Nat Struct Biol. 10(12), 980 (2003)
  2. http://link.springer.com/chapter/10.1007%2F978-94-011-4631-9_16#
  3. PDBe Protein Data Bank in Europe
  4. Welcome to PDBj – Home
  5. http://www.rcsb.org/
  6. http://www.sdsc.edu/pub/envision/v18.1/moore.html