Přeskočit na obsah

BLOSUM

Z Wikipedie, otevřené encyklopedie

BLOSUM (BLOcks SUbstitution Matrix) je druh substituční matice používaný pro alignment proteinů. Slouží k porovnání evolučně rozdílných sekvencí. Matice BLOSUM není extrapolována a je založena pouze na pozorovaných alignmentech. Metodu BLOSUM vyvinuli v roce 1992 Steven Henikoff a Jorja Henikoff, kteří ji založili na základě lokálního alignmentu[1]. Manželé Henikoff hledali v databázi BLOCKS konzervované oblasti proteinových rodin a zjišťovali relativní frekvenci jednotlivých aminokyselin a pravděpodobnost jejich substituce. Poté vypočítali skóre logaritmické šance pro každou z 210 možných substitučních párů 20 aminokyselin.

Skórování v matici BLOSUM[editovat | editovat zdroj]

Pro vyhodnocení významnosti alignmentu sekvencí je nutná skórovací tabulka. Proteinová skórovací tabulka musí brát v potaz nejen shodu či neshodu, ale i pravděpodobnost, s jakou je některá aminokyselina nahrazena jinou. Znamená to, že pokud jsou si aminokyseliny blízké svými vlastnostmi a strukturou, skóre bude typicky vyšší. Naopak pokud mají aminokyseliny odlišné vlastnosti a strukturu, skóre bude nižší. Cílem je poskytnout relativně velkou penalizaci za alignment dvou zbytků u nichž je nízká pravděpodobnost, že se jedná o homology.

Skóre v BLOSUM je logaritmické skóre, které měří poměr pravděpodobnosti výskytu dvou aminokyselin s biologickým významem a pravděpodobnosti výskytu stejných dvou aminokyselin náhodně. Každé aminokyselině v sekvenci je přiřazeno skóre na základě její pozorované četnosti v alignmentu příbuzných proteinů.

K výpočtu matice BLOSUM se používá následující rovnice:

kde odpovídá dvěma aminokyselinám a nahrazujících jedna druhou, a jsou pravděpodobnosti výskytu jedné nebo druhé aminokyseliny v libovolném proteinu a je faktor nastavený tak, aby matice obsahovala snadno vypočitatelné celočíselné hodnoty [2].

Příklady BLOSUM matic[editovat | editovat zdroj]

Matice BLOSUM byly vytvořeny sloučením všech sekvencí, které si byly podobnější než určitá procentuální hodnota a následným porovnáním pouze těchto sekvencí, čímž se snížil příspěvek blízce příbuzných sekvencí[3]. Použité procento značí číslo v názvu matice. Matice s vyšším číslem (BLOSUM80) se používají pro alignment evolučně blízkých sekvencí, naopak matice s nižším číslem (BLOSUM45) se používají pro sekvence evolučně vzdálené.

BLOSUM62[editovat | editovat zdroj]

Matice BLOSUM62 je sestavená s použitím sekvencí s alespoň 62% identitou. V této matici jsou pozitivní skóre méně častá než negativní skóre, což naznačuje, že většina substitucí negativně ovlivňuje funkci proteinu. Nejvíce konzervovanými aminokyselinami jsou cystein, tryptofan a histidin, které mají nejvyšší skóre[4].

BLOSUM62 je všeobecně považovaná za univerzální skórovací BLOSUM matici a je proto používána jako výchozí skórovací matice pro BLAST[5].

Srovnání BLOSUM s maticí PAM[editovat | editovat zdroj]

PAM (Point Accepted Mutations) matice jsou založeny na globálním alignmentu blízce příbuzných proteinů [6][7]. Tyto matice předpokládají, že je změna aminokyseliny v daném místě nezávislá na předchozích změnách v tomto místě. Pro vzdáleně příbuzné proteiny jsou matice odvozeny extrapolací z krátkodobých změn na základě předpokladu, že vzdálenější změny vycházejí z opakovaných krátkodobých změn . V případě BLOSUM nejsou tyto hodnoty výsledkem extrapolace, ale skutečných alignmentů. Číselné hodnoty u PAM udávají podíl zaměněných aminokyselin proto nelze srovávat matice PAM a BLOSUM značené stejnými čísly [8].

srovnatelné matice PAM a BLOSUM[1]
PAM BLOSUM
PAM250 BLOSUM45
PAM160 BLOSUM62
PAM120 BLOSUM80

Reference[editovat | editovat zdroj]

  1. a b HENIKOFF, S; HENIKOFF, J G. Amino acid substitution matrices from protein blocks.. Proceedings of the National Academy of Sciences. 1992-11-15, roč. 89, čís. 22, s. 10915–10919. Dostupné online [cit. 2024-06-16]. ISSN 0027-8424. DOI 10.1073/pnas.89.22.10915. PMID 1438297. (anglicky) 
  2. 9.5: BLOSUM62 scoring matrix for amino acid substitutions. Biology LibreTexts [online]. 2018-12-28 [cit. 2024-06-16]. Dostupné online. (anglicky) 
  3. Handbook of nature-inspired and innovative computing: integrating classical models with emerging technologies. Příprava vydání Albert Y. Zomaya. New York: Springer Science+Business Media 736 s. ISBN 978-0-387-40532-2. 
  4. 9.5: BLOSUM62 scoring matrix for amino acid substitutions. Biology LibreTexts [online]. 2018-12-28 [cit. 2024-06-16]. Dostupné online. (anglicky) 
  5. HENIKOFF, S; HENIKOFF, J G. Amino acid substitution matrices from protein blocks.. Proceedings of the National Academy of Sciences. 1992-11-15, roč. 89, čís. 22, s. 10915–10919. Dostupné online [cit. 2024-06-16]. ISSN 0027-8424. DOI 10.1073/pnas.89.22.10915. PMID 1438297. (anglicky) 
  6. Atlas of protein sequence and structure. Vol. 5, Suppl. 3. Příprava vydání Margaret O. Dayhoff, National Biomedical Research Foundation. Svazek 5. Washington, D.C: National Biomedical Research Foundation 414 s. ISBN 978-0-912466-07-1. 
  7. PEVSNER, Jonathan. Bioinformatics and functional genomics. 2nd ed. vyd. Hoboken, N.J: Wiley-Blackwell 951 s. Dostupné online. ISBN 978-0-470-08585-1. OCLC 253189041 OCLC: ocn253189041. 
  8. MOUNT, David W. Comparison of the PAM and BLOSUM Amino Acid Substitution Matrices. Cold Spring Harbor Protocols. 2008-06, roč. 2008, čís. 6, s. pdb.ip59. Dostupné online [cit. 2024-06-16]. ISSN 1940-3402. DOI 10.1101/pdb.ip59. (anglicky)