Homologní modelování

Homologní modelování, také komparativní či knowledge-based modelování, je metoda konstrukce struktury neznámého proteinu na základě jeho aminokyselinové sekvence a na základě znalosti struktury homologního proteinu (tzv. templátu). Této metody se využívá, pokud je podobnost mezi sekvencí templátu a cílovou sekvencí dostatečně vysoká (identita alespoň 30 %), jelikož struktura proteinů bývá u homologů ze zásady konzervovanější než jejich sekvence. Struktury proteinů se sekvenční podobností menší než 20 % se však mohou významně lišit.^[1]

Sekvenční alignment a templát jsou pak využity pro tvorbu cílového strukturního modelu. Jelikož struktura proteinů je ze zásady více konzervovaná než sekvence, značná podobnost sekvencí značí vysokou strukturní podobnost.^[2]

Kvalita homologního modelu pak záleží na kvalitě templátu i alignmentu. Můžeme narazit na strukturní mezery, způsobené špatným rozlišením metody využité pro experimentální zkoumání struktury templátu, anebo mezery v alignmentu, které naznačují že dané segmenty se vyskytují v cílovém proteinu, ne však v templátu. Chyby se také často vyskytují ve strukturách tvořených bez templátu, takzvaným modelováním loopů. Všechny tyto možné nepřesnosti struktury způsobují, že homologní modelování není příliš vhodné pro odvětví výzkumu, která vyžadují vysokou přesnost modelů, jako například drug design.

Homologní modely však mohou být i poměrně přesné, avšak pouze pokud jsou cílový protein a templát blízce příbuzné, proto také vzniklo konsorcium strukturní genomiky, které se zabývá vytvářením reprezentativních experimentálních struktur, pro všechny možné třídy proteinových foldů.^[3] Stejně jako další metody i homologní modelování se využívá během rozsáhlých experimentů známých jako Critical Assessment of Techniques for Protein Structure Prediction neboli CASP.

Tvorba strukturního modelu[editovat | editovat zdroj]

Proces vytváření strukturního modelu pomocí homologního modelování můžeme rozdělit na několik kroků. Nejdříve se vybere protein pro modelování (cílový), poté se hledají homology (templáty), proběhne alignment cílové a templátové sekvence, následuje samotné modelování struktury, a nakonec stereochemická kontrola modelu.^[2]

Hledání templátů a alignment sekvencí[editovat | editovat zdroj]

Zásadním krokem homologního modelování je vyhledávání nejlepších strukturních templátů. Nejjednodušší používané metody jsou FASTA nebo BLAST, založené na párovém alignmentu sekvencí a prohledávání databází. Složitější, ale značně citlivější metody jsou pak založené na mnohočetném sekvenčním alignmentu, mezi tyto metody, pomocí kterých je možné identifikovat i vzdálenější homology, se řadí například PSI-BLAST.

Pokud jsou nalezeny homology, zvolíme nejvhodnější templát (s nejvyšší identitou k cílové sekvenci proteinu) a ačkoli lze využít k modelování struktury již alignment sekvencí vytvořený vyhledávacími metodami, je vhodné alignment upřesnit pomocí dalších programů, jako je například Clustal W, využívajících opět mnohonásobné porovnávání sekvencí.

Modelování struktury[editovat | editovat zdroj]

Za pomoci informací získaných z alignmentu s templátem je generován strukturní model cílového proteinu, který můžeme reprezentovat jako soustavu kartézských souřadnic pro každý atom daného proteinu. Nejběžnější metodou využívanou pro modelování struktur, pokud neznáme templát s dostatečnou podobností, je tzv. Homologní modelování s constraints.

Tato metoda je inspirována výpočty struktur například promocí NMR spektroskopie. Alignment cílové sekvence a templátu je využit při konstrukci geometrických kritérií, pomocí kterých se pak vytvoří funkce hustoty pravděpodobnosti pro jednotlivá omezení (constraints). Tato omezení aplikována na proteinové souřadnice pak slouží jako základ pro globální optimalizaci, která původně sloužila také například k ověření uspořádání těžkých atomů v proteinu.^[4] Pro modelování pomocí metody prostorového omezení se nejčastěji užívá software MODELLER a byla vytvořena databáze ModBase, modelů generovaných tímto programem.^[5]

Dalším softwarem pro homologní modelování je například Swiss-MODEL. Ten se využívá, pokud známe dostatečně přesný templát pro zvolený cílový protein. Proběhne přeložení aminokyselin v templátu aminokyselinami z cílové sekvence a pro ověření kvality modelu je následně využita skórovací funkce.

Modelování loopů[editovat | editovat zdroj]

Části cílové sekvence, které se neshodují s templátovou sekvencí, jsou modelovány pomocí procesu modelování loopů. V těchto regionech, vyskytujících se více s klesající identitou sekvencí, dochází nejčastěji k zásadním chybám při modelování proteinové struktury. Většina programů pro loop modeling není příliš přesná, zvláště pokud se jedná o regiony delší než 10 párů bází, proto se často pro delší řetězce loopů vychází ze struktury homologu.

Posouzení modelu[editovat | editovat zdroj]

Posouzení homologního modelu, pokud nemáme k dispozici referenci pro daný cílový protein může probíhat dvěma způsoby, pomocí statistického potenciálu nebo fyzikálního výpočtu energie. Ani jedna z těchto metod však nemá příliš velkou strukturní přesností, především u proteinů zastoupených řídce v databázi PDB (například membránové proteiny).

Metody statistického potenciálu jsou empirické, založené na pozorování frekvencí reziduálních kontaktů mezi proteiny známých struktur z PDB. Vytvoří se energetické skóre pro všechny párové interakce mezi aminokyselinami, tato skóre pak vytvoří celkové ohodnocení pro celý model. Mezi tyto metody se řadí Prosa nebo například DOPE. Statistický potenciál je výpočetně výhodnější než počítání energie.^[6]

Pomocí fyzikálního výpočtu energie můžeme zachytit interakce mezi atomy, které jsou zodpovědné za stabilitu proteinu v roztoku (především van der Waalsovy interakce nebo elektrostatické interakce). Výpočty jsou provedeny pomocí silového pole molekulární mechaniky, které se vytváří specificky pro posouzení struktur (tzv. efektivní silové pole (EFF)), založené na parametrech z CHARMM.^[7]

Pokud známe experimentální strukturu homologního modelu, posouzení je jednoduché. Využívá se nejběžnější metody pro porovnávání dvou proteinových struktur root-mean-square deviation (RMSD).

Využití Homologního modelování[editovat | editovat zdroj]

Homologní modelování a touto metodou vytvořené modely lze využít při řešení problémů jako je predikce protein-protein interakcí, protein-protein docking nebo například při funkční anotaci nově identifikovaných genů.^[8] Často nižší přesnost homologních modelů není v těchto případech problém, jelikož nepřesnosti modelů se vyskytují převážně v loopech, ale funkční místa, jako například aktivní místa, bývají velmi konzervované.^[9] Dále se homologní modely využívají i pro identifikaci rozdílů příbuzných proteinů jejichž struktury zatím nebyly úplně prozkoumány. Například napomohly k identifikaci vazebných míst kationtů Na⁺/K⁺ na ATPase.^[10]

Odkazy[editovat | editovat zdroj]

Reference[editovat | editovat zdroj]

↑ CHOTHIA, C.; LESK, A.M. The relation between the divergence of sequence and structure in proteins.. The EMBO Journal. 1986-04, roč. 5, čís. 4, s. 823–826. Dostupné online [cit. 2020-01-22]. DOI 10.1002/j.1460-2075.1986.tb04288.x. (anglicky)
↑ ^a ^b MARTÍ-RENOM, Marc A.; STUART, Ashley C.; FISER, András. Comparative Protein Structure Modeling of Genes and Genomes. Annual Review of Biophysics and Biomolecular Structure. 2000-06, roč. 29, čís. 1, s. 291–325. Dostupné online [cit. 2020-01-22]. ISSN 1056-8700. DOI 10.1146/annurev.biophys.29.1.291. (anglicky) Archivováno 29. 1. 2020 na Wayback Machine.
↑ WILLIAMSON, Alan R. [No title found]. Nature Structural Biology. 2000-11-01, roč. 7, s. 953–953. Dostupné online [cit. 2020-01-22]. DOI 10.1038/80726.
↑ ŠALI, Andrej; BLUNDELL, Tom L. Comparative Protein Modelling by Satisfaction of Spatial Restraints. Journal of Molecular Biology. 1993-12, roč. 234, čís. 3, s. 779–815. Dostupné online [cit. 2020-01-22]. DOI 10.1006/jmbi.1993.1626. (anglicky)
↑ PIEPER, U. MODBASE, a database of annotated comparative protein structure models, and associated resources. Nucleic Acids Research. 2004-01-01, roč. 32, čís. 90001, s. 217D–222. Dostupné online [cit. 2020-01-22]. ISSN 1362-4962. DOI 10.1093/nar/gkh095.
↑ SIPPL, Manfred J. Recognition of errors in three-dimensional structures of proteins. Proteins: Structure, Function, and Genetics. 1993-12, roč. 17, čís. 4, s. 355–362. Dostupné online [cit. 2020-01-22]. ISSN 0887-3585. DOI 10.1002/prot.340170404. (anglicky)
↑ LAZARIDIS, Themis; KARPLUS, Martin. Discrimination of the native from misfolded protein models with an energy function including implicit solvation. Journal of Molecular Biology. 1999-05, roč. 288, čís. 3, s. 477–487. Dostupné online [cit. 2020-01-22]. DOI 10.1006/jmbi.1999.2685. (anglicky)
↑ GOPAL, Shuba; SCHROEDER, Mark; PIEPER, Ursula. Homology-based annotation yields 1,042 new candidate genes in the Drosophila melanogaster genome. Nature Genetics. 2001-03, roč. 27, čís. 3, s. 337–340. Dostupné online [cit. 2020-01-22]. ISSN 1061-4036. DOI 10.1038/85922. (anglicky)
↑ BAKER, D. Protein Structure Prediction and Structural Genomics. Science. 2001-10-05, roč. 294, čís. 5540, s. 93–96. Dostupné online [cit. 2020-01-22]. DOI 10.1126/science.1065659.
↑ OGAWA, H.; TOYOSHIMA, C. Homology modeling of the cation binding sites of Na+K+-ATPase. Proceedings of the National Academy of Sciences. 2002-12-10, roč. 99, čís. 25, s. 15977–15982. Dostupné online [cit. 2020-01-22]. ISSN 0027-8424. DOI 10.1073/pnas.202622299. PMID 12461183. (anglicky)

[1] CHOTHIA, C.; LESK, A.M. The relation between the divergence of sequence and structure in proteins.. The EMBO Journal. 1986-04, roč. 5, čís. 4, s. 823–826. Dostupné online [cit. 2020-01-22]. DOI 10.1002/j.1460-2075.1986.tb04288.x. (anglicky)

[#1-2] MARTÍ-RENOM, Marc A.; STUART, Ashley C.; FISER, András. Comparative Protein Structure Modeling of Genes and Genomes. Annual Review of Biophysics and Biomolecular Structure. 2000-06, roč. 29, čís. 1, s. 291–325. Dostupné online [cit. 2020-01-22]. ISSN 1056-8700. DOI 10.1146/annurev.biophys.29.1.291. (anglicky) Archivováno 29. 1. 2020 na Wayback Machine.

[3] WILLIAMSON, Alan R. [No title found]. Nature Structural Biology. 2000-11-01, roč. 7, s. 953–953. Dostupné online [cit. 2020-01-22]. DOI 10.1038/80726.

[4] ŠALI, Andrej; BLUNDELL, Tom L. Comparative Protein Modelling by Satisfaction of Spatial Restraints. Journal of Molecular Biology. 1993-12, roč. 234, čís. 3, s. 779–815. Dostupné online [cit. 2020-01-22]. DOI 10.1006/jmbi.1993.1626. (anglicky)

[5] PIEPER, U. MODBASE, a database of annotated comparative protein structure models, and associated resources. Nucleic Acids Research. 2004-01-01, roč. 32, čís. 90001, s. 217D–222. Dostupné online [cit. 2020-01-22]. ISSN 1362-4962. DOI 10.1093/nar/gkh095.

[6] SIPPL, Manfred J. Recognition of errors in three-dimensional structures of proteins. Proteins: Structure, Function, and Genetics. 1993-12, roč. 17, čís. 4, s. 355–362. Dostupné online [cit. 2020-01-22]. ISSN 0887-3585. DOI 10.1002/prot.340170404. (anglicky)

[7] LAZARIDIS, Themis; KARPLUS, Martin. Discrimination of the native from misfolded protein models with an energy function including implicit solvation. Journal of Molecular Biology. 1999-05, roč. 288, čís. 3, s. 477–487. Dostupné online [cit. 2020-01-22]. DOI 10.1006/jmbi.1999.2685. (anglicky)

[8] GOPAL, Shuba; SCHROEDER, Mark; PIEPER, Ursula. Homology-based annotation yields 1,042 new candidate genes in the Drosophila melanogaster genome. Nature Genetics. 2001-03, roč. 27, čís. 3, s. 337–340. Dostupné online [cit. 2020-01-22]. ISSN 1061-4036. DOI 10.1038/85922. (anglicky)

[9] BAKER, D. Protein Structure Prediction and Structural Genomics. Science. 2001-10-05, roč. 294, čís. 5540, s. 93–96. Dostupné online [cit. 2020-01-22]. DOI 10.1126/science.1065659.

[10] OGAWA, H.; TOYOSHIMA, C. Homology modeling of the cation binding sites of Na+K+-ATPase. Proceedings of the National Academy of Sciences. 2002-12-10, roč. 99, čís. 25, s. 15977–15982. Dostupné online [cit. 2020-01-22]. ISSN 0027-8424. DOI 10.1073/pnas.202622299. PMID 12461183. (anglicky)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]