AlphaFold

Z Wikipedie, otevřené encyklopedie
Skočit na navigaci Skočit na vyhledávání

AlphaFold je umělá inteligence vyvinutá britskou společností DeepMind spadající pod Google[1], která se již v minulosti proslavila umělými inteligencemi schopnými hrát a zejména vyhrát ve složitých hrách jako je Go či StarCraft.[2] Jde o software využívající několikavrstevnou umělou neuronovou síť, jež na základě hlubokého učení (podtyp strojového učení) dokáže z primární struktury proteinu určit jeho výslednou konformaci.

Firma s vývojem algoritmu schopného určit tvar proteinu pouze na základě sekvence zbytků aminokyselin započala v roce 2016. Software se učil určovat konformaci na více než 170 000 proteinových strukturách dostupných ve veřejných databázích.[1][2][3] V roce 2018 se AlphaFold představil na 13. ročníku CASP (angl. Critical Assessment of protein Structure Prediction, kritické vyhodnocení předpovědi proteinových struktur), bienální konferenci a soutěži testující software určený k modelování terciární struktury proteinů. Již v tomto roce AlphaFold na plné čáře vyhrál a vzbudil údiv pořadatelů.[1][3][4][5] Upravená a vylepšená verze dosáhla na CASP14 v roce 2020 u některých proteinů přesnosti srovnatelné s experimentálními metodami.[1][2][3][6][7] Možnost podvádění je prakticky vyloučena, AlphaFold dokázal v krátkém čase určit i strukturu membránového proteinu, se kterým se vědci marně trápili 10 let. Až s počítačově vygenerovaným modelem se dokázali zorientovat ve svých datech.[1][7]

Kromě urychlení základního výzkumu proteinových struktur může umělá inteligence pomoci s predikováním vhodných cílů pro léčiva a odhalováním proteinů na povrchu různých patogenů (včetně původců COVID-19, leishmanióz, spavé nemoci, či malárie)[2][6][8][9][10][11], hovoří se také o možném využití např. v kosmetickém průmyslu[12] či tvorbě syntetických proteinů k likvidaci odpadů nebo zvyšování nutriční hodnoty zemědělských plodin.[2] Současné nedostatky tohoto přístupu (viz níže) však znamenají, že v dohledné době rozhodně nedojde k opuštění tradičních experimentálních přístupů určování proteinové struktury – rentgenové krystalografie, nukleární magnetické rezonance či kryo-elektronové mikroskopie – je však téměř jisté, že použití umělé inteligence umožní rychlejší, levnější a snazší získávání strukturních dat.[6][7]

Skládání proteinů[editovat | editovat zdroj]

Schéma skládání proteinů od primární (polypeptid složený ze zbytků aminokyselin spojených peptidovou vazbou) až po kvartérní strukturu (více vzájemně interagujících podjednotek jednoho proteinu)

Proteiny jsou tvořeny lineárním „řetízkem“ kovalentně spojených aminokyselinových zbytků (tzv. primární struktura), který se za fyziologických podmínek ohýbá a stáčí do výsledného trojrozměrného tvaru proteinu (terciární struktura), jež definuje i jeho funkci. Protein se do tohoto tvaru (nativní konformace) dokáže za správných podmínek složit samovolně, řada proteinů se umí správně složit i poté, co byly denaturovány. Veškerá potřebná informace definující konformaci proteinu je tedy obsažena v sekvenci aminokyselin příslušného proteinu.[13]

V 60. letech začaly pokusy o určení výsledného tvaru proteinu na základě vzájemných interakcí jednotlivých aminokyselinových zbytků. Vzhledem k tomu, že průměrný protein obsahuje stovky aminokyselinových zbytků a tyto spolu mohou interagovat několika různými způsoby, je počet možných konformací jednoho proteinu astronomický.[1][14][15] Z hlediska kvantové mechaniky by měla být nativní konformací (či konformacemi, v případě, že existuje více alternativ) ta, která představuje stav s nejnižší volnou energií. Potíž však je, že i s pomocí počítačů a postupů obcházejících přímou potřebu spočítat energii všech konformací jde stále o problém vyžadující extrémní výpočetní rychlost a kapacitu.[16][17]

Názorně toto demonstruje tzv. Levinthalův paradox postulující, že pokud by se protein skládal náhodně, tak by dosažení správné konformace trvalo déle než je doba existence známého vesmíru. Proteiny se však navzdory tomu dokáží složit v řádu sekund. Detailní matematické analýzy později ukázaly, že šlo o výrazné nadhodnocení plynoucí mj. z faktu, že k dosažení správné konformace nevede pouze jedna cesta, množství možných konformací však stále zůstává enormní.[18][19]

Nastínění algoritmu[editovat | editovat zdroj]

AlphaFold se skládá z několika částí. První z nich je software generující terciární struktury krátkých fragmentů (32 aminokyselin, dle autorů programu optimální délka). Ty jsou dále předávány umělé neuronové síti schopné hlubokého učení. Poslední je algoritmus schopný sestavovat terciární strukturu celého proteinu z fragmentů generovaných první částí dle skóre produkovaného neuronovou sítí.[20] Celý proces připomíná proces skládání puzzle – nejprve jsou dohromady složeny menší samostatné kusy, které jsou následně propojeny do celku.[1] Neuronová síť navíc poskytuje informaci o míře jistoty svých odhadů v podobě rozptylu predikovaných vzdáleností.[21]

Použitá neuronová síť predikuje vzdáleností mezi beta uhlíky párů aminokyselinových zbytků v sekvenci na základě hlubokého učení na datech z databáze proteinových struktur PDB (Protein Data Bank).[5][6] Učení je založeno na předpokladu koevoluce dvou aminokyselinových zbytků nacházejících se blízko sebe v trojrozměrné struktuře proteinu. Pokud dojde mutací ke změně jedné aminokyseliny, u druhé se po nějaké době pravděpodobně uchytí mutace kompenzující změnu (velikost, náboj atd.) první aminokyseliny. Koevoluční informace lze následně převést do binární kontaktní mapy rozlišující blízkost či vzdálenost jednotlivých párů aminokyselin, z nichž je následně možné odvodit celý tvar proteinu. Podobné páry pravděpodobně koevolučně svázaných aminokyselin jsou hledány analýzou příbuzných (homologických) proteinů. Nejde o úplně novou myšlenku, realizovat ji však šlo až díky pokročilým algoritmům a nárůstu množství sekvenčních dat.[17] Vliv měl také vývoj lepších experimentálních metod a produkce kvalitnějších dat, která následně umožnila i zlepšení kvality predikcí.[21]

Hluboké učení (deep learning) je podmíněno existencí neuronových sítí složených z několika vrstev, kdy prostřední vrstvy dodávají strojovému učení onu potřebnou hloubku. Každá vrstva se skládá z několika uzlů („neuronů“), které z několika vážených inputů tvoří jeden output (obvykle sumací jednotlivých inputů), který je předán uzlům v následující vrstvě. Nelineární zpracování informací ve středních vrstvách umožňuje “oddělení zrna od plev” a vytřídění důležitých dat.[22]

Kritika a nedostatky[editovat | editovat zdroj]

Řada popularizačních článků, jež vyšla vzápětí po oznámení úspěchu AlphaFoldu na CASP14, hlásala, že umělá inteligence definitivně vyřešila 50 let starý problém hledání pravidel, dle nichž se skládají proteiny. Toto tvrzení se objevilo například i na stránkách prestižního časopisu Science.[11] Problém je, že AlphaFold tato pravidla neobjevil a spíše je obchází tím, že při modelování skládání vychází z naučených korelací.[23] Sami autoři přiznávají, že závislost na koevolučních datech znamená, že pokud chybí dostatek homologických proteinů vhodných k učení, jsou predikce algoritmu velmi nekvalitní.[24]

Dalším problémem je i fakt, že dostupná data, na kterých je umělá inteligence trénovaná, jsou jen zlomkem všech existujících proteinů. Navíc jde o proteiny, které se povedlo vykrystalizovat a určit jejich strukturu, v databázích tedy převládají snadno určitelné proteiny a je možné, že řada jiných struktur nám zatím uniká.[23] AlphaFold si zatím také neumí poradit s multimerními proteinovými komplexy a s modelováním interakcí různých struktur mezi sebou.[1][7][25]

Přesnost predikcí zatím také neodpovídá té, která by byla potřebná pro design léčiv přesně zapadajících do příslušných míst v proteinové struktuře. K tomu je potřeba rozlišení alespoň 0,3 Å (0,03 nm), nejpřesnější predikce AlphaFoldu z CASP14 dosáhla rozlišení 0,9 Å, řada proteinů byla určena s přesností 1,6 Å, medián všech odhadů AlphaFoldu byl 6,6 Å.[2][17][26] Další nevýhodou AlphaFoldu je i jeho relativní pomalost (v řádu jednotek dnů až stovek hodin) v porovnání s podobnými, avšak méně přesnými programy.[2][7][17]

Kritiku sklidil DeepMind také za to, že ačkoliv k sestavení a učení AlphaFoldu použili open source software a veřejné databáze, tak program jako takový open source není. V systému GitHub je dostupná pouze okleštěná verze AlphaFoldu z CASP13. Nepřístupnost programu mimo jiné brání i rychlejšímu objevu možných problémů a vylepšení.[27] Ostatní programy soupeřící na CASP14 také vykázaly oproti předchozímu ročníku výrazné zlepšení, dá se tedy předpokládat, že DeepMind s AlphaFoldem nebude mít na trhu monopol a vzájemná konkurence jednotlivých programů bude pohánět další pokrok v tomto odvětví.[25]

Reference[editovat | editovat zdroj]

  1. a b c d e f g h SERVICENOV. 30, Robert F.; 2020; AM, 10:30. ‘The game has changed.’ AI triumphs at solving protein structures. Science | AAAS [online]. 2020-11-30 [cit. 2021-04-14]. Dostupné online. (anglicky) 
  2. a b c d e f g DeepMind’s protein-folding AI has solved a 50-year-old grand challenge of biology. MIT Technology Review [online]. [cit. 2021-04-14]. Dostupné online. (anglicky) 
  3. a b c AlphaFold. Deepmind [online]. [cit. 2021-04-14]. Dostupné online. 
  4. ALQURAISHI, Mohammed. AlphaFold at CASP13. Bioinformatics. 2019-05-22, roč. 35, čís. 22, s. 4862–4865. Dostupné online [cit. 2021-04-14]. ISSN 1367-4803. DOI 10.1093/bioinformatics/btz422. PMID 31116374. 
  5. a b SENIOR, Andrew W.; EVANS, Richard; JUMPER, John. Improved protein structure prediction using potentials from deep learning. Nature. 2020-01, roč. 577, čís. 7792, s. 706–710. Dostupné online [cit. 2021-04-14]. ISSN 1476-4687. DOI 10.1038/s41586-019-1923-7. (anglicky) 
  6. a b c d AlphaFold: Using AI for scientific discovery. Deepmind [online]. [cit. 2021-04-14]. Dostupné online. 
  7. a b c d e CALLAWAY, Ewen. ‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures. Nature. 2020-11-30, roč. 588, čís. 7837, s. 203–204. Dostupné online [cit. 2021-04-14]. DOI 10.1038/d41586-020-03348-4. (anglicky) 
  8. Artificial Intelligence against COVID-19: An Early Review. www.iza.org [online]. [cit. 2021-04-14]. Dostupné online. (anglicky) 
  9. FLOWER, Thomas G.; HURLEY, James H. Crystallographic molecular replacement using an in silico-generated search model of SARS-CoV-2 ORF8. Protein Science. 2021, roč. 30, čís. 4, s. 728–734. Dostupné online [cit. 2021-04-14]. ISSN 1469-896X. DOI 10.1002/pro.4050. PMID 33625752. (anglicky) 
  10. HEO, Lim; FEIG, Michael. Modeling of Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-2) Proteins by Machine Learning and Physics-Based Refinement. bioRxiv. 2020-03-28. PMID 32511334 PMCID: PMC7239069. Dostupné online [cit. 2021-04-14]. DOI 10.1101/2020.03.25.008904. PMID 32511334. 
  11. a b SERVICE, Robert F. ‘The game has changed.’ AI triumphs at protein folding. Science. 2020-12-04, roč. 370, čís. 6521, s. 1144–1145. PMID 33273077. Dostupné online [cit. 2021-04-14]. ISSN 0036-8075. DOI 10.1126/science.370.6521.1144. PMID 33273077. (anglicky) 
  12. PARIS, Karl Lintner, Ph D. , KAL’idées Beauty Ideas. Could Protein Folding Reshape Anti-aging Cosmetics?. Cosmetics & Toiletries [online]. [cit. 2021-04-14]. Dostupné online. 
  13. NGO, J. Thomas; MARKS, Joe; KARPLUS, Martin. Computational Complexity, Protein Structure Prediction, and the Levinthal Paradox. Příprava vydání Kenneth M. Merz, Scott M. Le Grand. Boston, MA: Birkhäuser Dostupné online. ISBN 978-1-4684-6831-1. DOI 10.1007/978-1-4684-6831-1_14. S. 433–506. (anglicky) DOI: 10.1007/978-1-4684-6831-1_14. 
  14. DILL, Ken A.; OZKAN, S. Banu; SHELL, M. Scott. The Protein Folding Problem. Annual review of biophysics. 2008-06-09, roč. 37, s. 289–316. PMID 18573083 PMCID: PMC2443096. Dostupné online [cit. 2021-04-14]. ISSN 1936-122X. DOI 10.1146/annurev.biophys.37.092707.153558. PMID 18573083. 
  15. Deep learning methods in protein structure prediction. Computational and Structural Biotechnology Journal. 2020-01-01, roč. 18, s. 1301–1310. Dostupné online [cit. 2021-04-14]. ISSN 2001-0370. DOI 10.1016/j.csbj.2019.12.011. (anglicky) 
  16. TORRISI, Mirko; POLLASTRI, Gianluca; LE, Quan. Deep learning methods in protein structure prediction. Computational and Structural Biotechnology Journal. 2020-01-22, roč. 18, s. 1301–1310. PMID 32612753 PMCID: PMC7305407. Dostupné online [cit. 2021-04-14]. ISSN 2001-0370. DOI 10.1016/j.csbj.2019.12.011. PMID 32612753. 
  17. a b c d ALQURAISHI, Mohammed. A watershed moment for protein structure prediction. Nature. 2020-01, roč. 577, čís. 7792, s. 627–628. Dostupné online [cit. 2021-04-14]. DOI 10.1038/d41586-019-03951-0. (anglicky) 
  18. ZWANZIG, R.; SZABO, A.; BAGCHI, B. Levinthal's paradox. Proceedings of the National Academy of Sciences. 1992-01-01, roč. 89, čís. 1, s. 20–22. PMID 1729690. Dostupné v archivu pořízeném dne 2021-04-14. ISSN 0027-8424. DOI 10.1073/pnas.89.1.20. PMID 1729690. (anglicky)  Archivováno 14. 4. 2021 na Wayback Machine
  19. The Levinthal paradox: yesterday and today. Folding and Design. 1997-06-01, roč. 2, s. S69–S75. Dostupné online [cit. 2021-04-14]. ISSN 1359-0278. DOI 10.1016/S1359-0278(97)00067-9. (anglicky) 
  20. Generative deep learning for macromolecular structure and dynamics. Current Opinion in Structural Biology. 2021-04-01, roč. 67, s. 170–177. Dostupné online [cit. 2021-04-14]. ISSN 0959-440X. DOI 10.1016/j.sbi.2020.11.012. (anglicky) 
  21. a b SINGH, Arunima. Deep learning 3D structures. Nature Methods. 2020-03, roč. 17, čís. 3, s. 249–249. Dostupné online [cit. 2021-04-14]. ISSN 1548-7105. DOI 10.1038/s41592-020-0779-y. (anglicky) 
  22. GRAVES, Jordan; BYERLY, Jacob; PRIEGO, Eduardo. A Review of Deep Learning Methods for Antibodies. Antibodies. 2020/6, roč. 9, čís. 2, s. 12. Dostupné online [cit. 2021-04-14]. DOI 10.3390/antib9020012. (anglicky) 
  23. a b BALL2020-12-09T14:40:00+00:00, Philip. Behind the screens of AlphaFold. Chemistry World [online]. [cit. 2021-04-14]. Dostupné online. (anglicky) 
  24. SENIOR, Andrew W.; EVANS, Richard; JUMPER, John. Protein structure prediction using multiple deep neural networks in the 13th Critical Assessment of Protein Structure Prediction (CASP13). Proteins: Structure, Function, and Bioinformatics. 2019, roč. 87, čís. 12, s. 1141–1148. Dostupné online [cit. 2021-04-14]. ISSN 1097-0134. DOI 10.1002/prot.25834. PMID 31602685. (anglicky) 
  25. a b HUBBARD, Tim. The secret of life, part 2: the solution of the protein folding problem.. Medium [online]. 2020-12-07 [cit. 2021-04-14]. Dostupné online. (anglicky) 
  26. STEPHEN. Reciprocal Space [online]. [cit. 2021-04-14]. Dostupné online. (anglicky) 
  27. The Skeptic [online]. 2020-12-04 [cit. 2021-04-14]. Dostupné online. (anglicky)