Gap penalty
Gap penalty je pojem používaný v bioinformatice. Označuje metodu používanou při srovnávání proteinových či nukleotidových sekvencí DNA pomocí tzv. sekvenčního alignmentu. Do češtiny jej lze přeložit jako „srážka za mezeru“.
Hodnoty gap penalty jsou vytvořeny proto, aby redukovaly skóre sekvenčního alignmentu, který je přerušen indely (inzercemi nebo delecemi bází v genomu organismu). Hlavními prvky používanými k určování skóre alignmentu jsou shody a neshody v aminokyselinách nebo nukleotidech a právě gaps (mezery, díry).
Jako gap nebo mezeru můžeme označit nepřetržitý sled po sobě jdoucích indelů, tj. deletovaných/inzertovaných aminokyselin či nukleotidů v jedné nebo obou sekvencích alignmentu.[1] Mezera může být rovněž tvořena jen jednou deletovanou/inzertovanou aminokyselinou či nukleotidem. Mezery pomáhají vytvářet alignmenty, které lépe odpovídají fundamentálním biologickým modelům a lépe zapadají do schémat, jejichž nalezení se ve smysluplných alignmentech očekává. [1] Indely a tedy i mezery jsou v sekvenčním alignmentu reprezentovány pomlčkami. Délka mezery je určena počtem indelů.
Při srovnávání sekvencí proteinů nebo DNA jsou obě sekvence seřazeny pod sebe a porovnány, aby bylo možné určit, zda spolu sdílejí signifikantně podobné úseky. Skóre alignmentu se přiděluje podle kvality shod a je snižováno srážkami za přítomné mezery. Při srovnávání proteinů se používá skórovací tabulka, která přiřazuje skóre všem možným párům aminokyselinových zbytků, tedy možným aminokyselinovým záměnám. Skóre pro záměnu podobných aminokyselin je kladné, pro záměnu rozdílných záporné.
Mezery jsou obvykle penalizovány pomocí lineární funkce, která přiřazuje počáteční srážku za samotnou existenci mezery (gap opening penalty) a dodatečné srážky za rozšiřování mezery (gap extension penalty). Jakou hodnotu gap penalty je v té které skórovací tabulce nejlepší použít je stanoveno empiricky, hodnota je nejčastěji záporná, případně nulová.
Pojmy spojené s gap penalty
[editovat | editovat zdroj]Skórovací tabulka
[editovat | editovat zdroj]Skórovací tabulky, jako je například PAM nebo BLOSUM, se používají pro sekvenční alignment proteinů.[2] Obecně platí, že pro zjišťování podobností mezi sekvencemi různého stupně odlišnosti se používají různé skórovací tabulky.[2] Jedna tabulka může rozumně fungovat pro relativně širokou škálu evolučních změn.[2] Tabulka BLOSUM-62 je jedna z nejlepších skórovacích tabulek pro rozpoznávání nízkých podobností mezi proteiny.[2] Tabulky BLOSUM s vysokými čísly jsou navrženy pro srovnávání blízce příbuzných sekvencí (například BLOSUM-80), kdežto ty s nízkými čísly pro srovnávání vzdáleně příbuzných sekvencí (například BLOSUM-45, která je zároveň vhodná pro dlouhé alignmenty).[2] Krátké alignmenty se snáze rozpoznávají pomocí tabulek s vyšší „relativní entropií", než je u BLOSUM-62.[2]
Indely
[editovat | editovat zdroj]Během replikace DNA je při duplikaci nukleové kyseliny replikační aparát náchylný ke dvěma typům chyb, a to inzercím a delecím jednotlivých nukleotidů, které lze souhrnně označit jako indely, protože při srovnávání příbuzných sekvencí si nemusíme být vždy jisti, zda došlo k deleci v první sekvenci nebo naopak k inzerci v sekvenci druhé.[3] Obě možnosti se projeví jako mezera v jedné ze sekvencí.[3]
Tyto posunové mutace při replikaci DNA mohou mít závažné biologické důsledky, protože mohou vést k inaktivaci nebo naopak zvýšené aktivaci cílového produktu genu, ve kterém k mutaci došlo.[3] Když je do kódující sekvence DNA vložen (či z ní odebrán) jeden nebo dva nukleotidy, výsledkem je posun čtecího rámce, který může způsobit zařazení jiných aminokyselin nebo předčasné objevení terminačního kodónu a tím vyústit v nefunkčnost produkovaného proteinu.[3] Důsledky indelů jsou často škodlivé a spojené s lidskými chorobami jako je rakovina.[3] Ne všechny indely však vedou k posunu čtecího rámce.[3] Pokud je vložena či odebrána trojice nukleotidů, k posunu čtecího rámce nedochází, výsledkem je však prodloužení nebo zkrácení proteinu, což také může mít vliv na jeho funkci.[3]
Druhy srážek za mezery
[editovat | editovat zdroj]Afinní gap penalty
[editovat | editovat zdroj]Nejužívanější funkcí pro gap penalty je afinní gap penalty. Afinní srážka za mezeru definuje základní lineární podobu funkce gap penalty. Pro dané kombinace skórovacích metod a lineární funkce gap penalty parametry gap penalty zůstávají fixní při alignování různých pozic zbytků. Z tohoto důvodu má afinní gap penalty výhodu v jednoduchosti a snadném použití v dynamickém programování. Afinní gap penalty se skládá ze dvou částí: z počáteční srážky za samotnou existenci mezery (gap opening penalty) a dodatečné srážky za prodloužení mezery, která je závislá na délce mezery (gap extension penalty).
Variabilní gap penalties založené na profilech
[editovat | editovat zdroj]Profilové algoritmy alignmentů jsou velmi dobrými nástroji pro rozpoznávání homologie proteinů se zvýšenou přesností alignmentu.[4] Profilové alignmenty jsou založeny na statistických profilech frekvencí indelů z mnohočetných sekvenčních alignmentů vytvářených vyhledáváním pomocí programu PSI-BLAST.[4] Spíše než používání skórovacích tabulek k definování podobnosti párů aminokyselin, vyžadují profilové metody alignmentu skórovací funkci podle profilu dvojic vektorů, jejichž podobnost měří.[4] Profilové alignmenty využívají funkce pro gap penalty.[4] Informace o mezeře je obvykle užita v podobě četnostních profilů inzercí a delecí, což je pro srovnávané sekvence specifičtější.[4] Programy ClustalW a MAFFT užívají pro mnohočetné sekvenční alignmenty tento způsob určování gap penalty.[4] Užitím tohoto modelu může být zvýšena přesnost alignmentu, a to obzvláště pro proteiny s nízkou sekvenční identitou.[4] Některé algoritmy pro profilový alignment také využívají jako jednu ze svých skórovacích funkcí informace o sekundární struktuře molekuly, což rovněž zvyšuje přesnost alignmentu.[4]
Přiřazení hodnot gap penalty
[editovat | editovat zdroj]Číselné hodnoty gap penalty by měly být přiměřeně uzpůsobené tomu, aby umožnily pokračování načatého alignmentu i po objevení mezery v jedné ze sekvencí a aby zcela neodstranily skóre alignmentu předcházejícího mezeře. Pro přiřazování hodnot se používají tři způsoby:
- Stejná skóre pro všechny mezery bez ohledu na jejich délku: Přiřazená hodnota gap penalty neobsahuje dodatečnou složku za prodloužení mezery a sráží skóre alignmentu pouze za samotnou existenci mezery (gap opening penalty). Srážka pro velkou a malou mezeru je tedy při tomto postupu stejná.
- Zvyšování skóre gap penalty jako lineární funkce její délky (afinní gap penalty): Hodnota gap penalty se skládá jak ze srážky za existenci mezery (gap opening penalty), která je větší, tak z menší dodatečné srážky za prodloužení mezery (gap extension penalty), která je srážena za každý další zbytek v mezeře.[5] Platí, že čím delší mezera, tím zápornější je hodnota gap penalty. Tento způsob skórování mezer upřednostňuje tvorbu jedné delší mezery před tvorbou několika mezer kratších, čímž se dobře přibližuje biologické skutečnosti. Pravděpodobnost vzniku jedné, byť větší mezery a tím i jedné mutace je totiž většinou větší než vznik několika mutací a kratších mezer.[6][1]
- Stejná skóre pro všechny jednotlivé indely (kosntantní gap penalty): Každý indel má přiřazenu stejnou hodnotu gap penalty, nerozlišuje se srážka za existenci mezery (gap opening penalty) a rozšíření mezery (gap extension penalty).
Problémy spojené s gap penalties
[editovat | editovat zdroj]Práce s mezerami s sebou přináší několik problémů. Při práci s běžnými algoritmy se ukazuje, že není dostatek teoretických podkladů pro určení gap penalty funkce.[7] Proto pro všechny možné alignmenty sekvencí musí být hodnota gap penalty stanovena empiricky (metodou „pokusu a omylu“).[7] Některé typy gap penalties alignmentu dvou sekvencí, jako například afinní gap penalty, jsou často implementovány nezávisle na typu aminokyselin v inzertovaných nebo deletovaných fragmentech či na chybějících koncích, navzdory tomu, že v oblastech mezer jsou zjevně preferovány specifické typy aminokyselinových zbytků.[7]
Sekvenční alignment implikuje alignment odpovídajících struktur, ale vztah mezi strukturními rysy mezer v proteinech a jejich korespondujícími sekvencemi je jen málo známý. Proto je inkorporování strukturních informací do gap penalties složité.[7] Některé algoritmy však používají predikované nebo skutečné informace o struktuře k přesnějšímu předpovídání umístění mezer. Avšak strukturu známe jen u malého množství sekvencí a ve většině problematických alignmentů figurují právě sekvence s neznámou sekundární a terciární strukturou.[7]
Reference
[editovat | editovat zdroj]V tomto článku byl použit překlad textu z článku Gap penalty na anglické Wikipedii.
- ↑ a b c www.biogem.org [online]. [cit. 25-05-2014]. Dostupné v archivu pořízeném dne 26-06-2013.
- ↑ a b c d e f BLAST substitution matrices [online]. NCBI [cit. 2012-11-27]. Dostupné online.
- ↑ a b c d e f g GARCIA-DIAZ, Miguel. Trends in Biochemical Sciences. Trends in Biochemical Sciences. 2006.
- ↑ a b c d e f g h Wang C, Yan RX, Wang XF, Si JN, Zhang Z. Comparison of linear gap penalties and profile-based variable gap penalties in profile-profile alignments. Comput Biol Chem. 12 October 2011, s. 308–318. DOI 10.1016/j.compbiolchem.2011.07.006. PMID 22000802.
- ↑ http://www.ebi.ac.uk/Tools/sss/ncbiblast/help/index-protein.html#gapopen
- ↑ Archivovaná kopie. www.cbcb.umd.edu [online]. [cit. 2014-05-25]. Dostupné v archivu pořízeném dne 2014-05-25.
- ↑ a b c d e Wrabl JO, Grishin NV. Gaps in structurally similar proteins: towards improvement of multiple sequence alignment. Proteins. 1 January 2004, s. 71–87. DOI 10.1002/prot.10508. PMID 14705025.