Alignment (biologie)

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání

Alignment (někdy ekvivalentně sekvenční alignment) je základní bioinformatický nástroj, spočívající v seřazení dvou i více sekvencí DNA, RNA nebo proteinu pod sebe tak, aby odpovídající si nukleotidové báze či aminokyselinové zbytky ležely pod sebou. Pro krátké a/nebo velmi podobné sekvence je možné vytvořit alignment ručně, alignment delších a méně podobných sekvencí je obvykle vytvářen počítačem za použití specializovaných algoritmů. Cílem alignmentu je nalézt ve srovnávaných sekvencích podobné úseky, které mohou poukazovat na jejich sekvenční, strukturní či funkční příbuznost.

Příklad alignmentu[editovat | editovat zdroj]

Alignment pro dvě sekvence DNA (např. actcgaatc, aatcgtggatc) by mohl vypadat takto:

-actcg--aatc
aa-tcgtggatc

Sekvence jsou seřazeny tak, aby co nejvíce shodných bazí leželo ve stejném sloupci, a to za použití co nejmenšího počtu mezer. Mezery, zde reprezentované znakem (-) představují inzerce či delece nukleotidů, ke kterým došlo v průběhu evoluce. Oproti tomu neshody jsou pozůstatkem bodových mutací, tedy jednonukleotidových záměn.

Metody tvorby alignmentu[editovat | editovat zdroj]

Globální a lokální alignment[editovat | editovat zdroj]

Metoda globálního alignmentu pracuje se srovnávanými sekvencemi jako s celky a snaží se nalézt co nejlepší shodu napříč celou délkou sekvencí. Z tohoto důvodu je vhodnější globální alignment použít pro srovnávání podobně dlouhých sekvencí s vysokou mírou podobnosti. Typickým algoritmem globálního alignmentu je Algoritmus Needleman-Wunsch.

Lokální alignment je naopak vhodnější použít v tom případě, že se porovnávané sekvence liší délkou a nejsou si sekvenčně příliš podobné. Tato metoda hledá oblasti nejvyšší podobnosti v obou sekvencích a zarovnává je bez ohledu na sekvence jako celky. Pomocí lokálního alignmentu je tudíž možné i v málo podobných sekvencích nalézt úseky s vysokou mírou shody, což může poukazovat na jejich funkční důležitost. Vysoce biologicky významné sekvence (např. sekvence kódující aktivní místo enzymu) se totiž v průběhu evoluce mění méně často než jiné části nukleových kyselin či proteinů. Jedním z nejznámějších algoritmů lokálního alignmentu je Algoritmus Smith-Waterman.

Dot plot[editovat | editovat zdroj]

Metoda Dot plot je nejjednoduším a nejzákladnějším způsobem jak alignment provést, přičemž pro krátké sekvence je možné si vystačit s tužkou a čtverečkovaným papírem. Jde o grafické srovnání dvou sekvencí v podobě tabulky, kde jedna sekvence leží na horizontální a druhá na vertikální ose. Srovnání sekvencí je provedeno tak, že postupně pro každý prvek obou sekvencí postupujeme řádkem (sloupcem) ve kterém leží a zaznamenáváme (kolečkem, křížkem...) shody s druhou sekvencí. Tedy například takto:

Příklad použití metody Dot plot k porovnání dvou stejných sekvencí lidského transkripčního faktoru obsahujícího doménu Zinc-fingers
P R A L E S N I Č K A
K X
O
L X
E X
S X
O

Analýzou Dot plotu je možné získat informace o místech největší shody obou sekvencí. Nevýhodou této metody je značný podíl šumu, který je nejvýznamnější při srovnávání nukleotidových sekvencí, které mají pouze čtyři možné znaky a tak je pravděpodobnost náhodné shody 1/4.

Dynamické programování[editovat | editovat zdroj]

Dynamické programování je matematické odvětví, které nachází použití i v bioinformatice. Tato metoda tvorby alignmentu je podobná Dot plotu, využívá ale skórovacích tabulek (např. PAM, BLOSUM) a zavádí srážku za mezeru (gap penalty). Mezi algoritmy dynamického programování patří rovněž oba výše zmíněné algoritmy, tedy Needleman-Wunsch a Smith-Waterman.

Zdroje[editovat | editovat zdroj]

Jin Xiong, Esential Bioinformatics, Cambridge University Press 2006