Эта статья входит в число добротных статей

Выравнивание последовательностей: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
м Исправлено правописание
Метки: с мобильного устройства через мобильное приложение через приложение для Android
 
(не показано 16 промежуточных версий 13 участников)
Строка 1: Строка 1:
{{TOCright}}
'''Выра́внивание после́довательностей''' — [[Биоинформатика|биоинформатический]] метод, основанный на размещении двух или более последовательностей мономеров [[ДНК]], [[РНК]] или [[Белки|белков]] друг под другом таким образом, чтобы легко увидеть сходные участки в этих последовательностях. Сходство [[Первичная структура|первичных структур]] двух молекул может отражать их функциональные, структурные или эволюционные взаимосвязи<ref name=mount>{{cite book| author=Mount DM.| year=2004 | title=Bioinformatics: Sequence and Genome Analysis |edition=2nd | publisher= Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY. |isbn=0-87969-608-7}}</ref>. Выровненные последовательности оснований [[Нуклеотиды|нуклеотидов]] или [[Аминокислоты|аминокислот]] обычно представляются в виде строк матрицы. Добавляются разрывы между основаниями таким образом, чтобы одинаковые или похожие элементы были расположены в следующих друг за другом столбцах матрицы.
'''Выра́внивание после́довательностей''' — [[Биоинформатика|биоинформатический]] метод, основанный на размещении двух или более последовательностей мономеров [[ДНК]], [[РНК]] или [[Белки|белков]] друг под другом таким образом, чтобы можно было легко увидеть сходные участки в этих последовательностях. Сходство [[Первичная структура|первичных структур]] двух молекул может отражать их функциональные, структурные или эволюционные взаимосвязи<ref name=mount>{{книга |год=2004 |заглавие=Bioinformatics: Sequence and Genome Analysis |издание=2nd |издательство=Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY. |isbn=0-87969-608-7 |язык=en |автор=Mount DM.}}</ref>. Выровненные последовательности оснований [[Нуклеотиды|нуклеотидов]] или [[Аминокислоты|аминокислот]] обычно представляются в виде строк матрицы. Добавляются разрывы между основаниями таким образом, чтобы одинаковые или похожие элементы были расположены в следующих друг за другом столбцах матрицы<ref name=":4">{{Статья|isbn=9780470451496, 9780470085851|страницы=100—138|заглавие=Basic Local Alignment Search Tool (BLAST)|ссылка=http://dx.doi.org/10.1002/9780470451496.ch4|место=Hoboken, NJ, USA|издательство=John Wiley & Sons, Inc.|издание=Bioinformatics and Functional Genomics}}</ref>.


Алгоритмы выравнивания последовательностей также используются в [[Обработка естественного языка|NLP]]<ref>{{Статья|автор=Bill MacCartney, Michel Galley, Christopher D. Manning|год=2008|doi=10.3115/1613715.1613817|заглавие=A phrase-based alignment model for natural language inference|ссылка=http://dx.doi.org/10.3115/1613715.1613817|место=Morristown, NJ, USA|издательство=Association for Computational Linguistics|издание=Proceedings of the Conference on Empirical Methods in Natural Language Processing - EMNLP '08}}</ref>.
Алгоритмы выравнивания последовательностей также используются в [[Обработка естественного языка|NLP]]<ref>{{Статья|автор=Bill MacCartney, Michel Galley, Christopher D. Manning|год=2008|doi=10.3115/1613715.1613817|заглавие=A phrase-based alignment model for natural language inference|ссылка=http://dx.doi.org/10.3115/1613715.1613817|место=Morristown, NJ, USA|издательство=Association for Computational Linguistics|издание=Proceedings of the Conference on Empirical Methods in Natural Language Processing - EMNLP '08}}</ref>.


== Графическое и текстовое представление ==
== Графическое и текстовое представление ==
В большинстве представлений результата выравнивания последовательности располагаются в строчках матрицы таким образом, что совпадающие элементы (нуклеотиды или аминокислоты) находятся один под другим (в одной колонке). «Разрывы» заменяются знаком «-», именуемый гэпом (от англ. «[[:en:Gap_penalty|gap]]»)<ref>{{Статья|автор=Julie D. Thompson, Desmond G. Higgins, Toby J. Gibson|год=1994|doi=10.1093/nar/22.22.4673|issn=0305-1048, 1362-4962|выпуск=22|страницы=4673–4680|издание=Nucleic Acids Research|заглавие=CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice|ссылка=http://dx.doi.org/10.1093/nar/22.22.4673|том=22}}</ref>, и обозначает {{нп5|Индель_(биоинформатика)|индель|en|Indel}}, то есть место возможной вставки или делеции<ref>{{Cite web|url=https://www.ncbi.nlm.nih.gov/mesh?Db=mesh&Cmd=DetailsSearch&Term=%22INDEL+Mutation%22%5BMeSH+Terms%5D|title=INDEL Mutation - MeSH - NCBI|publisher=www.ncbi.nlm.nih.gov|accessdate=2019-04-29}}</ref>.
В большинстве представлений результата выравнивания последовательности располагаются в строчках матрицы таким образом, что совпадающие элементы (нуклеотиды или аминокислоты) находятся один под другим (в одной колонке). «Разрывы» заменяются знаком «-», именуемый гэпом (от англ. «[[:en:Gap penalty|gap]]»)<ref>{{Статья|автор=Julie D. Thompson, Desmond G. Higgins, Toby J. Gibson|год=1994|doi=10.1093/nar/22.22.4673|issn=0305-1048, 1362-4962|выпуск=22|страницы=4673—4680|издание=Nucleic Acids Research|заглавие=CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice|ссылка=http://dx.doi.org/10.1093/nar/22.22.4673|том=22}}</ref>, и обозначает {{нп5|Индель_(биоинформатика)|индель|en|Indel}}, то есть место возможной вставки или делеции<ref>{{Cite web|url=https://www.ncbi.nlm.nih.gov/mesh?Db=mesh&Cmd=DetailsSearch&Term=%22INDEL+Mutation%22%5BMeSH+Terms%5D|title=INDEL Mutation - MeSH - NCBI|publisher=www.ncbi.nlm.nih.gov|accessdate=2019-04-29}}</ref><ref name=":4" />.


=== Текстовое представление ===
=== Текстовое представление ===
При текстовом отображении возможна просто запись в формате [[FASTA|fasta]], когда последовательности записываются с гэпами, и имеют одинаковую длину<ref>{{Cite web|url=http://www.cgl.ucsf.edu/home/meng/docs/ContributedSoftware/multalignviewer/afasta.html|title=Aligned FASTA Format|publisher=www.cgl.ucsf.edu|accessdate=2019-04-29}}</ref>. Такой вид записи часто используется программами, и удобен для машинной обработки.
При текстовом отображении возможна просто запись в формате [[FASTA|fasta]], когда последовательности записываются с гэпами, и имеют одинаковую длину<ref>{{Cite web|url=http://www.cgl.ucsf.edu/home/meng/docs/ContributedSoftware/multalignviewer/afasta.html|title=Aligned FASTA Format|publisher=www.cgl.ucsf.edu|accessdate=2019-04-29|archive-date=2021-01-24|archive-url=https://web.archive.org/web/20210124184555/http://www.cgl.ucsf.edu/home/meng/docs/ContributedSoftware/multalignviewer/afasta.html|deadlink=no}}</ref>. Такой вид записи часто используется программами, и удобен для машинной обработки<ref>{{Cite web|url=http://emboss.sourceforge.net/docs/themes/AlignFormats.html|title=Alignment Formats|publisher=emboss.sourceforge.net|accessdate=2019-04-30|archive-date=2018-06-24|archive-url=https://web.archive.org/web/20180624112031/http://emboss.sourceforge.net/docs/themes/AlignFormats.html|deadlink=no}}</ref>.
Другой вид текстового представления служит для удобства пользователя (три разных примера представлены ниже). В нем последовательности записываются одна под другой, а в строчке между ними разными символами обозначены разные отношения между аминокислотами. Пробелом (отсутствием символа) обозначают отсутствие связи между аминокислотами, как по гомологии, так и по функции: символами «*», «|» или же буквой ([[BLAST]]) одинаковые аминокислоты; «:» или «+» — близкие по свойствам; «.» — сходные по свойствам<ref>{{Cite web|url=https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQ|title=Bioinformatics Tools FAQ - Job Dispatcher Sequence Analysis Tools - EMBL-EBI|publisher=www.ebi.ac.uk|accessdate=2019-04-23}}</ref>. <syntaxhighlight lang="text">
Другой вид текстового представления служит для удобства пользователя (три разных примера представлены ниже). В нём последовательности записываются одна под другой, а в строчке между ними разными символами обозначены разные отношения между аминокислотами. Пробелом (отсутствием символа) обозначают отсутствие связи между аминокислотами, как по гомологии, так и по функции: символами «*», "|" или же буквой ([[BLAST]]) — одинаковые аминокислоты; «:» или «+» — близкие по свойствам; «.» — сходные по свойствам<ref>{{Cite web|url=https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQ|title=Bioinformatics Tools FAQ - Job Dispatcher Sequence Analysis Tools - EMBL-EBI|publisher=www.ebi.ac.uk|accessdate=2019-04-23|archive-date=2019-04-23|archive-url=https://web.archive.org/web/20190423205446/https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics%2BTools%2BFAQ|deadlink=no}}</ref>. <syntaxhighlight lang="text">
Blast:
Blast:


Строка 32: Строка 33:


=== Графическое представление ===
=== Графическое представление ===
[[Файл:MSA_colors.png|мини|354x354пкс|Демонстрация различный окрасок множественного выравнивания различных белков семейства YpzG, визуализация в Jalview<ref name=":0">{{Статья|автор=A. M. Waterhouse, J. B. Procter, D. M. A. Martin, M. Clamp, G. J. Barton|год=2009-05-01|doi=10.1093/bioinformatics/btp033|issn=1367-4803, 1460-2059|выпуск=9|язык=en|страницы=1189–1191|издание=Bioinformatics|заглавие=Jalview Version 2--a multiple sequence alignment editor and analysis workbench|ссылка=https://academic.oup.com/bioinformatics/article-lookup/doi/10.1093/bioinformatics/btp033|том=25}}</ref>, выравнивание ClustalWS.]]
[[Файл:MSA_colors.png|мини|354x354пкс|Демонстрация различный окрасок множественного выравнивания различных белков семейства YpzG, визуализация в Jalview<ref name=":0">{{Статья|автор=A. M. Waterhouse, J. B. Procter, D. M. A. Martin, M. Clamp, G. J. Barton|год=2009-05-01|doi=10.1093/bioinformatics/btp033|issn=1367-4803, 1460-2059|выпуск=9|язык=en|страницы=1189—1191|издание=Bioinformatics|заглавие=Jalview Version 2--a multiple sequence alignment editor and analysis workbench|ссылка=https://academic.oup.com/bioinformatics/article-lookup/doi/10.1093/bioinformatics/btp033|том=25|archivedate=2017-10-24|archiveurl=https://web.archive.org/web/20171024095341/https://academic.oup.com/bioinformatics/article-lookup/doi/10.1093/bioinformatics/btp033}}</ref>, выравнивание ClustalWS]]
Графическое представление максимально ориентированно на визуальное восприятие. В нем также принято размещать последовательности одну под другой, но значение связи между аминокислотами из разных последовательностей обозначаются цветом. Есть окраски по свойствам аминокислот, такие как «Zappo», окрашивающая каждую аминокислоту, и «Clustal», окрашивающая столбцы с одинаковыми свойствами аминокислот. Часть окрасок, такие как «%Identity», позволяет увидеть идентичность и консервативность аминокислот в столбце. Есть и окраски, показывающие степень гидрофобности аминокислот<ref>{{Cite web|url=http://www.jalview.org/help/html/colourSchemes/|title=Colour Schemes|publisher=www.jalview.org|accessdate=2019-04-23}}</ref>.
Графическое представление максимально ориентированно на визуальное восприятие. В нём также принято размещать последовательности одну под другой, но значение связи между аминокислотами из разных последовательностей обозначаются цветом. Есть окраски по свойствам аминокислот, такие как «Zappo», окрашивающая каждую аминокислоту, и «Clustal», окрашивающая столбцы с одинаковыми свойствами аминокислот. Часть окрасок, такие как «%Identity», позволяет увидеть идентичность и консервативность аминокислот в столбце. Есть и окраски, показывающие степень гидрофобности аминокислот<ref>{{Cite web|url=http://www.jalview.org/help/html/colourSchemes/|title=Colour Schemes|publisher=www.jalview.org|accessdate=2019-04-23|archive-date=2019-04-26|archive-url=https://web.archive.org/web/20190426095829/http://www.jalview.org/help/html/colourSchemes/|deadlink=no}}</ref>.


Наиболее известные программы для просмотра выравниваний: {{нп5|Jalview|Jalview|en|Jalview}}<ref name=":0" />, [[UGENE]], {{нп5|MEGA_(биоинформатика)|MEGA|en|MEGA,_Molecular_Evolutionary_Genetics_Analysis}}. Полный список представлен в статье [[:en:List_of_alignment_visualization_software|"List of alignment visualization software" (англ).]]
Наиболее известные программы для просмотра выравниваний: {{нп5|Jalview|Jalview|en|Jalview}}<ref name=":0" />, [[UGENE]]<ref name=":3">{{Статья|автор=Mikhail Fursov, Olga Golosova, Konstantin Okonechnikov|год=2012-04-15|doi=10.1093/bioinformatics/bts091|issn=1367-4803|выпуск=8|язык=en|страницы=1166—1167|издание=Bioinformatics|заглавие=Unipro UGENE: a unified bioinformatics toolkit|ссылка=https://academic.oup.com/bioinformatics/article/28/8/1166/195474|том=28|archivedate=2019-04-30|archiveurl=https://web.archive.org/web/20190430175338/https://academic.oup.com/bioinformatics/article/28/8/1166/195474}}</ref>, {{нп5|MEGA_(биоинформатика)|MEGA|en|MEGA,_Molecular_Evolutionary_Genetics_Analysis}}<ref>{{Статья|автор=Koichiro Tamura, Joel Dudley, Masatoshi Nei, Sudhir Kumar|год=2008-07-01|doi=10.1093/bib/bbn017|issn=1467-5463|выпуск=4|язык=en|страницы=299—306|издание=Briefings in Bioinformatics|заглавие=MEGA: A biologist-centric software for evolutionary analysis of DNA and protein sequences|ссылка=https://academic.oup.com/bib/article/9/4/299/267027|том=9|archivedate=2019-04-30|archiveurl=https://web.archive.org/web/20190430175130/https://academic.oup.com/bib/article/9/4/299/267027}}</ref>. Полный список представлен в статье [[:en:List of alignment visualization software|«List of alignment visualization software» (англ).]]


Также существует способ представления консенсусной последовательности — [[Логотип последовательностей|Логотип последовательности]]<ref>{{Статья|автор=Thomas D. Schneider, R.Michael Stephens|год=1990|doi=10.1093/nar/18.20.6097|issn=0305-1048, 1362-4962|выпуск=20|страницы=6097–6100|издание=Nucleic Acids Research|заглавие=Sequence logos: a new way to display consensus sequences|ссылка=http://dx.doi.org/10.1093/nar/18.20.6097|том=18}}</ref>.
Также существует способ представления консенсусной последовательности — [[Логотип последовательностей|Логотип последовательности]]<ref>{{Статья|автор=Thomas D. Schneider, R.Michael Stephens|год=1990|doi=10.1093/nar/18.20.6097|issn=0305-1048, 1362-4962|выпуск=20|страницы=6097—6100|издание=Nucleic Acids Research|заглавие=Sequence logos: a new way to display consensus sequences|ссылка=http://dx.doi.org/10.1093/nar/18.20.6097|том=18}}</ref>.


=== Точечная матрица ===
=== Точечная матрица ===
{{нп5|Точечная_матрица_(биоинформатика)|Точечная матрица сходства|en|Dot_plot_(bioinformatics)}} — способ визуального представления парного выравнивания. Обычно используется для больших последовательностей, например для [[Геном|геномов]] бактерий. По осям отложены координаты обоих последовательностей, а отрезками отображают их гомологию. Так, точечная матрица одинаковых последовательностей будет выглядеть как диагональ квадрата. Такой способ представления позволяет отслеживать [[Инверсия (биология)|инверсии]], [[Дупликация|дупликации]] или [[Делеция|делеции]], а так же [[Транслокация|транслокации]]<ref>{{Статья|автор=Erik L.L. Sonnhammer, Richard Durbin|год=1995-12|doi=10.1016/0378-1119(95)00714-8|issn=0378-1119|выпуск=1-2|страницы=GC1–GC10|издание=Gene|заглавие=A dot-matrix program with dynamic threshold control suited for genomic DNA and protein sequence analysis|ссылка=http://dx.doi.org/10.1016/0378-1119(95)00714-8|том=167}}</ref>.
{{нп5|Точечная_матрица_(биоинформатика)|Точечная матрица сходства|en|Dot_plot_(bioinformatics)}} — способ визуального представления парного выравнивания. Обычно используется для больших последовательностей, например для [[геном]]ов бактерий. По осям отложены координаты обеих последовательностей, а отрезками отображают их гомологию. Так, точечная матрица одинаковых последовательностей будет выглядеть как диагональ квадрата. Такой способ представления позволяет отслеживать [[Инверсия (биология)|инверсии]], [[Дупликация|дупликации]] или [[Делеция|делеции]], а также [[Транслокация|транслокации]]<ref>{{Статья |автор=Erik L.L. Sonnhammer, Richard Durbin |год=1995-12 |doi=10.1016/0378-1119(95)00714-8 |issn=0378-1119 |выпуск=1—2 |страницы=GC1—GC10 |издание={{Нп3|Gene (журнал)|Gene||Gene (journal)}} |заглавие=A dot-matrix program with dynamic threshold control suited for genomic DNA and protein sequence analysis |ссылка=http://dx.doi.org/10.1016/0378-1119(95)00714-8 |том=167 |язык=en |издательство=[[Elsevier]] |archivedate=2008-12-02 |archiveurl=https://web.archive.org/web/20081202065907/http://dx.doi.org/10.1016/0378-1119(95)00714-8 }}</ref>.


== Парное выравнивание ==
== Парное выравнивание ==
Парное выравнивание используется для нахождения сходных участков двух последовательностей.
Парное выравнивание используется для нахождения сходных участков двух последовательностей.
Различают глобальное и локальное выравнивание. Глобальное выравнивание предполагает, что последовательности гомологичны по всей длине. В глобальное выравнивание включаются обе входные последовательности целиком. Локальное выравнивание применяется, если последовательности содержат как родственные (гомологичные), так и неродственные участки. Результатом локального выравнивания является выбор участка в каждой из последовательностей и выравнивание между этими участками<ref name=":1">{{Статья|автор=Valery O Polyanovsky, Mikhail A Roytberg, Vladimir G Tumanyan|год=2011|doi=10.1186/1748-7188-6-25|issn=1748-7188|выпуск=1|язык=en|страницы=25|издание=Algorithms for Molecular Biology|заглавие=Comparative analysis of the quality of a global algorithm and a local algorithm for alignment of two sequences|ссылка=http://almob.biomedcentral.com/articles/10.1186/1748-7188-6-25|том=6}}</ref>.
Различают глобальное и локальное выравнивание. Глобальное выравнивание предполагает, что последовательности гомологичны по всей длине. В глобальное выравнивание включаются обе входные последовательности целиком. Локальное выравнивание применяется, если последовательности содержат как родственные (гомологичные), так и неродственные участки. Результатом локального выравнивания является выбор участка в каждой из последовательностей и выравнивание между этими участками<ref name=":1">{{Статья|автор=Valery O Polyanovsky, Mikhail A Roytberg, Vladimir G Tumanyan|год=2011|doi=10.1186/1748-7188-6-25|issn=1748-7188|выпуск=1|язык=en|страницы=25|издание=Algorithms for Molecular Biology|заглавие=Comparative analysis of the quality of a global algorithm and a local algorithm for alignment of two sequences|ссылка=http://almob.biomedcentral.com/articles/10.1186/1748-7188-6-25|том=6|archivedate=2019-04-23|archiveurl=https://web.archive.org/web/20190423205512/https://almob.biomedcentral.com/articles/10.1186/1748-7188-6-25}}</ref>.


Для получения парного выравнивания используются разновидности метода [[Динамическое_программирование|динамического программирования]]. В частности, эти алгоритмы реализованы в сервисах [[Европейская молекулярно-биологическая лаборатория|европейской молекулярно-биологической лаборатории]] ({{Cite web|url=https://www.ebi.ac.uk/Tools/psa/|title=Pairwise Sequence Alignment|website=EMBL-EBI}}). Так, например, {{Cite web|url=https://www.ebi.ac.uk/Tools/psa/emboss_needle/|title=Needle}}, алгоритм глобального выравнивания, использует [[алгоритм Нидлмана-Вунша|алгоритм Нидлмана — Вунша]]<ref name=":2">{{Cite web|url=https://www.ebi.ac.uk/Tools/psa/|title=Pairwise Sequence Alignment Tools < EMBL-EBI|publisher=www.ebi.ac.uk|accessdate=2019-04-23}}</ref>, а {{Cite web|url=https://www.ebi.ac.uk/Tools/psa/emboss_water/|title=Water}}, алгоритм локального выравнивания  — [[Алгоритм_Смита_—_Ватермана|алгоритм Смита — Ватермана]]<ref name=":2" />.
Для получения парного выравнивания используются разновидности метода [[Динамическое программирование|динамического программирования]]. В частности, эти алгоритмы реализованы в сервисах [[Европейская молекулярно-биологическая лаборатория|европейской молекулярно-биологической лаборатории]] ({{Cite web|url=https://www.ebi.ac.uk/Tools/psa/|title=Pairwise Sequence Alignment|website=EMBL-EBI}}). Так, например, {{Cite web|url=https://www.ebi.ac.uk/Tools/psa/emboss_needle/|title=Needle}}, алгоритм глобального выравнивания, использует [[алгоритм Нидлмана-Вунша|алгоритм Нидлмана — Вунша]]<ref name=":2">{{Cite web|url=https://www.ebi.ac.uk/Tools/psa/|title=Pairwise Sequence Alignment Tools < EMBL-EBI|publisher=www.ebi.ac.uk|accessdate=2019-04-23|archive-date=2019-04-12|archive-url=https://web.archive.org/web/20190412094432/https://www.ebi.ac.uk/Tools/psa/|deadlink=no}}</ref>, а {{Cite web|url=https://www.ebi.ac.uk/Tools/psa/emboss_water/|title=Water}}, алгоритм локального выравнивания — [[алгоритм Смита — Ватермана]]<ref name=":2" />.


=== Сравнение глобального и локального выравниваний ===
=== Сравнение глобального и локального выравниваний ===
Для демонстрации в чем отличие глобального и локального выравниваний, можно рассмотреть искусственный пример. Возьмем последовательности A и B, и сделаем для них глобальное и локальное выравнивание. В последовательности был заложен центральный гомологичный участок, и заметно отличающиеся края.
Для демонстрации в чём отличие глобального и локального выравниваний, можно рассмотреть искусственный пример. Возьмём последовательности A и B, и сделаем для них глобальное и локальное выравнивание. В последовательности был заложен центральный гомологичный участок, и заметно отличающиеся края.
[[Файл:Global_local_aligment_example.png|альт=|центр|мини|502x502пкс|Пример локального выравнивания (II; EMBOSS {{Cite web|url=https://www.ebi.ac.uk/Tools/psa/emboss_water/|title=Water}}) и глобального (III; EMBOSS {{Cite web|url=https://www.ebi.ac.uk/Tools/psa/emboss_needle/|title=Needle}}). Сами последовательности (I) сгенерированы вручную. Визуализация в Jalview<ref name=":0" />, окраска Clustal.]]
[[Файл:Global_local_aligment_example.png|альт=|центр|мини|502x502пкс|Пример локального выравнивания (II; EMBOSS {{Cite web|url=https://www.ebi.ac.uk/Tools/psa/emboss_water/|title=Water}}) и глобального (III; EMBOSS {{Cite web|url=https://www.ebi.ac.uk/Tools/psa/emboss_needle/|title=Needle}}). Сами последовательности (I) сгенерированы вручную. Визуализация в Jalview<ref name=":0" />, окраска Clustal]]
Глобальное выравнивание<ref name=":1" /> использует полную длину обоих последовательностей, и может быть использовано для проверки последовательностей на [[Гомология (биология)|гомологию]] (общность происхождения) по всей длине. Однако, если последовательности имеют мало участков гомологии (или просто схожести), то не всегда можно хорошо определить эти участки. В приведенном примере алгоритм зацепился за четыре совпадающий аминокислоты, так что длинный участок гомологии не виден. На основании этого можно предположить, что последовательности целиком не гомологичны между собой.
Глобальное выравнивание<ref name=":1" /> использует полную длину обеих последовательностей, и может быть использовано для проверки последовательностей на [[Гомология (биология)|гомологию]] (общность происхождения) по всей длине. Однако, если последовательности имеют мало участков гомологии (или просто схожести), то не всегда можно хорошо определить эти участки. В приведённом примере алгоритм зацепился за четыре совпадающий аминокислоты, так что длинный участок гомологии не виден. На основании этого можно предположить, что последовательности целиком не гомологичны между собой<ref>{{Статья|автор=Aloysius J. Phillips|год=2006-02|doi=10.1016/j.jbi.2005.11.005|issn=1532-0464|выпуск=1|страницы=18—33|издание=Journal of Biomedical Informatics|заглавие=Homology assessment and molecular sequence alignment|ссылка=http://dx.doi.org/10.1016/j.jbi.2005.11.005|том=39}}</ref>.


Локальное выравнивание<ref name=":1" /> использует части последовательностей, на которых прогнозируется максимальная гомология. Оно отлично подходит, если лишь части последовательностей похожи, например в ходе [[Рекомбинация (биология)|рекомбинации]] или [[Конвергентная эволюция|конвергентной эволюции]]. Всегда стоит аккуратно относиться к небольшим участкам имеющим низкое сходство, особенно при выравнивании больших последовательностей, так как повышается вероятность встречи случайного схожего участка. В примере на рисунке локальное выравнивание включило половину длинны последовательностей. Выравнено 11 аминокислот сходных по функции, имеется 2 инделя. На основании этого, если дополнительно известно о схожей функции пептидов A и B, можно сказать, что центральные участки обоих пептидов выполняет функцию всего пептида, либо же важны для его функции.
Локальное выравнивание<ref name=":1" /> использует части последовательностей, на которых прогнозируется максимальная гомология. Оно отлично подходит, если лишь части последовательностей похожи, например в ходе [[Рекомбинация (биология)|рекомбинации]] или [[Конвергентная эволюция|конвергентной эволюции]]. Всегда стоит аккуратно относиться к небольшим участкам имеющим низкое сходство, особенно при выравнивании больших последовательностей, так как повышается вероятность встречи случайного схожего участка. В примере на рисунке локальное выравнивание включило половину длины последовательностей. Выравнено 11 аминокислот сходных по функции, имеется 2 инделя. На основании этого, если дополнительно известно о схожей функции пептидов A и B, можно сказать, что центральные участки обоих пептидов выполняет функцию всего пептида, либо же важны для его функции<ref>{{Статья|автор=M. C. Frith|год=2004-01-02|doi=10.1093/nar/gkh169|issn=1362-4962|выпуск=1|язык=en|страницы=189—200|издание=Nucleic Acids Research|заглавие=Finding functional sequence elements by multiple local alignment|ссылка=https://academic.oup.com/nar/article-lookup/doi/10.1093/nar/gkh169|том=32|archivedate=2017-07-22|archiveurl=https://web.archive.org/web/20170722130535/https://academic.oup.com/nar/article-lookup/doi/10.1093/nar/gkh169}}</ref>.


Однако, не всегда в локальное выравнивание может попасть интересующий участок последовательности. Это можно обойти, если обрезать последовательность по границам интересующего участка.
Однако, не всегда в локальное выравнивание может попасть интересующий участок последовательности. Это можно обойти, если обрезать последовательность по границам интересующего участка. Также возможны и другие комбинации глобального и локального выравниваний<ref>{{Статья|автор=M. Brudno, S. Malde, A. Poliakov, C. B. Do, O. Couronne|год=2003-07-03|doi=10.1093/bioinformatics/btg1005|issn=1367-4803, 1460-2059|выпуск=Suppl 1|страницы=i54—i62|издание=Bioinformatics|заглавие=Glocal alignment: finding rearrangements during alignment|ссылка=http://dx.doi.org/10.1093/bioinformatics/btg1005|том=19}}</ref>.


=== Алгоритмы поиска ===
=== Алгоритмы поиска ===
Применяются для поиска в больших базах данных последовательностей, схожих с некой заданной последовательностью по указанным критериям. Применяемое выравнивание — локальное. Для повышения скорости поиска используются различные эвристические методы. Наиболее известные программы: [[BLAST]]<ref>{{Cite web|url=https://blast.ncbi.nlm.nih.gov/Blast.cgi|title=BLAST: Basic Local Alignment Search Tool|publisher=blast.ncbi.nlm.nih.gov|accessdate=2019-04-23}}</ref> и {{Cite web|url=http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml|title=FASTA3x}}.
Применяются для поиска в больших базах данных последовательностей, схожих с некой заданной последовательностью по указанным критериям. Применяемое выравнивание — локальное. Для повышения скорости поиска используются различные эвристические методы. Наиболее известные программы: [[BLAST]]<ref>{{Cite web|url=https://blast.ncbi.nlm.nih.gov/Blast.cgi|title=BLAST: Basic Local Alignment Search Tool|publisher=blast.ncbi.nlm.nih.gov|accessdate=2019-04-23|archive-date=2020-08-21|archive-url=https://web.archive.org/web/20200821005842/https://blast.ncbi.nlm.nih.gov/Blast.cgi|deadlink=no}}</ref> и {{Cite web|url=http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml|title=FASTA3x}}<ref>{{Статья|автор=W. R. Pearson, D. J. Lipman |год=1988-04-01 |doi=10.1073/pnas.85.8.2444 |issn=0027-8424, 1091-6490 |выпуск=8 |страницы=2444—2448 |издание=[[Proceedings of the National Academy of Sciences]] |заглавие=Improved tools for biological sequence comparison |ссылка=http://dx.doi.org/10.1073/pnas.85.8.2444 |том=85 |язык=en |издательство=[[Национальная академия наук США|National Academy of Sciences]] }}</ref>.


== Множественное выравнивание ==
== Множественное выравнивание ==
{{Основная статья|Множественное выравнивание последовательностей}}
{{Основная статья|Множественное выравнивание последовательностей}}
[[Множественное выравнивание последовательностей|Множественное выравнивание]] — это выравнивание трёх и более последовательностей. Применяется для нахождения консервативных участков в наборе гомологичных последовательностей. В большинстве случаев построение множественного выравнивания — необходимый этап реконструкции [[Филогенетическое дерево|филогенетических деревьев]]. Нахождение оптимального множественного выравнивания методом динамического программирования имеет слишком большую временную сложность, поэтому множественные выравнивания строятся на базе различных эвристик. Наиболее известные программы, осуществляющие множественное выравнивание — [[Clustal]] ({{Cite web|url=http://www.clustal.org/|title=clustal}})<ref>{{Статья|автор=J. Thompson|год=1997-12-15|doi=10.1093/nar/25.24.4876|issn=1362-4962|выпуск=24|страницы=4876–4882|издание=Nucleic Acids Research|заглавие=The CLUSTAL_X windows interface: flexible strategies for multiple sequence alignment aided by quality analysis tools|ссылка=http://dx.doi.org/10.1093/nar/25.24.4876|том=25}}</ref>, {{не переведено|:en:T-COFFEE|T-COFFEE}} ({{Cite web|url=http://www.tcoffee.org|title=tcoffee}}), {{не переведено|:en:MUSCLE_(alignment_software)|MUSCLE}} ({{Cite web|url=http://www.drive5.com/muscle/|title=muscle}})<ref>{{Статья|автор=R. C. Edgar|год=2004-03-08|doi=10.1093/nar/gkh340|issn=1362-4962|выпуск=5|страницы=1792–1797|издание=Nucleic Acids Research|заглавие=MUSCLE: multiple sequence alignment with high accuracy and high throughput|ссылка=http://dx.doi.org/10.1093/nar/gkh340|том=32}}</ref> и {{не переведено|:en:MAFFT)|MAFFT}} ({{Cite web|url=http://mafft.cbrc.jp/alignment/software/|title=mafft}}). Имеются также программы для просмотра и редактирования множественных выравниваний, например {{не переведено|:en:Jalview|Jalview}}<ref name=":0" /> или русскоязычный [[UGENE]].
[[Множественное выравнивание последовательностей|Множественное выравнивание]] — это выравнивание трёх и более последовательностей. Применяется для нахождения консервативных участков в наборе гомологичных последовательностей. В большинстве случаев построение множественного выравнивания — необходимый этап реконструкции [[Филогенетическое дерево|филогенетических деревьев]]. Нахождение оптимального множественного выравнивания методом динамического программирования имеет слишком большую временную сложность, поэтому множественные выравнивания строятся на базе различных эвристик. Наиболее известные программы, осуществляющие множественное выравнивание — [[Clustal]] ({{Cite web|url=http://www.clustal.org/|title=clustal}})<ref>{{Статья|автор=J. Thompson|год=1997-12-15|doi=10.1093/nar/25.24.4876|issn=1362-4962|выпуск=24|страницы=4876—4882|издание=Nucleic Acids Research|заглавие=The CLUSTAL_X windows interface: flexible strategies for multiple sequence alignment aided by quality analysis tools|ссылка=http://dx.doi.org/10.1093/nar/25.24.4876|том=25}}</ref>, {{нп1|T-COFFEE||en|T-COFFEE}} ({{Cite web|url=http://www.tcoffee.org|title=tcoffee}}), {{нп1|MUSCLE||en|MUSCLE_(alignment_software)}} ({{Cite web|url=http://www.drive5.com/muscle/|title=muscle}})<ref>{{Статья|автор=R. C. Edgar|год=2004-03-08|doi=10.1093/nar/gkh340|issn=1362-4962|выпуск=5|страницы=1792—1797|издание=Nucleic Acids Research|заглавие=MUSCLE: multiple sequence alignment with high accuracy and high throughput|ссылка=http://dx.doi.org/10.1093/nar/gkh340|том=32}}</ref> и {{нп1|MAFFT||en|MAFFT)}} ({{Cite web|url=http://mafft.cbrc.jp/alignment/software/|title=mafft}}). Имеются также программы для просмотра и редактирования множественных выравниваний, например {{нп1|Jalview||en|Jalview}}<ref name=":0" /> или русскоязычный [[UGENE]]<ref name=":3" />.


== Структурное выравнивание ==
== Структурное выравнивание ==

{{Main|Пространственное выравнивание}}
{{Main|Пространственное выравнивание}}


[[Файл:Alignment of thioredoxins2.png|thumb|300px|right|Структурное выравнивание [[тиоредоксин]]ов [[Человек_разумный|человека]] и ''[[Drosophila melanogaster]]''. Белки отображены в стиле ''cartoon'', белок человека — в красном, ''Drosophila melanogaster'' — в жёлтом цвете. Получено из [[Protein Data Bank|PDB]] [http://www.rcsb.org/pdb/explore.do?structureId=3TRX 3TRX] и [http://www.rcsb.org/pdb/explore.do?structureId=1XWC 1XWC].]]
[[Файл:Alignment of thioredoxins2.png|thumb|300px|right|Структурное выравнивание [[тиоредоксин]]ов [[Человек разумный|человека]] и ''[[Drosophila melanogaster]]''. Белки отображены в стиле ''cartoon'', белок человека — в красном, ''Drosophila melanogaster'' — в жёлтом цвете. Получено из [[Protein Data Bank|PDB]] [http://www.rcsb.org/pdb/explore.do?structureId=3TRX 3TRX] и [http://www.rcsb.org/pdb/explore.do?structureId=1XWC 1XWC] ]]
Может быть построено для [[Белки|белков]] или [[Рибонуклеиновая_кислота|рибонуклеиновых кислот]] с использованием информации о [[Вторичная_структура|вторичной]] и [[Третичная структура|третичной пространственной структуре]] молекул. Целью является попытка установить [[Гомология (биология)|гомологию]] двух или нескольких структур путем нахождения и сопоставления участков, одинаково уложенных в пространстве. Структурное выравнивание обычно сопровождается наложением структур, то есть нахождением движений пространства, применение которых к заданным молекулам наилучшим образом совмещает их. Но в отличие от простой пространственной суперпозиции с известным сопоставлением эквивалентных [[Аминокислоты|аминокислотных]] [[Остаток_(биохимия)|остатков]] двух структур, алгоритмы структурного выравнивания обычно не требуют априорного знания выравнивания последовательностей. Существует большое количество [[Алгоритм|алгоритмов]], на которых основаны различные {{не переведено|:en:Structural_alignment_software|программы структурного выравнивания}}. Пространственные выравнивания особенно важны для анализа данных [[Структурная_геномика|структурной]] [[Геномика|геномики]] и [[Протеомика|протеомики]], они также могут использоваться для оценки выравниваний, полученных путём сравнения последовательностей.<ref name="skolnick">{{cite pmid|15653774}}</ref>.
Может быть построено для [[Белки|белков]] или [[Рибонуклеиновая кислота|рибонуклеиновых кислот]] с использованием информации о [[Вторичная структура|вторичной]] и [[Третичная структура|третичной пространственной структуре]] молекул. Целью является попытка установить [[Гомология (биология)|гомологию]] двух или нескольких структур путём нахождения и сопоставления участков, одинаково уложенных в пространстве. Структурное выравнивание обычно сопровождается наложением структур, то есть нахождением движений пространства, применение которых к заданным молекулам наилучшим образом совмещает их. Но в отличие от простой пространственной суперпозиции с известным сопоставлением эквивалентных [[Аминокислоты|аминокислотных]] [[Остаток (биохимия)|остатков]] двух структур, алгоритмы структурного выравнивания обычно не требуют априорного знания выравнивания последовательностей. Существует большое количество [[алгоритм]]ов, на которых основаны различные {{нп1|программы структурного выравнивания||en|Structural_alignment_software}}. Пространственные выравнивания особенно важны для анализа данных [[Структурная геномика|структурной]] [[Геномика|геномики]] и [[Протеомика|протеомики]], они также могут использоваться для оценки выравниваний, полученных путём сравнения последовательностей.<ref name="skolnick">{{cite pmid|15653774}}</ref>.


Структурное выравнивание успешно используется для сравнения белков с низким уровнем гомологии последовательностей, когда эволюционные связи не могут быть установлены стандартными методами выравнивания последовательностей, но в этом случае необходимо принимать во внимание влияние [[Конвергентная эволюция|конвергентной эволюции]], основной эффект которой проявляется в сходстве третичных структур неродственных аминокислотных последовательностей<ref>{{cite journal |author1=Zhang, Y. |author2=Skolnick, J. |date=May 2004 | title = Automated structure prediction of weakly homologous proteins on a genomic scale.| url = | journal = Proceedings of the National Academy of Sciences | pmid = 15126668 | doi=https://doi.org/10.1073/pnas.0305695101 | pmc=419651}}</ref>.
Структурное выравнивание успешно используется для сравнения белков с низким уровнем гомологии последовательностей, когда эволюционные связи не могут быть установлены стандартными методами выравнивания последовательностей, но в этом случае необходимо принимать во внимание влияние [[Конвергентная эволюция|конвергентной эволюции]], основной эффект которой проявляется в сходстве третичных структур неродственных аминокислотных последовательностей<ref>{{статья |заглавие=Automated structure prediction of weakly homologous proteins on a genomic scale |издание=[[Proceedings of the National Academy of Sciences|Proceedings of the National Academy of Sciences of the United States of America]] |pmid=15126668 |doi=10.1073/pnas.0305695101 |pmc=419651 |язык=en |тип=journal |автор=Zhang, Y.; Skolnick, J. |месяц=5 |год=2004}}</ref>.


Пространственное выравнивание позволяет сравнивать две и более [[молекулы]] с известными трехмерными структурами, экспериментальное получение которых основано на использовании методов [[Рентгеноструктурный_анализ|рентгеноструктурного анализа]] и [[ЯМР-спектроскопия|ЯМР-спектроскопии]]. Для пространственного выравнивания можно также использовать структуры, полученные методами [[Предсказание структуры белка|предсказания структуры белка]]. Более того, оценка качества таких предсказаний зачастую базируется на использовании пространственного выравнивания структуры создаваемой модели и белка, третичная структура которого получена непосредственно из эксперимента. Также есть данные об использовании метода [[Малоугловое_рентгеновское_рассеяние|малоуглового рентгеновского рассеяния]] для анализа трехмерных структур различных белковых молекул<ref>{{cite journal |author1=GL Hura |author2=AL Menon |date=July 2009 | title = Robust, high-throughput solution structural analyses by small angle X-ray scattering (SAXS)| url = | journal = Nature Methods | pmid = 19620974 | doi=10.1038/nmeth.1353 | pmc=3094553}}</ref>.
Пространственное выравнивание позволяет сравнивать две и более [[молекулы]] с известными трёхмерными структурами, экспериментальное получение которых основано на использовании методов [[Рентгеноструктурный анализ|рентгеноструктурного анализа]] и [[ЯМР-спектроскопия|ЯМР-спектроскопии]]. Для пространственного выравнивания можно также использовать структуры, полученные методами [[Предсказание структуры белка|предсказания структуры белка]]. Более того, оценка качества таких предсказаний зачастую базируется на использовании пространственного выравнивания структуры создаваемой модели и белка, третичная структура которого получена непосредственно из эксперимента. Также есть данные об использовании метода [[Малоугловое рентгеновское рассеяние|малоуглового рентгеновского рассеяния]] для анализа трёхмерных структур различных белковых молекул<ref>{{статья |заглавие=Robust, high-throughput solution structural analyses by small angle X-ray scattering (SAXS) |издание=[[Nature Methods]] |pmid=19620974 |doi=10.1038/nmeth.1353 |pmc=3094553 |язык=en |тип=journal |автор=GL Hura; AL Menon |месяц=7 |год=2009}}</ref>.


===Типы сравнений===
=== Типы сравнений ===
Результатом работы программ структурного выравнивания, как правило, является совмещение наборов координат [[атом]]ов. Чаще всего при поиске такого сопоставления оценка результату даётся исходя из значения функции наименьшего [[Среднеквадратическое отклонение|среднеквадратического отклонения]] (RMSD) между структурами, которое алгоритм построения выравнивания старается минимизировать.<ref name=predict>{{статья |заглавие=On the prediction of protein structure: the significance of the root-mean-square deviation |издание={{Нп3|Journal of Molecular Biology|Journal of molecular biology||Journal of Molecular Biology}} |pmid=7411610 |doi=10.1016/0022-2836(80)90289-2 |язык=en |тип=journal |автор=Cohen, F.E; Sternberg, M.J. |год=1980}}</ref>

Результатом работы программ структурного выравнивания, как правило, является совмещение наборов координат [[атом]]ов. Чаще всего при поиске такого сопоставления оценка результату дается исходя из значения функции наименьшего [[Среднеквадратическое_отклонение|среднеквадратического отклонения]] (RMSD) между структурами, которое алгоритм построения выравнивания старается минимизировать.<ref name=predict>{{cite journal |author1=Cohen, F.E |author2=Sternberg, M.J. |date=1980 | title = On the prediction of protein structure: the significance of the root-mean-square deviation.| url = | journal = Journal of molecular biology | pmid = 7411610 | doi=10.1016/0022-2836(80)90289-2}}</ref>
: <math>
: <math>
\begin{align}
\begin{align}
Строка 85: Строка 84:
\end{align}
\end{align}
</math>,
</math>,
где <math>n</math> - количество точек (атомов) в выборке (структуре), <math>\mathbf{v}</math> и <math>\mathbf{w}</math> - атомы соответствующей структуры, имеющие координаты <math>\mathbf{v_i}_x</math>, <math>\mathbf{v_i}_y</math>, <math>\mathbf{v_i}_z</math> и <math>\mathbf{w_i}_x</math>, <math>\mathbf{w_i}_y</math>, <math>\mathbf{w_i}_z</math>.
где <math>n</math> — количество точек (атомов) в выборке (структуре), <math>\mathbf{v}</math> и <math>\mathbf{w}</math> — атомы соответствующей структуры, имеющие координаты <math>\mathbf{v_i}_x</math>, <math>\mathbf{v_i}_y</math>, <math>\mathbf{v_i}_z</math> и <math>\mathbf{w_i}_x</math>, <math>\mathbf{w_i}_y</math>, <math>\mathbf{w_i}_z</math>.


Значение RMSD выражается в единицах длины, наиболее часто используемой единицей в [[Структурная_биология|структурной биологии]] является [[Ангстрем]] (Å), который равен 10<sup>−10</sup> м. Однако RMSD как степень пространственного расхождения выравниваемых структур имеет ряд недостатков: неустойчивость к выбросам и наличию нескольких доменов в структуре выравниваемых белков, так как изменения в относительном расположении этих доменов между двумя структурами могут искусственно изменять значение RMSD.
Значение RMSD выражается в единицах длины, наиболее часто используемой единицей в [[Структурная биология|структурной биологии]] является [[Ангстрем]] (Å), который равен 10<sup>−10</sup> м. Однако RMSD как степень пространственного расхождения выравниваемых структур имеет ряд недостатков: неустойчивость к выбросам и наличию нескольких доменов в структуре выравниваемых белков, так как изменения в относительном расположении этих доменов между двумя структурами могут искусственно изменять значение RMSD.


Кроме того, могут быть рассчитаны и более сложные параметры, оценивающие структурное сходство, например, {{нп5|тест глобальных расстояний||en|Global distance test}}<ref name="zemla">{{cite pmid|12824330}}</ref>.
Кроме того, могут быть рассчитаны и более сложные параметры, оценивающие структурное сходство, например, {{нп5|тест глобальных расстояний||en|Global distance test}}<ref name="zemla">{{cite pmid|12824330}}</ref>.
Строка 96: Строка 95:


==== DALI ====
==== DALI ====
Одним из популярных методов структурного выравнивания является DALI ({{lang-en|distance alignment matrix method}} — метод с использованием матрицы дистанционных выравниваний). Исходные структуры белков разбиваются на гексапептиды и через оценку паттернов контактов между фрагментами рассчитывается матрица расстояний. Элементы вторичной структуры, остатки которых являются соседними в последовательности, оказываются на главной диагонали матрицы; остальные диагонали матрицы отражают пространственные контакты между остатками, которые в последовательности не находятся рядом друг с другом. Когда матрицы расстояний двух белков имеют одинаковые или похожие элементы примерно на одинаковых позициях, можно сказать, что белки имеют схожую укладку и их элементы вторичной структуры соединены петлями примерно одинаковой длины. Непосредственный процесс выравнивания DALI заключается в поиске схожестей матриц, построенных для двух белков, которые потом пересобираются в конечное выравнивание с помощью стандартного алгоритма максимизации счёта<ref>{{статья |заглавие=Dali server update |издание=[[Nature Methods]] |pmid=27131377 |doi=10.1093/nar/gkw357 |pmc=4987910 |язык=en |автор=Liisa Holm; Laura M. Laakso |число=29 |месяц=4 |год=2016 |тип=journal}}</ref>.

Одним из популярных методов структурного выравнивания является DALI ({{lang-en|distance alignment matrix method}} — метод с использованием матрицы дистанционных выравниваний). Исходные структуры белков разбиваются на гексапептиды и через оценку паттернов контактов между фрагментами рассчитывается матрица расстояний. Элементы вторичной структуры, остатки которых являются соседними в последовательности, оказываются на главной диагонали матрицы; остальные диагонали матрицы отражают пространственные контакты между остатками, которые в последовательности не находятся рядом друг с другом. Когда матрицы расстояний двух белков имеют одинаковые или похожие элементы примерно на одинаковых позициях, можно сказать, что белки имеют схожую укладку и их элементы вторичной структуры соединены петлями примерно одинаковой длины. Непосредственный процесс выравнивания DALI заключается в поиске схожестей матриц, построенных для двух белков, которые потом пересобираются в конечное выравнивание с помощью стандартного алгоритма максимизации счёта<ref>{{cite journal |author1=Liisa Holm |author2=Laura M. Laakso |date=2016 Apr 29 | title = Dali server update| url = | journal = Nature Methods | pmid = 27131377 | doi=10.1093/nar/gkw357 | pmc=4987910}}</ref>.


Метод DALI был использован для создания [[База данных|базы данных]] {{нп5|FSSP||en|Families of structurally similar proteins}} ({{lang-en|Families of Structurally Similar Proteins}}), в которой все известные структуры белков были попарно выровнены для определения их пространственного родства и классификации укладок<ref>{{cite pmid|9016542}}</ref>.
Метод DALI был использован для создания [[База данных|базы данных]] {{нп5|FSSP||en|Families of structurally similar proteins}} ({{lang-en|Families of Structurally Similar Proteins}}), в которой все известные структуры белков были попарно выровнены для определения их пространственного родства и классификации укладок<ref>{{cite pmid|9016542}}</ref>.
Строка 104: Строка 102:


==== Комбинаторное расширение (combinatorial extension) ====
==== Комбинаторное расширение (combinatorial extension) ====
Метод комбинаторного расширения ({{lang-en|Combinational extension (СЕ)}}) похож на DALI тем, что тоже разбивает каждую структуру на ряд фрагментов, которые затем пытается заново собрать в полное выравнивание. Серия попарных сочетаний фрагментов, называемых AFP ({{lang-en|aligned fragment pairs}} — пары выровненных фрагментов), используется для задания матрицы сходства, через которую прокладывается оптимальный путь для определения конечного выравнивания. Путь, соответствующий выравниванию, рассчитывается как оптимальный путь через матрицу сходства с помощью линейного прохода через последовательности, расширяя выравнивание следующей возможной AFP с высоким счётом. Только те AFP, которые удовлетворяют заданным критериям локального сходства, включаются в матрицу, что сокращает необходимое пространство поиска и увеличивает эффективность<ref name="shindyalov">{{cite pmid|9796821}}</ref>.

Метод комбинаторного расширения ({{lang-en|Combinational extension (СЕ)}}) похож на DALI тем, что тоже разбивает каждую структуру на ряд фрагментов, которые затем пытается заново собрать в полное выравнивание. Серия попарных сочетаний фрагментов, называемых AFP ({{lang-en|aligned fragment pairs}} — пары выровненных фрагментов), используется для задания матрицы сходства, через которую прокладывается оптимальный путь для определения конечного выравнивания. Только те AFP, которые удовлетворяют заданным критериям локального сходства, включаются в матрицу, что сокращает необходимое пространство поиска и увеличивает эффективность<ref name="shindyalov">{{cite pmid|9796821}}</ref>. Путь, соответствующий выравниванию, рассчитывается как оптимальный путь через матрицу сходства с помощью линейного прохода через последовательности, расширяя выравнивание следующей возможной AFP с высоким счётом.


Подобно DALI или SSAP, CE использовался для создания базы данных классификации укладок на основе известных пространственных структур белков из PDB<ref name="prlic">{{cite pmid|20937596}}</ref>.
Подобно DALI или SSAP, CE использовался для создания базы данных классификации укладок на основе известных пространственных структур белков из PDB<ref name="prlic">{{cite pmid|20937596}}</ref>.


== Примечания ==
== Примечания ==
{{примечания|2}}{{Строки}}
{{reflist|2}}

[[Категория:Биоинформатика]]
[[Категория:Биоинформатика]]
{{Добротная статья|Биоинформатика}}
{{Кандидат в добротные статьи|23 апреля 2019}}

Текущая версия от 15:05, 2 июня 2024

Выра́внивание после́довательностей — биоинформатический метод, основанный на размещении двух или более последовательностей мономеров ДНК, РНК или белков друг под другом таким образом, чтобы можно было легко увидеть сходные участки в этих последовательностях. Сходство первичных структур двух молекул может отражать их функциональные, структурные или эволюционные взаимосвязи[1]. Выровненные последовательности оснований нуклеотидов или аминокислот обычно представляются в виде строк матрицы. Добавляются разрывы между основаниями таким образом, чтобы одинаковые или похожие элементы были расположены в следующих друг за другом столбцах матрицы[2].

Алгоритмы выравнивания последовательностей также используются в NLP[3].

Графическое и текстовое представление

[править | править код]

В большинстве представлений результата выравнивания последовательности располагаются в строчках матрицы таким образом, что совпадающие элементы (нуклеотиды или аминокислоты) находятся один под другим (в одной колонке). «Разрывы» заменяются знаком «-», именуемый гэпом (от англ. «gap»)[4], и обозначает индель[англ.], то есть место возможной вставки или делеции[5][2].

Текстовое представление

[править | править код]

При текстовом отображении возможна просто запись в формате fasta, когда последовательности записываются с гэпами, и имеют одинаковую длину[6]. Такой вид записи часто используется программами, и удобен для машинной обработки[7].

Другой вид текстового представления служит для удобства пользователя (три разных примера представлены ниже). В нём последовательности записываются одна под другой, а в строчке между ними разными символами обозначены разные отношения между аминокислотами. Пробелом (отсутствием символа) обозначают отсутствие связи между аминокислотами, как по гомологии, так и по функции: символами «*», "|" или же буквой (BLAST) — одинаковые аминокислоты; «:» или «+» — близкие по свойствам; «.» — сходные по свойствам[8].

Blast:

Query  15  FQQAWANPKHAWAQVNGETRLTQNLIILERETR  47
           F   W  PKHA +QVNG T ++Q+ IIL R  R
Sbjct  14  FHHNWTRPKHASSQVNGHTEMSQHNIILRRVPR  46

CLUSTAL:

THE12851.1          MGKKGYKRNEYNNPFQQAWANPKHAWAQVNGETRLTQNLIILERETRKRS-	50
WP_104057486.1      MSTK-DQLDPQSQAFHHNWTRPKHASSQVNGHTEMSQHNIILRRVPRSGRR	50
                    *..*  : :  .: *:: *:.**** :****.*.::*: ***.*  *.   

EMBOSS Needle:

THE12851.1         1 MGKKGYKRNEYNNPFQQAWANPKHAWAQVNGETRLTQNLIILERETRKRS     50
                     |..|. :.:..:..|...|..||||.:||||.|.::|:.|||.|..|...
WP_104057486.      1 MSTKD-QLDPQSQAFHHNWTRPKHASSQVNGHTEMSQHNIILRRVPRSGR     49

Графическое представление

[править | править код]
Демонстрация различный окрасок множественного выравнивания различных белков семейства YpzG, визуализация в Jalview[9], выравнивание ClustalWS

Графическое представление максимально ориентированно на визуальное восприятие. В нём также принято размещать последовательности одну под другой, но значение связи между аминокислотами из разных последовательностей обозначаются цветом. Есть окраски по свойствам аминокислот, такие как «Zappo», окрашивающая каждую аминокислоту, и «Clustal», окрашивающая столбцы с одинаковыми свойствами аминокислот. Часть окрасок, такие как «%Identity», позволяет увидеть идентичность и консервативность аминокислот в столбце. Есть и окраски, показывающие степень гидрофобности аминокислот[10].

Наиболее известные программы для просмотра выравниваний: Jalview[англ.][9], UGENE[11], MEGA[англ.][12]. Полный список представлен в статье «List of alignment visualization software» (англ).

Также существует способ представления консенсусной последовательности — Логотип последовательности[13].

Точечная матрица

[править | править код]

Точечная матрица сходства[англ.] — способ визуального представления парного выравнивания. Обычно используется для больших последовательностей, например для геномов бактерий. По осям отложены координаты обеих последовательностей, а отрезками отображают их гомологию. Так, точечная матрица одинаковых последовательностей будет выглядеть как диагональ квадрата. Такой способ представления позволяет отслеживать инверсии, дупликации или делеции, а также транслокации[14].

Парное выравнивание

[править | править код]

Парное выравнивание используется для нахождения сходных участков двух последовательностей. Различают глобальное и локальное выравнивание. Глобальное выравнивание предполагает, что последовательности гомологичны по всей длине. В глобальное выравнивание включаются обе входные последовательности целиком. Локальное выравнивание применяется, если последовательности содержат как родственные (гомологичные), так и неродственные участки. Результатом локального выравнивания является выбор участка в каждой из последовательностей и выравнивание между этими участками[15].

Для получения парного выравнивания используются разновидности метода динамического программирования. В частности, эти алгоритмы реализованы в сервисах европейской молекулярно-биологической лаборатории (Pairwise Sequence Alignment. EMBL-EBI.). Так, например, Needle., алгоритм глобального выравнивания, использует алгоритм Нидлмана — Вунша[16], а Water., алгоритм локального выравнивания — алгоритм Смита — Ватермана[16].

Сравнение глобального и локального выравниваний

[править | править код]

Для демонстрации в чём отличие глобального и локального выравниваний, можно рассмотреть искусственный пример. Возьмём последовательности A и B, и сделаем для них глобальное и локальное выравнивание. В последовательности был заложен центральный гомологичный участок, и заметно отличающиеся края.

Пример локального выравнивания (II; EMBOSS Water.) и глобального (III; EMBOSS Needle.). Сами последовательности (I) сгенерированы вручную. Визуализация в Jalview[9], окраска Clustal

Глобальное выравнивание[15] использует полную длину обеих последовательностей, и может быть использовано для проверки последовательностей на гомологию (общность происхождения) по всей длине. Однако, если последовательности имеют мало участков гомологии (или просто схожести), то не всегда можно хорошо определить эти участки. В приведённом примере алгоритм зацепился за четыре совпадающий аминокислоты, так что длинный участок гомологии не виден. На основании этого можно предположить, что последовательности целиком не гомологичны между собой[17].

Локальное выравнивание[15] использует части последовательностей, на которых прогнозируется максимальная гомология. Оно отлично подходит, если лишь части последовательностей похожи, например в ходе рекомбинации или конвергентной эволюции. Всегда стоит аккуратно относиться к небольшим участкам имеющим низкое сходство, особенно при выравнивании больших последовательностей, так как повышается вероятность встречи случайного схожего участка. В примере на рисунке локальное выравнивание включило половину длины последовательностей. Выравнено 11 аминокислот сходных по функции, имеется 2 инделя. На основании этого, если дополнительно известно о схожей функции пептидов A и B, можно сказать, что центральные участки обоих пептидов выполняет функцию всего пептида, либо же важны для его функции[18].

Однако, не всегда в локальное выравнивание может попасть интересующий участок последовательности. Это можно обойти, если обрезать последовательность по границам интересующего участка. Также возможны и другие комбинации глобального и локального выравниваний[19].

Алгоритмы поиска

[править | править код]

Применяются для поиска в больших базах данных последовательностей, схожих с некой заданной последовательностью по указанным критериям. Применяемое выравнивание — локальное. Для повышения скорости поиска используются различные эвристические методы. Наиболее известные программы: BLAST[20] и FASTA3x.[21].

Множественное выравнивание

[править | править код]

Множественное выравнивание — это выравнивание трёх и более последовательностей. Применяется для нахождения консервативных участков в наборе гомологичных последовательностей. В большинстве случаев построение множественного выравнивания — необходимый этап реконструкции филогенетических деревьев. Нахождение оптимального множественного выравнивания методом динамического программирования имеет слишком большую временную сложность, поэтому множественные выравнивания строятся на базе различных эвристик. Наиболее известные программы, осуществляющие множественное выравнивание — Clustal (clustal.)[22], T-COFFEE[англ.] (tcoffee.), MUSCLE[англ.] (muscle.)[23] и MAFFT[англ.] (mafft.). Имеются также программы для просмотра и редактирования множественных выравниваний, например Jalview[англ.][9] или русскоязычный UGENE[11].

Структурное выравнивание

[править | править код]
Структурное выравнивание тиоредоксинов человека и Drosophila melanogaster. Белки отображены в стиле cartoon, белок человека — в красном, Drosophila melanogaster — в жёлтом цвете. Получено из PDB 3TRX и 1XWC

Может быть построено для белков или рибонуклеиновых кислот с использованием информации о вторичной и третичной пространственной структуре молекул. Целью является попытка установить гомологию двух или нескольких структур путём нахождения и сопоставления участков, одинаково уложенных в пространстве. Структурное выравнивание обычно сопровождается наложением структур, то есть нахождением движений пространства, применение которых к заданным молекулам наилучшим образом совмещает их. Но в отличие от простой пространственной суперпозиции с известным сопоставлением эквивалентных аминокислотных остатков двух структур, алгоритмы структурного выравнивания обычно не требуют априорного знания выравнивания последовательностей. Существует большое количество алгоритмов, на которых основаны различные программы структурного выравнивания[англ.]. Пространственные выравнивания особенно важны для анализа данных структурной геномики и протеомики, они также могут использоваться для оценки выравниваний, полученных путём сравнения последовательностей.[24].

Структурное выравнивание успешно используется для сравнения белков с низким уровнем гомологии последовательностей, когда эволюционные связи не могут быть установлены стандартными методами выравнивания последовательностей, но в этом случае необходимо принимать во внимание влияние конвергентной эволюции, основной эффект которой проявляется в сходстве третичных структур неродственных аминокислотных последовательностей[25].

Пространственное выравнивание позволяет сравнивать две и более молекулы с известными трёхмерными структурами, экспериментальное получение которых основано на использовании методов рентгеноструктурного анализа и ЯМР-спектроскопии. Для пространственного выравнивания можно также использовать структуры, полученные методами предсказания структуры белка. Более того, оценка качества таких предсказаний зачастую базируется на использовании пространственного выравнивания структуры создаваемой модели и белка, третичная структура которого получена непосредственно из эксперимента. Также есть данные об использовании метода малоуглового рентгеновского рассеяния для анализа трёхмерных структур различных белковых молекул[26].

Типы сравнений

[править | править код]

Результатом работы программ структурного выравнивания, как правило, является совмещение наборов координат атомов. Чаще всего при поиске такого сопоставления оценка результату даётся исходя из значения функции наименьшего среднеквадратического отклонения (RMSD) между структурами, которое алгоритм построения выравнивания старается минимизировать.[27]

,

где  — количество точек (атомов) в выборке (структуре), и  — атомы соответствующей структуры, имеющие координаты , , и , , .

Значение RMSD выражается в единицах длины, наиболее часто используемой единицей в структурной биологии является Ангстрем (Å), который равен 10−10 м. Однако RMSD как степень пространственного расхождения выравниваемых структур имеет ряд недостатков: неустойчивость к выбросам и наличию нескольких доменов в структуре выравниваемых белков, так как изменения в относительном расположении этих доменов между двумя структурами могут искусственно изменять значение RMSD.

Кроме того, могут быть рассчитаны и более сложные параметры, оценивающие структурное сходство, например, тест глобальных расстояний[англ.][28].

Для создания структурного выравнивания и подсчёта соответствующих значений RMSD могут быть использованы как все атомы, входящие в молекулу белка, так и их подмножества. Например, атомы боковых радикалов аминокислотных остатков учитываются не всегда, и для выравнивания могут использоваться только атомы, входящие в пептидный остов молекулы. Такой вариант выбирают, если у выравниваемых структур очень разная аминокислотная последовательность и боковые радикалы различаются у большого числа остатков. По этой причине по умолчанию методы пространственного выравнивания используют только атомы остова, вовлечённые в пептидную связь. Для большего упрощения и увеличения эффективности часто используется положение только альфа-атомов углерода, так как их положение достаточно точно определяет положение атомов полипептидного остова. Только при выравнивании очень похожих или даже идентичных структур важно учитывать позиции атомов боковых цепей. В этом случае RMSD отражает не только схожесть конформации белкового остова, но и ротамерные состояния боковых цепей. Другие способы, позволяющие снизить шум и увеличить число правильных сопоставлений, используют разметку элементов вторичной структуры, карты нативных контактов[англ.] или паттерны взаимодействия остатков, меры степени упаковки боковых цепей и меры сохранения водородных связей[29].

Одним из популярных методов структурного выравнивания является DALI (англ. distance alignment matrix method — метод с использованием матрицы дистанционных выравниваний). Исходные структуры белков разбиваются на гексапептиды и через оценку паттернов контактов между фрагментами рассчитывается матрица расстояний. Элементы вторичной структуры, остатки которых являются соседними в последовательности, оказываются на главной диагонали матрицы; остальные диагонали матрицы отражают пространственные контакты между остатками, которые в последовательности не находятся рядом друг с другом. Когда матрицы расстояний двух белков имеют одинаковые или похожие элементы примерно на одинаковых позициях, можно сказать, что белки имеют схожую укладку и их элементы вторичной структуры соединены петлями примерно одинаковой длины. Непосредственный процесс выравнивания DALI заключается в поиске схожестей матриц, построенных для двух белков, которые потом пересобираются в конечное выравнивание с помощью стандартного алгоритма максимизации счёта[30].

Метод DALI был использован для создания базы данных FSSP[англ.] (англ. Families of Structurally Similar Proteins), в которой все известные структуры белков были попарно выровнены для определения их пространственного родства и классификации укладок[31].

DaliLite является скачиваемой программой, использующей алгоритм DALI[32].

Комбинаторное расширение (combinatorial extension)

[править | править код]

Метод комбинаторного расширения (англ. Combinational extension (СЕ)) похож на DALI тем, что тоже разбивает каждую структуру на ряд фрагментов, которые затем пытается заново собрать в полное выравнивание. Серия попарных сочетаний фрагментов, называемых AFP (англ. aligned fragment pairs — пары выровненных фрагментов), используется для задания матрицы сходства, через которую прокладывается оптимальный путь для определения конечного выравнивания. Путь, соответствующий выравниванию, рассчитывается как оптимальный путь через матрицу сходства с помощью линейного прохода через последовательности, расширяя выравнивание следующей возможной AFP с высоким счётом. Только те AFP, которые удовлетворяют заданным критериям локального сходства, включаются в матрицу, что сокращает необходимое пространство поиска и увеличивает эффективность[33].

Подобно DALI или SSAP, CE использовался для создания базы данных классификации укладок на основе известных пространственных структур белков из PDB[34].

Примечания

[править | править код]
  1. Mount DM. Bioinformatics: Sequence and Genome Analysis (англ.). — 2nd. — Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY., 2004. — ISBN 0-87969-608-7.
  2. 1 2 Basic Local Alignment Search Tool (BLAST) // Bioinformatics and Functional Genomics. — Hoboken, NJ, USA: John Wiley & Sons, Inc.. — С. 100—138. — ISBN 9780470451496, 9780470085851.
  3. Bill MacCartney, Michel Galley, Christopher D. Manning. A phrase-based alignment model for natural language inference // Proceedings of the Conference on Empirical Methods in Natural Language Processing - EMNLP '08. — Morristown, NJ, USA: Association for Computational Linguistics, 2008. — doi:10.3115/1613715.1613817.
  4. Julie D. Thompson, Desmond G. Higgins, Toby J. Gibson. CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice // Nucleic Acids Research. — 1994. — Т. 22, вып. 22. — С. 4673—4680. — ISSN 1362-4962 0305-1048, 1362-4962. — doi:10.1093/nar/22.22.4673.
  5. INDEL Mutation - MeSH - NCBI. www.ncbi.nlm.nih.gov. Дата обращения: 29 апреля 2019.
  6. Aligned FASTA Format. www.cgl.ucsf.edu. Дата обращения: 29 апреля 2019. Архивировано 24 января 2021 года.
  7. Alignment Formats. emboss.sourceforge.net. Дата обращения: 30 апреля 2019. Архивировано 24 июня 2018 года.
  8. Bioinformatics Tools FAQ - Job Dispatcher Sequence Analysis Tools - EMBL-EBI. www.ebi.ac.uk. Дата обращения: 23 апреля 2019. Архивировано 23 апреля 2019 года.
  9. 1 2 3 4 A. M. Waterhouse, J. B. Procter, D. M. A. Martin, M. Clamp, G. J. Barton. Jalview Version 2--a multiple sequence alignment editor and analysis workbench (англ.) // Bioinformatics. — 2009-05-01. — Vol. 25, iss. 9. — P. 1189—1191. — ISSN 1460-2059 1367-4803, 1460-2059. — doi:10.1093/bioinformatics/btp033. Архивировано 24 октября 2017 года.
  10. Colour Schemes. www.jalview.org. Дата обращения: 23 апреля 2019. Архивировано 26 апреля 2019 года.
  11. 1 2 Mikhail Fursov, Olga Golosova, Konstantin Okonechnikov. Unipro UGENE: a unified bioinformatics toolkit (англ.) // Bioinformatics. — 2012-04-15. — Vol. 28, iss. 8. — P. 1166—1167. — ISSN 1367-4803. — doi:10.1093/bioinformatics/bts091. Архивировано 30 апреля 2019 года.
  12. Koichiro Tamura, Joel Dudley, Masatoshi Nei, Sudhir Kumar. MEGA: A biologist-centric software for evolutionary analysis of DNA and protein sequences (англ.) // Briefings in Bioinformatics. — 2008-07-01. — Vol. 9, iss. 4. — P. 299—306. — ISSN 1467-5463. — doi:10.1093/bib/bbn017. Архивировано 30 апреля 2019 года.
  13. Thomas D. Schneider, R.Michael Stephens. Sequence logos: a new way to display consensus sequences // Nucleic Acids Research. — 1990. — Т. 18, вып. 20. — С. 6097—6100. — ISSN 1362-4962 0305-1048, 1362-4962. — doi:10.1093/nar/18.20.6097.
  14. Erik L.L. Sonnhammer, Richard Durbin. A dot-matrix program with dynamic threshold control suited for genomic DNA and protein sequence analysis (англ.) // Gene[англ.]. — Elsevier, 1995-12. — Vol. 167, iss. 1—2. — P. GC1—GC10. — ISSN 0378-1119. — doi:10.1016/0378-1119(95)00714-8. Архивировано 2 декабря 2008 года.
  15. 1 2 3 Valery O Polyanovsky, Mikhail A Roytberg, Vladimir G Tumanyan. Comparative analysis of the quality of a global algorithm and a local algorithm for alignment of two sequences (англ.) // Algorithms for Molecular Biology. — 2011. — Vol. 6, iss. 1. — P. 25. — ISSN 1748-7188. — doi:10.1186/1748-7188-6-25. Архивировано 23 апреля 2019 года.
  16. 1 2 Pairwise Sequence Alignment Tools < EMBL-EBI. www.ebi.ac.uk. Дата обращения: 23 апреля 2019. Архивировано 12 апреля 2019 года.
  17. Aloysius J. Phillips. Homology assessment and molecular sequence alignment // Journal of Biomedical Informatics. — 2006-02. — Т. 39, вып. 1. — С. 18—33. — ISSN 1532-0464. — doi:10.1016/j.jbi.2005.11.005.
  18. M. C. Frith. Finding functional sequence elements by multiple local alignment (англ.) // Nucleic Acids Research. — 2004-01-02. — Vol. 32, iss. 1. — P. 189—200. — ISSN 1362-4962. — doi:10.1093/nar/gkh169. Архивировано 22 июля 2017 года.
  19. M. Brudno, S. Malde, A. Poliakov, C. B. Do, O. Couronne. Glocal alignment: finding rearrangements during alignment // Bioinformatics. — 2003-07-03. — Т. 19, вып. Suppl 1. — С. i54—i62. — ISSN 1460-2059 1367-4803, 1460-2059. — doi:10.1093/bioinformatics/btg1005.
  20. BLAST: Basic Local Alignment Search Tool. blast.ncbi.nlm.nih.gov. Дата обращения: 23 апреля 2019. Архивировано 21 августа 2020 года.
  21. W. R. Pearson, D. J. Lipman. Improved tools for biological sequence comparison (англ.) // Proceedings of the National Academy of Sciences. — National Academy of Sciences, 1988-04-01. — Vol. 85, iss. 8. — P. 2444—2448. — ISSN 1091-6490 0027-8424, 1091-6490. — doi:10.1073/pnas.85.8.2444.
  22. J. Thompson. The CLUSTAL_X windows interface: flexible strategies for multiple sequence alignment aided by quality analysis tools // Nucleic Acids Research. — 1997-12-15. — Т. 25, вып. 24. — С. 4876—4882. — ISSN 1362-4962. — doi:10.1093/nar/25.24.4876.
  23. R. C. Edgar. MUSCLE: multiple sequence alignment with high accuracy and high throughput // Nucleic Acids Research. — 2004-03-08. — Т. 32, вып. 5. — С. 1792—1797. — ISSN 1362-4962. — doi:10.1093/nar/gkh340.
  24. Zhang Y., Skolnick J. The protein structure prediction problem could be solved using the current PDB library. (англ.) // Proceedings of the National Academy of Sciences of the United States of America. — 2005. — Vol. 102, no. 4. — P. 1029—1034. — doi:10.1073/pnas.0407152101. — PMID 15653774. [исправить]
  25. Zhang, Y.; Skolnick, J. Automated structure prediction of weakly homologous proteins on a genomic scale (англ.) // Proceedings of the National Academy of Sciences of the United States of America : journal. — 2004. — May. — doi:10.1073/pnas.0305695101. — PMID 15126668. — PMC 419651.
  26. GL Hura; AL Menon. Robust, high-throughput solution structural analyses by small angle X-ray scattering (SAXS) (англ.) // Nature Methods : journal. — 2009. — July. — doi:10.1038/nmeth.1353. — PMID 19620974. — PMC 3094553.
  27. Cohen, F.E; Sternberg, M.J. On the prediction of protein structure: the significance of the root-mean-square deviation (англ.) // Journal of molecular biology[англ.] : journal. — 1980. — doi:10.1016/0022-2836(80)90289-2. — PMID 7411610.
  28. Zemla A. LGA: A method for finding 3D similarities in protein structures. (англ.) // Nucleic acids research. — 2003. — Vol. 31, no. 13. — P. 3370—3374. — PMID 12824330. [исправить]
  29. Godzik A. The structural alignment between two proteins: is there a unique answer? (англ.) // Protein science : a publication of the Protein Society. — 1996. — Vol. 5, no. 7. — P. 1325—1338. — doi:10.1002/pro.5560050711. — PMID 8819165. [исправить]
  30. Liisa Holm; Laura M. Laakso. Dali server update (англ.) // Nature Methods : journal. — 2016. — 29 April. — doi:10.1093/nar/gkw357. — PMID 27131377. — PMC 4987910.
  31. Holm L., Sander C. Dali/FSSP classification of three-dimensional protein folds. (англ.) // Nucleic acids research. — 1997. — Vol. 25, no. 1. — P. 231—234. — PMID 9016542. [исправить]
  32. Holm L., Park J. DaliLite workbench for protein structure comparison. (англ.) // Bioinformatics. — 2000. — Vol. 16, no. 6. — P. 566—567. — PMID 10980157. [исправить]
  33. Shindyalov I. N., Bourne P. E. Protein structure alignment by incremental combinatorial extension (CE) of the optimal path. (англ.) // Protein engineering. — 1998. — Vol. 11, no. 9. — P. 739—747. — PMID 9796821. [исправить]
  34. Prlic A., Bliven S., Rose P. W., Bluhm W. F., Bizon C., Godzik A., Bourne P. E. Pre-calculated protein structure alignments at the RCSB PDB website. (англ.) // Bioinformatics. — 2010. — Vol. 26, no. 23. — P. 2983—2985. — doi:10.1093/bioinformatics/btq572. — PMID 20937596. [исправить]