Вирівнювання послідовностей

процес у біоінформатиці, що вирівнює (ідентифікує еквівалентні сайти всередині) молекулярних послідовностей

Вирівнювання послідовностей в біоінформатиці — метод порівняння нуклеотидних (ДНК, РНК) або пептидних (білки) послідовностей шляхом знаходження схожих ділянок, що може бути наслідком функціональних, структурних або еволюційних зв'язків між послідовностями. Вирівняні послідовності нуклеотидів або амінокислотних залишків зазвичай представляються у вигляді рядків в матриці. Між залишками вставляються пропуски таким чином, що залишки з ідентичними або подібними особливостями вирівнюються в послідовних колонках.

Вирівнювання послідовностей, проведене програмою Clustal між двома людськими білками з мотивом «zinc finger», дані отримані з бази даних GenBank. (Детальніше)

Якщо дві послідовності, що вирівнюються, мають загального предка, невідповідності можуть бути інтерпретовані як точкові мутації, а пропуски — як вставки або делеції, що виникли в одній з послідовностей з того часу, як ці гени відхилилися один від одного. У вирівнюванні послідовностей білків, ступінь схожості між амінокислотами, що займають певну позицію в послідовності, може бути інтерпретований наскільки консервативним (збереженим) є цей регіон або мотив послідовності між популяціями. Відсутність замін або присутність тільки самих консервативних замін (тобто, заміна амінокислот, чиї бічні ланцюги мають подібні біохімічні властивості) в специфічній ділянці послідовності, свідчать, що ця ділянка має структурну або функціональну важливість. Хоча основи ДНК і РНК (нуклеотиди) схожі між собою більше, ніж до амінокислот, консервативність утворення пар основ може вказувати на подібний функціональний або структурний зв'язок.

Дуже короткі або дуже подібні послідовності можуть бути вирівняні вручну; проте, найцікавіші проблеми вимагають вирівнювання довгих, надзвичайно варіабельних послідовностей або надзвичайно великого їх числа, що неможливо зробити виключно людськими зусиллями. Натомість, дослідники розроблюють алгоритми, здатні здійснювати високоякісне вирівнювання послідовностей, та іноді уточнюють результати, знаходячи деталі, пошук яких важко представити алгоритмічно (особливо у разі нуклеотидних послідовностей). Обчислювальні методи вирівнювання послідовності загалом можна поділити на дві категорії: глобальні вирівнювання і місцеві вирівнювання. Обчислення глобального вирівнювання — форма глобальної оптимізації, що «вимушує» вирівнювання охопити повну довжину всіх послідовностей у запиті. На відміну від нього, місцеве вирівнювання знаходить схожі ділянки в межах довгих послідовностей, які часто сильно відрізняються на більшій частині своєї протяжності. Місцеве вирівнювання часто є бажанішим, але може бути складнішим для виконання у зв'язку з додатковими складнощами у знаходженні потенційно схожих ділянок. Зараз створені численні обчислювальні алгоритми для вирішення проблеми вирівнювання послідовностей, включаючи повільшіті, але формальні, методи оптимізації динамічного програмування і ефективні евристичні або ймовірнісні методи для пошуку в великих базах даних.

Джерела

ред.
  • Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis (вид. 2nd). Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY. ISBN 0-87969-608-7.