Эта статья входит в число добротных статей

KEGG

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
KEGG
Содержимое
Описание Биоинформатический ресурс для анализа биологических и медицинских данных.
Организмы Все
Контакты
Исследовательский центр Киотский университет
Лаборатория Kanehisa Laboratories
Оригинальная публикация PMID 10592173
Дата выпуска 1995
Доступность
Сайт kegg.jp, genome.jp/kegg/ (зеркало)

KEGG (Kyoto Encyclopedia of Genes and Genomes — Киотская энциклопедия генов и геномов) — веб-ресурс, предоставляющий доступ к ряду биологических баз данных и инструментам для анализа биологических и медицинских данных, созданный в 1995 году[1][2][3][4][5][6] в рамках проекта «Геном человека». С момента создания интегрированная база данных KEGG значительно расширилась и на данный момент (2017) насчитывает шестнадцать баз данных[6], для удобства поиска разделенных на четыре категории: системная информация (данные о метаболических путях, модулях генов и т. д.), геномная информация (данные об отдельных генах, геномах различных существ, ортологичных группах), химическая информация (данные о химических реакциях, происходящих в живых организмах) и информация, связанная непосредственно со здоровьем человека (данные о человеческих болезнях, лекарствах и т. д.). Также KEGG предоставляет ряд инструментов для удобной работы с базами данных и анализа хранящейся в них информации[6].

Веб-ресурс KEGG[7][8] был создан в 1995 году[6] в Японии при поддержке Kanehisa Laboratories[9]. Базы данных KEGG непрерывно обновляются и дополняются. Главной целью проекта KEGG является интеграция полученной геномной информации, данных о биологических и химических процессах, происходящих в живых организмах, знаний о человеческих болезнях и открытых лекарствах в единое целое для понимания высокоуровневой организации различных биологических систем, таких как клетка, организм или целая экосистема.

История создания и развития KEGG

[править | править код]

Проект KEGG был инициирован в 1995 году[1][2][5][6] в рамках японского проекта «Геном человека». Появление KEGG было обусловлено необходимостью создания справочной базы данных для биологической интерпретации информации, закодированной в геномах различных существ, в том числе и человека. Развитием веб-ресурса и его техническим обеспечением занимается организация Kanehisa Laboratories, находящаяся под началом профессора киотского университета Минору Канехиса (Minoru Kanehisa)[10].

Изначально KEGG был разработан как веб-ресурс, предоставляющий доступ к базам данных для биологической интерпретации полностью упорядоченных геномов и создания карт путей в клетках живых организмов[2]. В 1995 г. KEGG содержал всего четыре базы данных: PATHWAY, GENES, COMPOUND и ENZYME, а отображение содержащихся в KEGG карт путей производилось через базу ENZYME, поскольку в базе данных содержались только карты метаболических путей. Позже хранилище данных KEGG значительно расширилось. База PATHWAY была дополнена базами BRITE и MODULE; к базе GENES добавилась база GENOME; COMPOUND была дополнена базами GLYCAN и REACTION, а база ENZYME была заменена базой KO (KEGG Orthology) для удобного картирования путей в KEGG. Последовательность появления баз данных, представленных на сайте KEGG, приведена в Таблице 1[6].

Таблица 1. Последовательность появления баз данных KEGG
Год релиза База данных Идентификатор объектов
1995 KEGG PATHWAY map number
KEGG GENES locus_tag / GeneID
KEGG ENZYME EC number
KEGG COMPOUND C number
1998 KEGG REACTION R number
2000 KEGG GENOME organism code / T number
2002 KEGG ORTHOLOGY K number
2003 KEGG GLYCAN G number
2004 KEGG RPAIR RP number (Discontinued in 2016)
2005 KEGG BRITE br number
KEGG DRUG D number
2007 KEGG MODULE M number
2008 KEGG DISEASE H number
2010 KEGG ENVIRON E number
KEGG RCLASS RC number
2014 KEGG DGROUP DG number

KEGG широко используется для анализа не только геномных данных, но и для исследования транскриптома, протеома, гликома, метаболома и метагенома различных живых организмов, в том числе и человека[4][5].

База данных

[править | править код]

Архитектура веб-сайта KEGG

[править | править код]

Доступ к данным, хранящимся на KEGG, осуществляется с помощью веб-сайта KEGG[7]. Главная страница сайта содержит список ссылок на основные базы данных KEGG, вторичные базы данных, созданные для удобного поиска, и различные инструменты для анализа биологических и медицинских данных. Представленные ссылки указывают на страницы с подробным описанием каждой базы данных/инструмента и с интерфейсом поиска/работы. По ссылке KEGG2[11] располагается страница с полным перечнем всех баз данных и программных средств ресурса KEGG, в том числе те, которые доступны на сайте GenomeNet (базы данных: MGENOME, MGENES, EXPRESSION и OC; инструменты анализа: BLAST/FASTA, KAAS, SIMPCOMP и т. д.). Поиск данных на сайте KEGG можно осуществлять разными способами: непосредственно в основных базах данных (таблица 2), по субъектам (таблица 3) и по организмам. Поиск по субъектам и по организмам осуществляется с помощью интерфейсов, специально созданных для упрощения работы с базами данных[1].

Таблица 2. Основные базы данных KEGG
Категория База данных Содержание
Системная информация(Systems information) KEGG PATHWAY Карты метаболических и регуляторных путей
KEGG BRITE Классификация биологических объектов и явлений
KEGG MODULE Модули (функциональные единицы) генов и путей
Геномная информация (Genomic information) KEGG ORTHOLOGY (KO) Семейства ортологичных генов
KEGG GENOME Секвенированные геномы различных живых организмов
KEGG GENES Последовательности генов и белков
KEGG SSDB Выявленные сходства генных последовательностей
Химическая информация (Chemical information) KEGG COMPOUND Данные о малых молекулах
KEGG GLYCAN Информация об известных гликанах (полисахаридах)
KEGG REACTION Информация об известных биохимических реакциях в живых организмах
KEGG RCLASS Классы химических реакций в живых организмах
KEGG ENZYME Номенклатура известных ферментов
Информация, связанная со здоровьем человека (Health information) KEGG DISEASE Информация обо всех известных человеческих болезнях
KEGG DRUG Данные об открытых лекарствах
KEGG DGROUP Существующие группы лекарств
KEGG ENVIRON Вещества, связанные со здоровьем человека
Таблица 3. Поиск по субъектам.
База данных Описание
KEGG Cancer Поиск по различным типам рака
KEGG Pathogen Поиск по болезням и патогенам
KEGG Virus Поиск по вирусам
KEGG Plant Поиск по растениям
KEGG Glycan Поиск по гликанам
KEGG Annotation Поиск по KO-аннотации генов и белков
KEGG RModule Строение метаболических путей
KEGG SeqData Поиск по коллекциям секвенированных данных

Основные базы данных KEGG

[править | править код]

Хранилище данных веб-ресурса KEGG включает 16 баз данных, разделенных на 4 категории, как показано в Таблице 2[12].

Категория «Systems information» включает в себя три базы данных: PATHWAY, BRITE and MODULE. Она содержит базовые знания о высокоуровневых системных функциях клеток и организмов в целом, включая разные клеточные процессы, в том числе метаболизм, функции организма и человеческие болезни. База данных ORTHOLOGY из категории «Genomic information» содержит информацию о функциях клеток на молекулярном уровне. Раздел «Genomic information» также содержит базы GENOME и GENES, данные в которых частично получены из баз данных RefSeq, Genbank and NCBI Taxonomy. SSDB является вспомогательной базой данных, которая используется в основном для аннотации базы GENES. Категория «Chemical information» включает базы данных COMPOUND, GLYCAN, REACTION, RCLASS и ENZYME, в которых хранится информация об известных химических реакциях в живых организмах и о веществах, участвующих в различных процессах. Категория «Health information» содержит базы DISEASE, DRUG, DGROUP and ENVIRON, а также две внешние базы данных с обозначениями лекарств: японские названия лекарств, полученные из базы JAPIC и обозначения FDA, полученные из DailyMed[2].

Системная информация

[править | править код]

Центром ресурса является энциклопедия метаболический путей KEGG PATHWAY[13]. Это база данных, содержащая данные о генных продуктах, связанных в сети белок-белковых взаимодействий, сети ферментов и регуляторов генов. База данных PATHWAY представлена в виде диаграмм, называемых картами, соответствующих определённым сетям. Существуют карты для клеточных и организменных функций. Данные представлены в виде графических диаграмм, включающих большинство метаболических путей и некоторые из наиболее известных регуляторных путей. В KEGG есть интерактивные схемы клеточных процессов (метаболических реакций, процессов мембранного транспорта, передачи сигналов и др.), метаболические сети и сети белок-белковых взаимодействий.

Карты делят на следующие группы[2]:

  • метаболизм (добавлены секции «Биосинтез и метаболизм гликанов» и «Биосинтез нерибосомных пептидов»),
  • обработка генетической информации (транскрипция, трансляция, репликация, репарация и т. д.),
  • взаимодействие с окружающей средой (мембранный транспорт, передача сигналов и т. д.),
  • клеточные процессы (процессы роста и деления клетки, клеточная смерть, функции клеточных мембран и т. д.),
  • организменные системы (иммунная система, эндокринная система, нервная система и т. д.),
  • заболевания человека,
  • разработка лекарств.

Сопоставление крупномасштабных наборов геномных, транскриптомных, протеомных или метаболомных данных картам путей KEGG PATHWAY для биологической интерпретации высокоуровневых систематических функций осуществляется с помощью инструментов KEGG PATHWAY Mapping: Search Pathway, Search&Color Pathway, Color Pathway[6].

KEGG BRITE — это тотальное структурированное формализованное описание объектов и явлений биологии, отраженных в базах KEGG. До 2005 года BRITE существовал как отдельная база данных, впоследствии включённая в проект KEGG. База данных KEGG BRITE отражает онтологию — иерархическую классификацию биологических сущностей, к числу которых относятся гены, белки, организмы, патологии, лекарственные препараты, химические соединения и т. п. KEGG BRITE представлена в виде иерархической структуры различных данных, например, геномных и химических (KEGG orthology (KO) и Reaction classification (RC))[4].

Иерархия BRITE[14]:

  • Иерархия сетей (Network hierachy)
  • Белковые семейства (Protein families)
  • Соединения (Compounds)
  • Взаимодействия соединений (Compound interactions)
  • Лекарственные препараты (Drugs)
  • Заболевания человека (Diseases)
  • Организмы (Organisms)

KEGG MODULE[5] — это коллекция оформленных вручную функциональных единиц, называемых модулями KEGG, которые используются для аннотации и биологической интерпретации отсеквенированных геномов. В этой базе лежат метаболические схемы с высоким разрешением, изображающие функциональные подпути, характерные для определённых таксонов, и молекулярные комплексы, встречающиеся в этих процессах. Представлены 4 типа модулей[5]:

  • модули в метаболических и регуляторных путях, представляющие узкие функциональные единицы в метаболомных картах путей KEGG;
  • структурные комплексы, часто образующие молекулярные механизмы;
  • функциональные сеты — иные виды основных комплексов;
  • модули-сигнатуры, представляющие собой маркеры фенотипа, по которым, например, можно определить, имеется ли у организма тот или иной метаболический путь.

Все модули имеют вид комбинации M- и K-номеров. Например, сигнатурный модуль для ассимиляции сульфата определяется следующим образом: (K14708,M00185)+M00176[15].

Геномная информация

[править | править код]

KO (KEGG ORTHOLOGY) — идентификаторы ортологичных генов, с помощью которых классифицируются любые гены и сети. Каждой записи KO присваивается идентификатор K, позволяющий связать геномную информацию из KEGG GENES и данные из KEGG PATHWAY. Каждый идентификатор KO представляет собой группу гомологичных по последовательности генов. Степень гомологии зависит от рассматриваемого пути. Использование записей KO позволяет стандартизовать форму записи, используемую в картах взаимодействий KEGG, BRITE иерархиях и KEGG MODULES. Например, когда разрабатывают карту взаимодействий для определённого организма, проводят работу по присваиванию белкам и генам на карте идентификаторов K. Группа гомологии KO соответствует подграфу графа SSDB. Аннотация генома осуществляется за счёт модификации этого подграфа при помощи KOALA (KEGG Orthology And Links Annotation). Эта программа оценивает гомологию последовательностей, лучшие соответствия и таксономические группы для каждого гена при помощи таблицы GFIT, полученной из SSDB[5].

Структура KO[16]:

  • 01100 Метаболизм (Metabolism)
  • 01200 Обработка генетической информации (Genetic information processing)
  • 01300 Взаимодействие с окружающей средой (Environmental information processing)
  • 01400 Клеточные процессы (Cellular processes)
  • 01500 Заболевания человека (Human disease)

KEGG GENOME — это коллекция организмов KEG с полногеномной последовательностью, каждый из которых идентифицирован трех или четырёхбуквенным кодом, и некоторых вирусов, имеющих отношение к болезням. KEGG GENOME дополняется коллекцией MGENOME, которая является базой метагеномных последовательностей из образцов окружающей среды[6][17].

Таблица 4. Структура KEGG Organisms.
Category DBGET (genome) Identifiers DBGET (genes) Annotation
KEGG organisms (Complete genomes) GENOME GENOMES T0 numbers / three- or four-letter organism codes GENES KOALA/manual
Viruses T4 numbers
Metagenomes MGENOME T3 numbers MGENES GhostKOALA

База KEGG GENES[5] содержит информацию о генах. Записи KEGG GENES генерируются полуавтоматически с использованием данных из GenBank, NCBI RefSeq, EMBL и других публично доступных баз данных. Затем выбранным генам присваивается номер K для записи в KO (идентификатора ортологичных генов). KEGG MGENES — коллекция дополнительных каталогов генов для метагеномов, которым автоматически присваивается номер в KO с помощью инструмента GhostKOALA с использованием GENES в качестве эталонного набора данных. Наборы вирусных геномов RefSeq также включены в KEGG GENES со стандартной процедурой аннотации[18].

SSDB (Sequence Similarity DataBase) — база данных, содержащая информацию об ортологичных и паралогичных группах генов, собранных в кластеры. Она представлена в виде графа генов, вес вершин которого определяется степенью гомологии. Всевозможные попарные сравнения геномов производятся с помощью инструмента SSEARCH, и пары генов, имеющих оценку 100 и более по алгоритму Смита-Ватермана записываются в KEGG SSDB вместе с информацией о лучших сравнениях[6].

Химическая информация

[править | править код]

Карты метаболических путей в базе KEGG PATHWAY объединяют два вида данных: о том, какие вещества претерпевают изменения и о том, какие гены кодируют ферменты, катализирующие соответствующие реакции[3].

Базы данных в данной категории вместе называются KEGG LIGAND. На сегодняшний день сюда входят KEGG COMPOUND (для химических соединений), KEGG REACTION (для химических реакций), KEGG ENZYME (для реакций из номенклатуры ферментов), KEGG GLYCAN (для гликанов) и две вспомогательные базы данных: RPAIR (выравнивания пар реагентов; патерны структурных преобразований; с помощью этой базы можно предсказывать новые реакции и новые ферменты) и RCLASS (классы реакций)[4][19].

KEGG COMPOUND содержит малые молекулы, биополимеры и другие химические вещества, которые имеют отношения к биологическим системам. Каждый элемент идентифицирован С-числом, например, C00047 для L-lysine, включая химическую структуру и соответствующую информацию, также различные ссылки на другие базы KEGG и внешние базы. В базу данных интегрирован сервис KCF (KEGG Chemical Function), позволяющий получить изображение интересующей химической структуры. Структура изображается в виде графа, в котором узлы — атомы, а рёбра — ковалентные связи. KEGG COMPOUND интегрирован с KEGG GLYCAN[4][20].

KEGG GLYCAN — база данных структур карбогидратов (углеводов). Диаграммы метаболических путей карбогидратов и сложных липидов связаны с индивидуальными структурами из KEGG GLYCAN[4][21]. Каждая запись GLYCAN идентифицируется номером G, например, G00197 для CD65. Большинство записей — структуры из банка данных CarbBank. Роль гликанов в различных клеточных процессах может рассматриваться совместно с другими картами путей в базе KEGG PATHWAY, такими как[4]:

  • сигнальные молекулы и взаимодействия,
  • клеточные взаимодействия,
  • иммунная система.

KEGG REACTION содержит схемы химических, в основном ферментативных реакций, включая все реакции, которые имеются в картах метаболических путей KEGG, а также дополнительные реакции, которые встречаются в номенклатуре ферментов. Каждая запись идентифицируется номером R и является уникальной реакцией, состоящей из наборов реагентов и продуктов, взятых из KEGG COMPOUND и KEGG GLYCAN. Схемы реакций взяты из KEGG ENZYME. Класс реакции (Reaction Class, или RC) представляет собой функционально значимые сходные группы реакций. Классы реакции отвечают модулям KEEG[4][19].

KEGG RCLASS включает классификацию реакций, основанную на химической структуры модели трансформации пар субстрат-продукт, которые представляются RDM образцами[19]. Например, R00259 — реакция, определённая следующим образом:

Если для пары реагентов определяется более чем один центр реакции, то класс реакции определяется для каждой уникальной модели RDM или уникальной комбинации RDM образцов[4][19].

KEGG ENZYME содержит номенклатуру ферментов с ресурса, связанную ссылками с базами данных KEGG[6][22].

Информация, относящаяся к здоровью человека

[править | править код]

База данных KEGG PATHWAY включает в себя также иллюстрации процессов, происходящих в биологических системах при различных патологиях. База данных KEGG DISEASE[23] представляет собой каталог генетических факторов и факторов окружающей среды, имеющих отношение к заболеваниям человека, где каждое заболевание идентифицировано H-числом. В KEGG заболевания рассматриваются в качестве возбужденных состояний молекулярной системы, а лекарства как возбудители молекулярной системы. Различные типы заболеваний, включая моногенные заболевания, мультифакторные болезни и инфекционные заболевания рассматриваются в едином виде[6][23].

Базу KEGG DRUG — всеобъемлющий информационный ресурс о лекарственных препаратах, одобренных в Японии, США и Европе, имеющих единую химическую структуру и/или иные химические компоненты, и связанные с ними таргеты, ферменты метаболизма, и другую информацию о системах молекулярных взаимодействий. Все утвержденные в Японии препараты, а также OTC препараты полностью представлены в KEGG DRUG[6].

Каждая сущность KEGG DRUG идентифицируется D-номером[24]. Каждый номер включает следующую информацию:

  • Названия, связанные с химической структурой;
  • Торговое название;
  • Связи с FDA;
  • Химическая структура, химический компонент, белковая последовательность;
  • Класс лекарства в KEGG DGROUP;
  • Терапевтическая категория, ATC-код, химическая группа в KEGG DGROUP;
  • Молекулы таргеты в контексте карты путей KEGG;
  • Иные взаимодействия молекул, включая геномные биомаркеры, CYP индукторы/ингибиторы;
  • Информация о вредоносном взаимодействии лекарственных препаратов;
  • История разработки препаратов, представленная как карта в KEGG DRUG;
  • Классификация информации о лекарствах в иерархии BRITE;
  • Связи с внешними базами данных.

KEGG DGROUP — новая база данных, разрабатываемая для структурно и функционально взаимосвязанных групп препаратов, особенно с точки зрения сетей взаимодействия препаратов. Информация представляется подобным образом, как узлы карт KEGG определяются в KO-группах, обобщая информацию об отдельных организмах, так вершины лекарственных сетевых взаимодействий могут определяться группами препаратов, обобщая информацию об отдельных лекарствах. Сущности KEGG DGROUP делятся на химические группы и все остальное. Химические группы содержат основные химические структуры с незначительными отличиями в структуре солей и состояниями гидратации. Остальное классифицируется по эффективности и иным критериям классов лекарственных препаратов[6][24].

Вещества, имеющие отношение к здоровью человека, но не являющиеся компонентами одобренных лекарственных препаратов перечислены в базе KEGG ENVIRON[6]. Данная база состоит в основном из эфирных масел и других полезных веществ, которые являются натуральными продуктами растений. Каждая сущность определяется E-числом и соответствующим ему химическим компонентом, информации об эффективности. В KEGG ENVIRON[22] выделяют три основных категории:

  • Crude drugs;
  • Essential oils;
  • Medicinal herbs.

В качестве смежного ресурса используется база KEGG COMPOUND, которая содержит вещества, загрязняющие окружающую среду, и другие вредные для здоровья человека вещества[3]:

  • Endocrine disrupting compounds;
  • Pesticides;
  • Carcinogens;
  • Natural toxins.

Примечания

[править | править код]
  1. 1 2 3 Ogata H., Goto S., Sato K., Fujibuchi W., Bono H., Kanehisa M. KEGG: Kyoto Encyclopedia of Genes and Genomes (англ.) // Nucleic Acids Research : journal. — 1999. — Vol. 27, no. 1. — P. 29—34. — PMID 9847135. — PMC 148090.
  2. 1 2 3 4 5 Kanehisa M., Goto S. KEGG: Kyoto Encyclopedia of Genes and Genomes (англ.) // Nucleic Acids Res : journal. — 2000. — Vol. 28, no. 1. — P. 27—30. — doi:10.1093/nar/28.1.27. — PMID 10592173. — PMC 102409.
  3. 1 2 3 Kanehisa M., Goto S., Kawashima S., Okuno Y., Hattori M. The KEGG resource for deciphering the genome (англ.) // Nucleic Acids Research : journal. — 2004. — Vol. 32. — doi:10.1093/nar/gkh063. — PMID 14681412. — PMC 308797.
  4. 1 2 3 4 5 6 7 8 9 Kanehisa M., Goto S., Hattori M., Aoki-Kinoshita K.F., Itoh M., Kawashima S., Katayama T., Araki M., Hirakawa M. From genomics to chemical genomics: new developments in KEGG (англ.) // Nucleic Acids Research : journal. — 2006. — Vol. 34. — doi:10.1093/nar/gkj102. — PMID 16381885. — PMC 1347464.
  5. 1 2 3 4 5 6 7 Kanehisa M., Sato Y., Kawashima M., Furumichi M., Tanabe M. KEGG as a reference resource for gene and protein annotatio (англ.) // Nucleic Acids Research : journal. — 2016. — Vol. 44. — doi:10.1093/nar/gkv1070. — PMID 26476454. — PMC 4702792.
  6. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Kanehisa M., Furumichi M., Tanabe M., Sato Y., Morishima K. KEGG: new perspectives on genomes, pathways, diseases and drugs (англ.) // Nucleic Acids Research : journal. — 2017. — Vol. 45. — doi:10.1093/nar/gkv1070. — PMID 26476454. — PMC 4702792.
  7. 1 2 Kegg.
  8. Kegg mirror.
  9. Kanehisa Laboratories. Дата обращения: 11 мая 2014. Архивировано 17 мая 2014 года.
  10. Minoru Kanehisa. Архивировано из оригинала 30 апреля 2017 года.
  11. Kegg2.
  12. Keggdb.
  13. Keggp.
  14. Keggb.
  15. Keggm.
  16. Keggo.
  17. Keggg.
  18. Kegggen.
  19. 1 2 3 4 Keggr.
  20. Keggc.
  21. Kegggly.
  22. 1 2 Kegge.
  23. 1 2 Keggd.
  24. 1 2 Keggdr.