GENCODE | |
---|---|
Содержимое | |
Описание | Энциклопедия генов и генных вариантов |
Тип данных | Аннотации генов человека и мыши в формате GTF/GFF3 |
Контакты | |
Исследовательский центр | Институт Сэнгера (Welcome Trust Sanger Institute) |
Авторы | Harrow J, et al [1] |
Дата выпуска | Сентябрь 2012 |
Доступность | |
Сайт | GENCODE |
Прочее | |
Лицензия | Открытый доступ |
Частота релизов |
Геном человека — раз в 3 месяца Геном мыши — раз в 6 месяцев |
Версия | GENCODE 43 (человеческий геном), M32 (мышиный геном) |
GENCODE — проект геномных исследований, являющийся составной частью проекта «Энциклопедия элементов ДНК» (ENCODE)[2].
GENCODE был создан в рамках пилотной фазы проекта ENCODE с целью определить и картировать все белок-кодирующие гены из библиотеки ENCODE[3]. Сейчас проект нацелен на создание энциклопедии генов и их вариантов с полным описанием их структурных характеристик в геномах человека и мыши с помощью методов вычислительного анализа, ручной аннотации и экспериментальной проверки[4].
Конечная цель проекта — создание базы аннотаций, включающей все белок-кодирующие локусы с альтернативными транскриптами[5], некодирующие локусы с обнаруженными транскриптами[6] и псевдогены[7].
В сентябре 2003 года Национальный институт исследований генома человека (NHGRI) открыл публичный исследовательский консорциум ENCODE для реализации проекта по определению всех функциональных элементов человеческого генома. Этот проект является продолжением проекта «Геном человека» (англ. The Human Genome Project)[8], запущенного в 1990 году Национальной организацией здравоохранения США (NIH). Целью проекта была расшифровка последовательности ДНК человека. В 2003 году были опубликованы результаты, и научное сообщество высказало заинтересованность в исследовании функциональных элементов генома человека для лучшего понимания механизмов развития некоторых заболеваний. Для этого и был запущен проект ENCODE. Он был разделен на три фазы: пилотная (начальная) фаза, разработка методологии и продуктивная фаза[9]. В ходе пилотной фазы планировалось исследовать около 30 Mb генома человека, а полученные результаты учесть в дальнейшем при анализе остального человеческого генома[9]. Для картирования на этот фрагмент генома известных белок-кодирующих генов был создан проект GENCODE[3].
В апреле 2005 года была выпущена первая версия GENCODE с аннотацией 44 локусов человеческого генома[3]. В ней было описано 416 известных геномных локусов, 26 новых белок-кодирующих локусов, 82 транскрибирующихся и 170 псевдогенных локусов. Во втором релизе (14 октября 2005 года) была обновлена и подтверждена информация об аннотированных раньше локусах, в основном, благодаря экспериментальным данным RACE и RT-PCR[3].
В июне 2007 года пилотная фаза ENCODE была завершена[10]. Проект был признан удачным, и институт Сэнгера (Welcome Trust Sanger Institute) получил грант от NHGRI для масштабирования проекта GENCODE[11].
В 2012 году был выпущен крупнейший релиз GENCODE 7 (на основе данных на момент декабря 2011 года), в котором была скомбинирована автоматическая аннотация Ensembl и аннотация вручную. С 2013 года GENCODE был удостоен второго гранта на продолжение работы по аннотации генома человека, а также на аннотацию мышиного генома для сравнительных исследований геномов мыши и человека[11].
В апреле 2018 года была выпущена версия GENCODE 28 (содержащая данные, обработанные до ноября 2017 года)[12].
Задачи, решавшиеся в проекте GENCODE, вставали перед научным сообществом по мере расширения познаний в области генетики. Как правило, эти задачи были связаны с уточнением определений генетических терминов и с изучением функций геномных участков, ранее не подвергавшихся близкому рассмотрению. Ниже приведены примеры интересных вопросов и тем, которые исследуются в рамках GENCODE[11].
Задача определения понятия «ген» стоит перед учеными на протяжении всего времени с тех пор, как исследователи задумались о вопросах наследственности. В 1900-х годах ген рассматривался как некая дискретная единица наследственности, затем ген стали считать основой для биосинтеза белка, а в последнее время это понятие расширили до геномного фрагмента, транскрибирующегося в РНК[13]. Хотя определение гена претерпело значительные изменения за последний век, оно осталось сложным и противоречивым предметом обсуждения для многих ученых. В ходе развития проектов ENCODE и, в частности, GENCODE, были подробнее описаны ещё более проблематичные аспекты определения — такие как альтернативный сплайсинг, межгенные участки, а также сложные паттерны рассеянной регуляции, консервативность некодирующих участков и обилие генов, продуцирующих некодирующие РНК. Поскольку глобальной целью проекта GENCODE является создание энциклопедии генов и генных вариантов, эти проблемы поставили проект перед необходимостью дать обновленное определение понятия гена[13].
Псевдогены — это белок-кодирующие (или сходные с ними) последовательности ДНК, в которых произошла делеция или сдвиг рамки считывания[14]. В большинстве геномных баз данных их упоминают как побочные продукты аннотации более привычных белок-кодирующих последовательностей. Однако недавний анализ показал, что некоторые из псевдогенов не просто экспрессируются, но и функционируют, играя роль в различных биологических процессах[15]. Чтобы разобраться со всеми сложностями описания псевдогенов, в рамках GENCODE исследователи создали онтологию псевдогенов с использованием автоматических, ручных и экспериментальных методов, чтобы связать воедино их различные свойства, в том числе свойства последовательности, эволюцию и возможную биологическую функцию[4]. Количество аннотированных псевдогенов растет с каждой новой версией GENCODE (см. Основная статистика).
Одной из ключевых областей исследования проекта GENCODE является изучение биологического значения длинных некодирующих РНК (lncRNA). Для более глубокого понимания и изучения экспрессии lncRNA у человека, в рамках GENCODE был запущен подпроект для разработки пользовательских микрочипов для количественного определения таких транскриптов в аннотации lncRNA[6]. Некоторое количество подобных платформ было создано с помощью системы Agilent Technologies eArray, они доступны в стандартном формате Аgilent[16].
Датасет длинных некодирующих РНК, представленный в GENCODE (в частности, в версии GENCODE 7), считается самым большим из всех представленных датасетов lncRNA. При этом он мало перекрывается с другими существующими датасетами[6]. Транскрипты, аннотированные как lncRNA, далее могут быть классифицированы на следующие типы на основе их положения в геноме относительно белок-кодирующих генов:
В таблице приведены институты, чье участие было анонсировано на сайте GENCODE[18].
Пилотная фаза | Масштабирование проекта | Вторая фаза (текущая) |
---|---|---|
Институт Сэнгера, Кэмбридж, Великобритания | Институт Сэнгера, Кэмбридж, Великобритания | Институт Сэнгера, Кэмбридж, Великобритания |
Муниципальный Институт Медицинских Исследований (IMIM), Барселона, Каталония | Центр геномной регуляции (CRG)[англ.], Барселона, Каталония | Центр геномной регуляции (CRG)[англ.], Барселона, Каталония |
Университет Женевы, Швейцария | Университет Лозанны, Швейцария | Университет Лозанны, Швейцария |
Калифорнийский Университет, Беркли, США | Университет Санта Круз (UCSC), Калифорния, США | Университет Санта Круз (UCSC), Калифорния, США |
Европейский Биоинформатический Институт, Хинкстон, Великобритания | Массачусетский технологический институт (MIT), Бостон США | Массачусетский технологический институт (MIT), Бостон, США |
Йельский университет, Нью-Хейвен, США | Йельский университет, Нью-Хейвен, США | |
Испанский национальный центр раковых исследований (CNIO)[англ.], Мадрид, Испания | Испанский национальный центр раковых исследований (CNIO)[англ.], Мадрид, Испания | |
Университет Вашингтона (WashU), Сент-Луис, США | Европейский Биоинформатический Институт, Кэмбридж, Великобритания |
Полнота данных в аннотациях GENCODE непрерывно растёт. Ниже приведена статистика версии GENCODE 28[19]. Эта версия соответствует выпуску Ensembl 92 и содержит аннотацию, сделанную по сборке человеческого генома GRCh38, но доступную также для сборки GRCh37).
Категории | Всего | Категории | Всего |
---|---|---|---|
Общее количество генов | 58 381 | Всего транскриптов | 203 835 |
Белок-кодирующие гены | 19 901 | Белок-кодирующие транскрипты: | 82 335 |
Гены длинных некодирующих РНК | 15 779 | - кодирующие полный белок | 56 541 |
Гены малых некодирующих РНК | 7 569 | - кодирующие фрагмент белка | 25 794 |
Псевдогены: | 14 723 | Нонсенс-опосредованно распавшиеся транскрипты | 14 889 |
- обработанные псевдогены | 10 693 | Транскрипты локусов длинных некодирующих РНК | 28 468 |
- необработанные псевдогены | 3 519 | ||
- унитарные псевдогены | 218 | ||
- полиморфные псевдогены | 38 | ||
- псевдогены | 18 | ||
Генные сегменты иммуноглобулин-T-клеточного рецептора: | 645 | Общее число различных аннотаций | 61 132 |
- белок-кодирующие сегменты | 408 | Число генов, к которым относится больше одной аннотации | 13 641 |
- псевдогены | 237 |
Сравнительная статистика четырёх основных релизов GENCODE продемонстрирована на графике справа[20].
Данные свидетельствуют о том, что покрытие генома (количество обнаруженных и аннотированных локусов) стабильно увеличивается. При этом доля белок-кодирующих генов среди аннотированных уменьшается — в основном, из-за результатов аннотирования поли(A)-сайтов и кэп-анализа экспрессии генов (CAGE)[4]. Одновременно с этим увеличивается количество псевдогенов и локусов, аннотированных как длинные некодирующие РНК.
В проекте GENCODE применялись ручная и автоматическая аннотация. При верификации результатов использовались данные лабораторных экспериментов[21].
Информация о транскриптах Ensembl, полученных при автоматической аннотации генов, основывалась на экспериментальных данных о последовательностях белков и мРНК из публичных баз данных[22]. Помимо белок-кодирующих участков, аннотировались нетранслируемые участки, длинные некодирующие РНК и короткие некодирующие РНК[4].
HAVANA (Human and Vertebrate Analysis and Annotation) — исследовательская группа, осуществляющая ручную аннотацию транскриптов в проекте GENCODE[3][4].
Помимо группы HAVANA, в состав консорциума GENCODE входило ещё несколько групп, проводивших анализ аннотированных локусов с помощью программ Ensembl и помогавших аннотаторам в идентификации пропущенных либо неверно аннотированных локусов, в том числе сайтов сплайсинга. Для обмена информацией между группами использовалась трекинговая система AnnoTrack[24]. В процессе также использовались данные экспериментов РНК-секвенирования, CAGE и Ditag[25].
Помимо официально вовлечённых в проект групп, над улучшением качества аннотации GENCODE работали независимые исследователи[26].
При объединении все модели транскриптов, полученные автоматической и ручной аннотацией, сравнивались для перекрывающихся транскриптов. Найденные расхождения детектировались с использованием системы AnnoTrack[4].
Автоматическая аннотация не всегда может считаться корректной (так, только в 45 % случаев автоматической аннотации корректно предсказываются все альтернативные транскрипты[4]). В случае несовпадения аннотаций приоритетной являлась аннотация HAVANA, так как ручная аннотация в сложных случаях предполагала анализ геномного контекста, литературы и использование экспериментальных данных Mus musculus. Тем не менее, для таких случаев сохраняется информация, полученная обоими способами аннотации[4].
Транскриптам присваивается определённый уровень поддержки на основании сравнения транскрипта GENCODE с выравниванием мРНК и маркерных экспрессирующихся последовательностей (EST), полученным из Ensembl и UCSC. В итоге аннотации каждого транскрипта делятся на определённые вручную, автоматически или слитые аннотации, то есть те, для которых и автоматический метод, и метод аннотирования вручную дали одинаковые результаты[4].
С помощью амплификации кДНК были сгенерированы двуцепочечные кДНК человеческих тканей (мозга, сердца, почки, яичка, печени, селезёнки, лёгкого и скелетной мышцы). Очищенная ДНК использовалась для создания геномной библиотеки с помощью набора Illumina «Genomic DNA sample prep kit». Библиотека была отсеквенирована на платформе Illumina Genome Analyzer 2. Риды (по 35 или 75 нуклеотидов) картировались на референсный геном человека сборки hg19 и предсказанные ампликоны с использованием программы Bowtie. Транскрипты валидировались только ридами, которые однозначно картировались на геном. Места соединений экзонов считались достоверными, если на них картировалось минимум 10 ридов, содержащими хотя бы 4 (для ридов длиной 35 нуклеотидов) или 8 (для ридов длиной 75 нуклеотидов) нуклеотидов в каждом из двух экзонов, разделённых сайтом сплайсинга[4].
Для аннотации альтернативных транскриптов генов использовался веб-сервис APPRIS (CNIO). APPRIS выбирает один вариант в качестве «главной изоформы» на основании информации о белковом продукте гена и об ортологах близких видов. APPRIS широко использовался при масштабировании проекта ENCODE и при аннотации геномов других видов (Mus sp., Danio sp., Rattus sp.)[27].
Для поиска кодирующих последовательностей в транскриптах, автоматически предсказанных на основании данных РНК-секвенирования, использовалась программа PhyloCSF. Она основывается на анализе паттернов эволюции, выравнивая транскрипт с экзонами позвоночных из UCSC (включая 33 плацентарных млекопитающих)[4].
Текущая версия набора генов человека в GENCODE включает файлы аннотаций (в форматах GTF и GFF3), FASTA-файлы и файлы METADATA, связанные с аннотацией GENCODE для всех геномных участков[12]. Они соотнесены с референсной хромосомой и хранятся в отдельных файлах, которые содержат: генную аннотацию, сайты полиаденилирования, аннотированные группой HAVANA, псевдогены, предсказанные алгоритмами Йельского университета и университета Санта-Круз (США), длинные некодирующие РНК, а также структуры тРНК, предсказанные tRNA-Scan [12].
Все гены датасета GENCODE классифицируются на три категории в соответствии с типом аннотации[4]:
Генам и транскриптам присваиваются статусы «известный», «новый» и «предполагаемый» в зависимости от их представленности в других основных базах данных и от оснований, использованных для построения составляющих их транскриптов[4].
Известный («known»): представлен в базах данных HUGO Gene Nomenclature Committee (HGNC) и RefSeq[4].
Новый («novel»): не представлен в базах HGNC или RefSeq, но хорошо подтверждается либо транскриптом, специфичным для данного локуса, либо свидетельствами его присутствия в паралогичном или ортологичном локусе[4].
Предполагаемый («putative»): не представлен в базах НGNC или RefSeq, но подтверждается признаками существования более короткого и редкого транскрипта[4].
Проект Ensembl является важной частью проекта ENCODE и представляет собой геномный браузер, позволяющий визуализировать сборку генома и все данные проекта ENCODE, в частности, аннотированные в проекте GENCODE геномные участки[28].
RGASP (The RNA-seq Genome Annotation Assessment Project) — проект, организованный в рамках консорциума GENCODE после семинара EGASP (ENCODE Genome Annotation Assessment Project) по предсказанию генов. Было проведено две сессии семинаров для анализа результатов секвенирования РНК, а также рассмотрения его различных (методических и технических) аспектов. Одной из наиболее существенных находок первых двух стадий проекта стала важность соотнесения чтения с качеством полученного предсказания гена. В 2014 году была проведена третья сессия семинаров RGASP, где основное внимание было уделено картированию чтений на геном. Проект предоставил софт для аннотации транскриптов (определение, реконструкция и расчет количества транскриптов)[29].
Эта статья входит в число хороших статей русскоязычного раздела Википедии. |