FANTOM (англ. FANTOM — Functional Annotation of the Mammalian Genome, рус. Функциональная аннотация геномов млекопитающих) — международный исследовательский консорциум, основанный доктором Хаяшизаки[1] и его коллегами в 2000 году с целью функционального аннотирования[англ.] полноразмерных кДНК, которые были собраны в ходе проекта Mouse Encyclopedia[2] в научном центре RIKEN. С тех пор FANTOM стал самостоятельным и развитым проектом, который затрагивает разные сферы анализа транскриптомов. Цель проекта — прийти от понимания «элементов» — транскриптов к понимания «системы» — транскрипционной регуляторной сети[3].
The RIKEN Mouse Gene Encyclopaedia Project[2] — проект, методы которого позволяют определить содержит ли геном мыши кодирующую ДНК. В ходе данного проекта, работа которого началась в 1995 году, была получена коллекция последовательностей полноразмерных кДНК с последующим картированием соответствующих генов на геноме мыши. Следствием этого проекта стало основание ассоциации FANTOM в 2000 году с целью аннотирования первых 21076 кДНК. Эта коллекция кДНК стала одной из крупнейших для какого-либо организма на тот момент. Анализ этих кДНК расширил уже существующие семейства генов[англ.] и определил новые[4].
В ходе первого этапа работы консорциума была разработана эффективная система функциональной аннотации генов, основанная на разработанных de novo правилах и методах. Основные результаты были опубликованы в журнале Nature в 2001 году[4].
Данный протокол, разработанный в ходе проекта Mouse Encyclopedia[2], является усовершенствованной версией существовавшего на тот момент метода получения полноразмерных кДНК. Данные, полученные этой технологией, были проаннотированы в рамках проекта FANTOM1[5]. Общий вид последовательных стадий можно представить следующим образом[6]:
Раньше одной из самых больших трудностей получения полноразмерных кДНК являлась неэффективность работы ревертазы при синтезе второй цепи. Было показано, что добавление трегалозы значительно увеличивает термостабильность и активность фермента. Это открытие позволило проводить ревертазные реакции при 60 °C вместо 42 °С, как раньше. При температуре 60 °C вторичная структура РНК из образца подплавляется и участок на 5'-конце мРНК становится доступным для транскрипции[7].
Метод разработан для селекции только полноразмерных кДНК. Сначала кэп, который есть на 5'-конце всех эукариотических мРНК биотинилируется. Затем происходит обратная транскрипция, и одноцепочечнаяРНК подвергается деградации. Если траскрипция кДНК прервалась, то после расщепления одноцепочечных участков биотин на их 5'-конце будет отсутствовать. Оставшиеся полноразмерные кДНК с биотинилированным кэпом «вылавливаются» стрептавидиновыми бусинами. Затем в щелочной среде цепи ДНК элюируются[англ.] и производится достраивание второй цепи ДНК[8].
Проблема того, что короткие мРНК более вероятно будут иметь больше клонов, чем более длинные, была решена разработкой нового вектора, подходящего для клонирования кДНК размером от 6 тысяч пар оснований (п. о.) до 20 кб, — λFlcIII-L. Этот вектор был усовершенствован (фоновое лигирование снижено практически до нуля) и назван λFlcIV. Именно он использовался для клонирования[9].
Так как от 50 до 60 % всей РНК клетки соответствуют генам домашнего хозяйства, то для оценки относительно низкого уровня РНК необходимо нормализовать библиотеки[англ.] частоты встречаемости конкретных кДНК[9].
После первого съезда консорциума FANTOM, группа из RIKEN продолжила создание мышиных полноразмерных кДНК. В ходе второй фазы были определены последовательности и созданы функциональные аннотации для этого набора из 60770 полноразмерных кДНК мыши. Это стало первым всемирным проектом по стандартизации полноразмерных кДНК млекопитающих[10].
Проект FANTOM2[11] можно подразделить на три этапа: собрания «Typhoon», телеконференции MATRICS и собрания «Cherry Blossom».
Собрание «Typhoon» было проведено 15—19 октября 2001 года. Обсуждались стратегии и правила аннотации для более эффективного аннотирования с использованием информации о профилях экспрессии, картирования и данных о белок-белковых взаимодействиях, а также традиционного выравнивания последовательностей. В качестве тестовой выборки для встречи «Typhoon» FANTOM2 были подготовлены и проанализированы 46000 последовательностей[12].
MATRICS (от англ. Mouse Annotation Teleconference for RIken CDNA Sequences) — телеконференция, в ходе которой кураторы аннотировали последовательности кДНК из RIKEN через Интернет, используя систему защищённых серверов и систему FANTOM[13] .
После MATRICS была проведена встреча «Cherry Blossom» (с 29 апреля по 4 мая 2002 года) для доклада и обсуждения результатов функциональных аннотаций и биологически интересных находок[10].
По результатам была опубликована статья в журнале Nature в 2002 году[14].
Аналогично двум другим этапам были проведены встречи до начала работы (Tanabata Meeting: 04.07 — 08.07.2004, RIKEN, GSC, Япония) и после окончания работы проекта (Harvest Meeting: 10.09 — 15.09.2004, RIKEN, Япония)[15].
В FANTOM3[16] для получения данных, которые раскрывают динамическое регулирование транскриптома, была изменена стратегия аннотации[17]. В частности, были подготовлены новые наборы данных для:
Таким образом, помимо подготовления новых данных для более функционального анализа транскриптома, идентификации и аннотирования новых и низкоуровневых мРНК, конечной целью FANTOM3 было функционально аннотировать сложность транскриптома (определить разнообразие транскриптов), идентифицировать стартовые сайты инициации транскрипции, сайты терминации транскрипции, а также промоторы. Ещё одним аспектом понимания сложности транскриптома было осмысление некодирущих РНК, которые составляют до половины транскриптома. В новвовведения входили также технологии CAGE, GIS (от англ. Gene Identification Signature) и GSC (от англ. Genome Signature Cloning)[18].
103000 полноразмерных кДНК были аннотированы в ходе телеконференции MATRICS-RELOADED, аналогичной MATRICS FANTOM2. В телемосте участвовало свыше 100 учёных со всего мира[15]. Функциональные аннотации полноразмерных кДНК можно найти на сервере FANTOM3[19].
Технология кэп-анализа экспрессии генов (CAGE) позволяет проводить высокопроизводительный анализ экспрессии генов, получать профили участков транскрипции[15].
Применение новой технологии CAGE показало, что более чем 63 % генома (а не около 1,5 % белок-кодирующих экзонов, как считалось ранее) транскрибируется с образованием РНК. Также было обнаружено более 23000 некодирующих РНК и что более 73 % генов могут подвергаться смысловой и антисмысловой транскрипции. Также был начат анализ кДНК и профилей экспрессии генов человека[20][21].
Для работы четвёртой фазы проекта динамические паттерны экспрессии генов мРНК, микроРНК и активности промоторов были измерены для дифференцирующихся клеток миелоидной лейкемии человека — клеточной линии[англ.] THP-1[англ.][22].
Во время работы этого этапа для мониторинга динамики использования точек инициации транскрипции (англ. transcription start site, TSS) в ходе клеточной дифференцировки использовалась технология deepCAGE[23]. Для построения модели транскрипционной регуляторной сети были использованы предсказанные сайты связывания транскрипционных факторов и данные об уровнях активности промоторов. Благодаря этому стало возможным предсказывать регуляторные границы (EDGES) между транскрипционным фактором и целевым промотором, делать выводы о регуляции транскрипции с исследуемого промотора определённым транскрипционным фактором. На основе этих данных была разработана EDGE EXPRESS DB[24], в которой можно найти регуляционные сети одного или нескольких интересующих генов[25].
Также были созданы геномные браузеры[англ.][26] для графического отображения в геноме мыши или человека важных мест, таких как промоторы, экзоны, места ацетилирования гистона H3[англ.] (H3K9ac[англ.]) и сайты связывания транскрипционных факторов[27][28].
Информация в этом разделе устарела. |
Эта стадия проекта по поиску общих правил клеточной дифференциации, полностью основанная на опыте предыдущих стадий, на 2020 год еще продолжается. Главной целью является систематическое исследование наборов генов, используемых при кодировании большинства типов клеток. Создаётся карта основных промоторв человека и относительная модель транскрипционной сети регуляции каждого клеточного состояния. Для этого используется deepCAGE[23] секвенирование РНК, выделенных из всех основных органов человека и более 200 раковых клеточных линий[29].
В ходе первой фазы были получены карты для наборов транскриптов, транскрипционных факторов, промоторов и энхансеров, активных в большинстве первичных клеток млекопитающих и части раковых клеточных линий[30][31]. Примерно 30 публикаций этой фазы проекта описывают такие разные результаты, как первичные клетки, семейства генов, полногеномные исследования и новые биоинформатические инструменты[29].
В ходе второй фазы сравнительный анализ уровней РНК в разных типах клеток показал, что когда клетка дифференцируется, первичная активация этого процесса случается в энхансерных участках ДНК[32][33].
Существуют серьёзные споры о том, являются ли тысячи длинных некодирующих РНК, транскрибируемые с наших геномов, функциональными или просто побочными продуктами шумового транскрипционного механизма. Учёные из консорциума FANTOM5 под руководством RIKEN использовали технологию, известную как CAGE, для создания атласа длинных некодирующих РНК человека с точными 5'-концами и суммировали их паттерны экспрессии по основным типам клеток. При публикации после пересечения этого атласа экспрессии с другими генетическими и геномными наборами данных (другими атласами экспрессии) авторы предположили, что многие из этих длинных некодирующих РНК могут быть функциональными, так как были показаны пересечения атласов[34].
CAGE в большой коллекции первичных типов клеток показал, что многие промоторы млекопитающих представляют собой составные объекты, состоящие из множества близко расположенных точек инициаций транскрипций, с независимыми профилями экспрессии, специфичными для типа клеток. Атлас экспрессии, ориентированный на промотор FANTOM5[29], обеспечивает профили экспрессии для большинства кодирующих и некодирующих транскриптов в геномах человека и мыши[30].
С помощью FANTOM5[29] был получен транскриптом свежеизолированных тучных клеток кожи человека. Тучные клетки уникальны в гемопоэтической линии и только отдалённо связаны с базофилами. Было показано, что тучные клетки экспрессируют BMP-рецепторы и что BMP может способствовать выживанию и восстановлению после стимуляции тучных клеток человека[35].
В настоящее время проводится исследование FANTOM6, целью которого является систематическая характеристика роли днкРНК в геноме человека. Биологическая функция этих больших (более 200 нуклеотидов) и нетранслируемых РНК в значительной степени неизвестна. На основании нескольких работ, посвященных днкРНК, считается, что они участвуют в регуляции транскрипции, трансляции, посттрансляционных модификациях и эпигенетических метках. Однако текущие знания о масштабах и диапазоне этих предполагаемых регуляторных взаимодействий являются рудиментарными.
Этот раздел статьи ещё не написан. |
Интерактивные базы данных (interactive viewer, data exporter) и все файлы за время работы всех стадий проекта находятся в свободном доступе в общей базе данных FANTOM[36].
Все полноразмерные кДНК клоны доступны в Dnaform, Invitrogen, RZPD и Gene Service[37][38][39].