какие гены есть у человека
Что передается по наследству?
Вся информация о человеке — его внешности, характере, талантах и склонностях — заключена в нити ДНК, которая присутствует в ядре каждой клетки организма. Данные закодированы в 46 хромосомах: от отца и матери человек получает в наследство по 23 хромосомы. Они содержат 50 000–100 000 генов, определяющих такие особенности человека, как цвет кожи, глаз, волос, характер и т. д.
Что и как передается по наследству?
Большинство генов обладает двумя вариациями, называемыми аллелями, которые могут быть доминантными и рецессивными. Если в паре оказываются разные гены, то один из них «побеждает». Он называется доминантным, тогда как «подавленный» ген носит имя рецессивного. Когда и у отца, и у матери имеется рецессивный ген, тогда он не только передается по наследству ребенку, но и проявляется у него.
Доминантными считаются гены, отвечающие:
Рецессивные гены, передающиеся по наследству, несут в себе такие особенности внешности, как:
Например, светлый цвет глаз является мутацией гена OCA2, синий и зеленый оттенок обеспечивает ген EYCL1 хромосомы 19, карий — EYCL2. В целом, цвет глаз определяют такие гены, как OCA2, SLC24A4, TYR.
Токоферол, или витамин Е
В рядах ученых не наблюдается единой точки зрения по поводу того, можно ли забеременеть сразу после выкидыша или стоит подождать более длительный срок. Однако известно, что основная доля экспертов все же сходится во мнении, что до момента наступления новой беременности должно пройти не менее 3-6 месяцев со времени произошедшего выкидыша. Это оптимальное время для восстановления физических сил и психологического здоровья.
Мы подготовили для Вас список исследований, которые помогут разобраться с данной проблемой:
Черты характера и привычки, передающиеся по наследству
Гены, полученные от родителей, определяют не только внешность ребенка. Ученые считают, что интеллектуальные способности также могут передаваться по наследству. Конечно же, в этом играют большую роль воспитание и обучение ребенка. Художественный вкус, творческие способности, музыкальность и другие качества также переходят от родителей к детям. Что еще передается по наследству: темперамент, мимика, тембр голоса.
К сожалению, наследование касается не только положительных черт характера. Считается, что в наследство от папы и мамы малыш может получить склонность к алкоголизму, агрессии, фобиям, страхам, суицидальным наклонностям. Правильное воспитание, благоприятная атмосфера, в которой растет ребенок, и забота родителей позволяют нивелировать генетические склонности негативного характера.
Здоровье «по наследству»
Описано более 3500 заболеваний человека, обусловленных наследственностью. Ученым известны конкретные гены, «виновные» в развитии болезни, их мутации и типы нарушений, ведущих к развитию патологии. От родителей наследуются: дальтонизм, сахарный диабет первого типа, витилиго, наследственная кардиомиопатия, фенилкетонурия, бронхиальная астма, муковисцидоз, шизофрения и т. д. Наследственность определяет обмен веществ человека, особенности работы иммунной системы, уровень стрессоустойчивости и т. д.
Как узнать, что передается по наследству?
Современная наука и медицина позволяют получить информацию о генетическом наборе любого человека. Это означает, что родители могут заранее узнать, какие гены они могут передать по наследству своему ребенку. Особенно это касается генетических заболеваний и отклонений.
Кариотипирование — исследование, в ходе которого составляется карта хромосом человека. Она позволяет обнаружить перестройки и аномалии в хромосомном наборе родителей, которые могут передаться ребенку. Когда пара знает, что может передаваться по наследству, то более ответственно подходит к вопросу планирования беременности. Зная о рисках, будущая мама с готовностью проходит дородовой скрининг, чтобы убедиться в отсутствии аномалий и генетических нарушений у будущего ребенка.
В медико-генетическом центре «Геномед» проводится кариотипирование и другие исследования хромосомного набора родителей и будущего малыша. В центре также можно пройти неинвазивную и инвазивную пренатальную диагностику плода.
Сколько у нас генов?
Юлия Макарова,
кафедра биотехнологии Сеченовского университета (Москва)
«Химия и жизнь» №4, 2019
Фото: Estes Bob (flickr.com)
После того как ученые получили основную информацию о геноме человека, они попытались определить число генов, но эта задача оказалась непростой. Точное число неизвестно до сих пор, и все же оценки становятся все более достоверными.
«Геном человека» завершен, поиск генов продолжается
В 1977 году Фредерик Сэнгер разработал метод определения нуклеотидной последовательности ДНК (секвенирования), который используется и по сей день (см. «Химию и жизнь» № 8, 2018). В 1995 году был расшифрован первый геном бактерии Haemophilis influenza, в 1996 году — геном эукариотической клетки (дрожжей Saccharomyces cerevisiae), а в 1998 году — геном нематоды Caenorhabditis elegans.
Конечно, на рубеже тысячелетий все с нетерпением ждали результатов проекта «Геном человека», который продолжался с 1990 по 2003 год. Его задачей было определение нуклеотидной последовательности ДНК человека и — главное! — локализация человеческих генов (изначально предполагалось, что их около 100 000). Биомедицинская наука вот-вот должна была получить бесценный инструмент: полный список генов, необходимых для расшифровки молекулярных механизмов возникновения и развития тяжелых болезней — рака, шизофрении, деменции и многих других. О подготовке «черновой» версии генома человека торжественно объявили летом 2000 года, опубликована она была в 2001-м. «Геном человека» официально завершил свою работу в 2003 году и 27 мая 2004 года опубликовал полную последовательность генома.
«Полной» ее можно было назвать с некоторыми оговорками. Прежде всего, секвенировалась только ДНК в составе эухроматина, то есть такая ДНК, которая между делениями клетки пребывает в неплотно упакованном состоянии. Примерно 8% человеческого генома — это гетерохроматин, компактно уложенная ДНК, она приходится в основном на районы центромер и теломер (то есть концов хромосом и участков, к которым прикрепляются нити веретена деления). С другой стороны, эти 8% ДНК и менее интересны, чем остальные 92, поскольку они крайне слабо транскрибируются, то есть содержат относительно мало генов. (Напомним, что транскрипция — это синтез РНК на матрице ДНК, а что дальше происходит с РНК, разберем чуть позже.) К тому же они богаты повторами, что затрудняет сборку непрерывной последовательности из прочтенных фрагментов. «Белые пятна» в геноме человека продолжают заполнять до сих пор: на начало 2019 года разрывов все еще больше 500, и в основном это те же центромерные и концевые области хромосом. Те, кому интересно, как продвигается дело, могут следить за процессом в Сети, на сайте международной организации, которая занимается эталонными геномами, — Genome Reference Consortium.
Считалось, что секвенирование генома человека позволит определить локализацию каждого гена и их общее количество. Однако сегодня существует несколько баз данных генов, которые в значительной мере отличаются друг от друга.
С генами, кодирующими белки, удалось достичь некоторой ясности. Их оказалось гораздо меньше 100 000. В 2010 году по инициативе Организации по изучению протеома человека (HUPO — Human Proteome Organization) запущен одноименный проект — «Протеом человека», который должен составить полный список человеческих белков.
Какие факты позволяют утверждать, что определенный участок генома — это ген белка? Возможно, у нас есть белок, последовательность аминокислот в котором соответствует последовательности нуклеотидных триплетов в этом участке, и (или) имеются другие доказательства. Например, известна матричная РНК (мРНК) — молекула РНК, которая синтезируется в ходе транскрипции на матрице ДНК и, в свою очередь, становится матрицей для белка. Кстати, одна и та же мРНК может кодировать несколько белков за счет альтернативного сплайсинга — различных вариантов сшивания ее кодирующих участков. Вообще, белков у человека больше, чем белок-кодирующих генов. В рамках проекта «Протеом человека» предполагается идентифицировать и охарактеризовать не менее одного белка, считываемого с каждого гена, описать однонуклеотидные полиморфизмы (отличия в одну «букву») в этих генах, а также варианты сплайсинга мРНК и посттрансляционной модификации белков.
Однако есть и другие способы. Сейчас довольно много известно о том, какими признаками должны обладать гены белка, и существуют программы, которые ищут их in silico — в компьютере, с помощью анализа генома. Подсказкой может служить и то, что гены разных видов эукариот в силу общности эволюционного происхождения сходны между собой (гомологичны), и если мы видим последовательность, которая у другого живого существа кодировала белок, — возможно, она кодирует белок и у человека.
Данные, полученные в рамках проекта «Протеом человека», представлены в аннотированных базах знаний, таких как neXtProt. Белки делятся на пять групп, по достоверности наших сведений об их существовании — PE1, 2, 3, 4, 5 (PE означает protein existence). В марте 2019 года neXtProt содержала информацию о 17694 белках, существование которых экспериментально подтверждено, 1548 белках, для которых известны мРНК, 510 — определенных на основании гомологии с другими белками, 71 белке, предсказанном по последовательности ДНК, без других доказательств, и 576 сомнительных белках, относительно которых неясно, существуют они или нет.
Особый интерес вызывают белки, чье существование экспериментально не доказано, — так называемые потерянные (missing) белки. К этой категории относят все вышеперечисленные группы, кроме первой либо первой и последней. Для выявления и характеристики таких белков создан ресурс MissingProteinPedia.
Не только белки
Но белками все не исчерпывается. Проект «Геном человека» показал, что кроме матричных, транспортных и рибосомных РНК существует еще множество типов РНК, не менее важных для жизни.
Пока главным в картине мира был белок, внимание исследователей было сконцентрировано на мРНК, тРНК и рРНК, обслуживающих белковый синтез. Теперь в центре внимания «темная материя» регуляторных РНК, множество разнообразных молекул, без которых белок-кодирующие гены не могли бы работать как положено
РНК подразделяются на некодирующие РНК (нкРНК), которые не транслируются в белки, и кодирующие, или матричные РНК (мРНК), служащие матрицей для синтеза белков. У некодирующих РНК более сложная классификация. Они бывают инфраструктурными и регуляторными. Инфраструктурные РНК известны нам из школьных учебников — это рибосомные РНК (рРНК) и транспортные РНК (тРНК). Молекулы рРНК составляют основу рибосомы — молекулярной машины, которая и строит белок на матричной РНК (проводит трансляцию). Последовательность из трех нуклеотидов в мРНК указывает, какую аминокислоту следуют включить в белок. Молекулы тРНК приносят указанные аминокислоты на рибосомы в ходе трансляции.
Регуляторные нкРНК очень широко представлены в организме, классифицируются в зависимости от размера и выполняют важные функции (см. таблицу 1). По сравнению с генами белков, длина которых обычно измеряется в килобазах — тысячах пар нуклеотидов, а точнее, в десятках и сотнях тысяч пар, они совсем маленькие (что не облегчает поиск их генов). Но рычажку «вкл.—выкл.» и не надо быть большим.
Таблица 1. Некодирующие регуляторные РНК
Название | Длина (нуклеотиды) | Функции | |
---|---|---|---|
Длинные некодирующие РНК (днкРНК, lncRNA) | 200 | 1. Регулируют избирательное метилирование ДНК 2. Руководят избирательной посадкой на хроматин белковых комплексов, подавляющих активность генов | |
Малые РНК | |||
Малые ядерные РНК (мяРНК, snRNA) | 150 | 1. Участвуют в сплайсинге 2. Регулируют активность факторов транскрипции 3. Поддерживают целостность теломер | |
Малые ядрышковые РНК (мякРНК, snoRNA) | 60–300 | 1. Участвуют в химической модификации рРНК, тРНК и мяРНК 2. Возможно, участвуют в стабилизации структуры рРНК и защите от действия ферментов гидролаз | |
Малые интерферирующие РНК (миРНК, siRNA) | 21–22 | 1. Обеспечивают антивирусную иммунную защиту 2. Подавляют активность собственных генов | |
МикроРНК (мкРНК, miRNA) | 18–25 | Подавляют трансляцию путем РНК-интерференции | |
Антисмысловые РНК (asRNA) | 1. Короткие: менее 200 2. Длинные: более 200 | Блокируют трансляцию, образуя гибриды с мРНК | |
РНК, связанные с белками Piwi (piRNA, piwiRNA) | 26–32 | Их называют «стражами генома», они подавляют активность мобильных генетических элементов во время эмбриогенеза |
Таким образом, прежде чем ответить на вопрос: «Сколько у нас генов?», необходимо понять, что «ген» может кодировать не только белок. Собственно, это ясно уже давно. Основное внимание проекта «Геном человека» было направлено на белок-кодирующие гены. Однако уже в первом докладе о геноме, опубликованном в 2001 году, сказано, что «тысячи генов человека продуцируют некодирующие РНК (нкРНК), являющиеся их конечным продуктом», хотя на тот момент было известно лишь около 706 генов нкРНК.
Стивен Зальцберг из Университета Джонса Хопкинса в своей статье, посвященной как раз проблеме подсчета человеческих генов, дает следующее определение: «Ген — любой участок хромосомной ДНК, который транскрибируется в функциональную молекулу РНК или сначала транскрибируется в РНК, а затем транслируется в функциональный белок». Это определение включает как гены некодирующих РНК, так и белок-кодирующие гены, но исключает псевдогены — нефункциональные остатки структурных генов, утратившие способность кодировать белок.
Публикация проекта «Геном человека» 2001 года оценила количество белок-кодирующих генов в 31 000, а группа под руководством Крейга Вентера (которая успешно соперничала с международным проектом), назвала «точное» число 26 588. В 2004 году, после завершения официального проекта предполагаемое число белок-кодирующих генов снизилось до 24 000. Каталог человеческих генов Ensembl (версия 34d) на тот момент включал 22 287 белок-кодирующих генов и 34 214 транскриптов. Скорее всего, мы не ошибемся, если скажем, что генов, кодирующих белки, у человека около 20 000 или чуть больше. Но что с генами РНК?
Новое секвенирование и базы данных
Исследовать многообразие РНК не так просто по многим причинам, от их высокой лабильности до малых размеров. Однако появление высокопроизводительных методов параллельного секвенирования (когда миллионы фрагментов ДНК из одного образца читаются одновременно), оно же секвенирование нового поколения (next-generation sequencing, NGS), значительно ускорило поиск функциональных участков генома.
Различные платформы для NGS позволяют читать от миллиона до десятков миллиардов коротких последовательностей (отсеквенированные «за один проход» участки называют ридами, от английского read) длиной 50–600 нуклеотидов каждая. К наиболее популярным платформам относятся Illumina и IonTorrent, и все больше внимания привлекают к себе платформы для секвенирования единичных молекул — Pacific Biosciences, нанопоровое секвенирование Oxford Nanopore, Helicos Biosciences HeliScope (компания Helicos объявлена банкротом, но технология лицензирована другим компаниям). Последним не нужно нарабатывать много копий ДНК для секвенирования — они действительно работают с отдельными молекулами! Другой их важный плюс в том, что они позволяют прочитывать значительно более длинные риды, до 10–60 тысяч нуклеотидов. Именно благодаря этому качеству, например, метод нанопорового секвенирования с успехом применили для секвенирования богатого повторами центромерного участка Y-хромосомы человека.
Кроме того, появились методы секвенирования РНК — сначала через создание ДНК-копий, а потом и прямые. Изначально они создавались для количественного определения экспрессии генов, но также способствовали обнаружению ранее не известных РНК, как кодирующих, так и не кодирующих.
Благодаря методам NGS базы данных генов lncRNA и других РНК всего за десятилетие резко выросли, и каталоги генов человека теперь содержат больше генов РНК, чем генов белков. Кроме того, секвенирование РНК позволило установить, что альтернативный сплайсинг, альтернативное инициирование транскрипции и альтернативное прерывание транскрипции происходят гораздо чаще, чем полагали, и затрагивают до 95% человеческих генов. Следовательно, даже когда мы узнаем местоположение всех генов в геноме, нужно будет выявить все изоформы этих генов, а также определить, выполняют ли эти изоформы какие-либо функции или просто представляют собой ошибки сплайсинга.
Задача по составлению каталога всех генов по-прежнему не решена. В последние 15 лет только две исследовательские группы составляют, корректируют и пополняют список генов: RefSeq и Ensembl / Gencode. Первая поддерживается Национальным центром биотехнологической информации при Национальных институтах здравоохранения США, вторая — Европейской молекулярно-биологической лабораторией. Кстати, Gencode — подпроект консорциума ENCODE, «масштабной научной экспедиции в пустыни генома, не кодирующего белки» (см. «Химию и жизнь» № 10, 2012). В этих каталогах есть сотни различий по белок-кодирующим генам, тысячи — по генам длинных некодирующих РНК; имеются существенные расхождения и в других группах (см. таблицу 2).
Таблица 2. Количество разных типов генов в базах данных Gencode, RefSeq, CHESS
Типы генов | Gencode | RefSeq | CHESS |
---|---|---|---|
Белок-кодирующие гены | 19 901 | 20 345 | 21 306 |
Гены длинных некодирующих РНК | 15 779 | 17 712 | 18 484 |
Антисмысловые РНК | 5501 | 28 | 2694 |
Другие некодирующие РНК | 2213 | 13 899 | 4347 |
Псевдогены | 14 723 | 15 952 | — |
Общее число транскриптов (видов РНК) | 203 835 | 154 484 | 323 827 |
В 2017 году сотрудники Университета Джонса Хопкинса под руководством Стивена Зальцберга создали еще одну базу данных генов человека — CHESS. Они использовали данные глубокого секвенирования РНК, чтобы заново получить информацию о всех продуктах транскрипции в разнообразных тканях человеческого организма, и отмечают, что существенно пополнили списки генов. Примечательно, что новая база включает все белок-кодирующие гены как Gencode, так и RefSeq, поэтому пользователям CHESS не нужно решать, какую базу данных они предпочитают. Создатели CHESS отмечают, что более обширная база с большей вероятностью содержит последовательности, ошибочно отнесенные к генам, но лучше потом удалить такую последовательность, чем пропустить существующий ген.
Итак, все еще неизвестно, сколько всего генов у человека. Существуют проблемы, затрудняющие получение точного ответа. Например, многие гены (особенно гены lncRNA), видимо, имеют высокую тканеспецифичность. Во всех клетках один и тот же геном, однако в разных тканях транскрибируются различные гены, не только белков, но и регуляторных РНК. А значит, пока ученые подробно не исследуют все типы клеток человека, они не могут быть уверены, что обнаружили все человеческие гены. И все же сегодня знания о человеческих генах значительно обширнее, чем в начале проекта «Геном человека», а технологии совершеннее. Это дает надежду на то, что в скором времени мы узнаем точный ответ на поставленный вопрос. А пока ограничимся приблизительными данными: чуть более 20 тысяч генов белков, а вместе с генами РНК — возможно, 200–300 тысяч, но, может быть, и меньше.
Сколько у нас генов?
Сколько у нас генов?
Найти ответ на этот вопрос оказалось куда сложнее, чем кто-либо предполагал
Автор
Редактор
Статья на конкурс «био/мол/текст»: Это интересный вопрос, ответ на который должен был дать проект «Геном человека», завершившийся в 2003 году. После того как ученые получили основную информацию о геноме человека, они попытались определить число генов, но эта задача оказалось не такой простой. Цель настоящей статьи — суммировать и проанализировать научные данные по составлению каталога генов у человека.
Конкурс «био/мол/текст»-2018
Эта работа опубликована в номинации «Свободная тема» конкурса «био/мол/текст»-2018.
Генеральный спонсор конкурса — компания «Диаэм»: крупнейший поставщик оборудования, реагентов и расходных материалов для биологических исследований и производств.
Спонсором приза зрительских симпатий выступил медико-генетический центр Genotek.
Как же мало известно о генах! Первый раз я остро ощутила это, находясь на практике в лаборатории медицинской генетики Харбинского медицинского университета. Исследовательская группа, где я проходила стажировку, занималась изучением онкогена Sei-1, который индуцирует образование двухминутных хромосом (DM), что способствует развитию онкогенеза. Однако механизм образования онкогена Sei-1 остается неизвестным до сих пор. А ведь различные мутации генов являются причиной возникновения и других опасных заболеваний человека, помимо рака. Итак, в данной статье мы изложим некоторые соображения о том, почему мы все еще многое не знаем о генах, а также сформулируем наше мнение о том, сколько генов у человека.
В 1977 году Фредерик Сэнгер впервые разработал метод секвенирования ДНК [1], основанный на терминации ДНК-полимеразной реакции с помощью дидезоксинуклеотидов, за что в 1980 году был удостоен Нобелевской премии в области химии. В этом же году Нобелевскую премию получили Максам и Гилберт, которые предложили метод секвенирования ДНК путем химической деградации. В 1985 году была выявлена первая полная последовательность ДНК бактерии (Haemophilus influenzae), в 1996 году получен первый геном эукариотической клетки (дрожжи Saccharomyces ceravisiae), а в 1998 году расшифрован геном дождевого червя (Caenorhabditis elegans). Завершение в 2003 году проекта «Геном человека» привело к публикации полной последовательности человеческого генома. Но «полной» ее можно назвать весьма условно, учитывая, что около 8% не секвенировано и по сей день [2].
Проект «Геном человека» и полный список генов
Выявление полного списка генов необходимо для выяснения молекулярных механизмов возникновения и развития рака, шизофрении [3], деменции, а также многих других заболеваний человека. Секвенирование ДНК, выделенной из тканей больных, позволяет выявлять такие мутации, как нуклеотидные замены, делеции и вставки, ответственные за возникновение этих заболеваний.
Рисунок 1. Арт-проект на выставке «Геном — расшифровка кода жизни» в Национальном музее естественной истории в Вашингтоне
Собственно, ради этого и затевался проект «Геном человека» (Human genome project, HGP), который продолжался с 1990 по 2003 год. Его основной задачей было определение нуклеотидной последовательности ДНК человека и локализации 100 000 человеческих генов (как тогда полагали) [4]. Параллельно с этим планировалось изучить ДНК набора модельных организмов, чтобы получить сравнительную информацию, необходимую для понимания функционирования генома человека. Предполагалось, что информация, полученная в результате HGP, станет настольной книгой для биомедицинской науки в XXI веке [5]. Целями данных исследований являлось получение информации о причинах ряда болезней [6] и, в конечном итоге, разработка способов лечения более чем 4000 генетических заболеваний, которые затрагивают человечество, включая многофакторные, в которых генетическая предрасположенность играет важную роль. Считалось, что результаты секвенирования генома позволят определить локализацию каждого гена и их общее количество. Однако последовавшие за этим события доказали обратное: сегодня существует несколько баз данных генов, которые существенно отличаются друг от друга. Причем число белок-кодирующих генов совпадает, а число генов других типов расходится.
Проект «Протеом человека»
В 2010 году по инициативе Организации по изучению протеома человека (Human proteome organization, HUPO) был начат проект «Протеом человека» (HPP), целью которого является создание полного списка белков вида Homo sapiens [7]. Для этого, во-первых, предполагается идентифицировать и охарактеризовать, по крайней мере, по одному белковому продукту белок-кодирующих генов, их однонуклеотидные полиморфизмы и варианты сплайсинга, а также виды посттрансляционной модификации белков [8]. Во-вторых, данные протеомики, полученные в результате реализации HPP, способствуют, в дополнение к геномным данным, решению различных биомедицинских задач и созданию новых аннотированных баз знаний, таких как neXtProt [9].
В настоящее время neXtProt содержит информацию о 17 487 белках, существование которых экспериментально подтверждено, 1728 белках, подтвержденных на уровне транскриптов, 515-и, определенных на основании гомологии, 76-и предсказанных и 571-м неизвестной природы. Особый интерес вызывают белки, существование которых экспериментально не доказано, хотя данные о том, что они кодируются геномом, существуют. Это так называемые «потерянные» белки, которые составляют примерно 18% всех кодируемых белков. Для выявления и характеристики таких белков создан ресурс MissingProteinPedia [7].
«Протеом человека» является продолжением проекта «Геном человека». Предполагается, что благодаря проекту по изучению протеома мы узнаем точное количество белок-кодирующих генов, что впоследствии позволит понять, сколько всего генов у человека.
Немного о РНК
Проект «Геном человека» показал, что молекулы РНК также важны для жизни, как и ДНК. Внутри клеток существует множество РНК (рис. 2). Изначально РНК подразделяются на некодирующие РНК (нкРНК), которые не транслируются в белки, и кодирующие РНК (мРНК), служащие матрицей для синтеза полипептидных цепей белка. Некодирующие РНК имеют более сложную классификацию. Они бывают инфраструктурными и регуляторными. Инфраструктурные РНК представлены рибосомными РНК (рРНК) и транспортными РНК (тРНК). Молекулы рРНК синтезируются в ядрышке и составляют основу рибосомы, а также кодируют белки субъединиц рибосомы. После того, как рРНК полностью собраны, они переходят в цитоплазму, где в качестве ключевых регуляторов трансляции, участвуют в чтении кода мРНК. Последовательность из трех азотистых оснований в мРНК указывает на включение определенной аминокислоты в последовательность белка. Молекулы тРНК, приносят указанные аминокислоты на рибосомы, где синтезируется белок.
Рисунок 2. Виды РНК
рисунок автора статьи
Регуляторные нкРНК очень широко представлены в организме, классифицируются в зависимости от размера и выполняют ряд важных функций (табл. 1).
Название | Обозначение | Длина | Функции | |
---|---|---|---|---|
Длинные некодирующие РНК | днкРНК, lncRNA | 200 нуклеотидов | 1. Регулируют избирательное метилирование ДНК, направляя ДНК-метилтрансферазу 2. Руководят избирательной посадкой репрессорных комплексов polycomb | |
Малые РНК | Малые ядерные РНК | мяРНК, snRNA | 150 нуклеотидов | 1. Участвуют в сплайсинге 2. Регулируют активность факторов транскрипции 3. Поддерживают целостность теломер [13] |
Малые ядрышковые РНК | мякРНК, snoRNA | 60–300 нуклеотидов | 1. Участвуют в химической модификации рРНК, тРНК и мяРНК 2. Возможно, участвуют в стабилизации структуры рРНК и защите от действия гидролаз | |
Малые интерферирующие РНК | миРНК, siRNA | 21–22 нуклеотидов | 1. Осуществляют антивирусную иммунную защиту 2. Подавляют активность собственных генов | |
Микро-РНК | мкРНК, miRNA | 18–25 нуклеотидов | Подавляют трансляцию путем РНК-интерференции | |
Антисмысловые РНК [14] | asRNA | 1. Короткие: менее 200 нуклеотидов 2. Длинные: более 200 нуклеотидов | Блокируют трансляцию, образуя гибриды с мРНК | |
РНК, связанные с белками Piwi | piRNA, piwiRNA | 26–32 нуклеотидов | Их также называют «стражами генома», они подавляют активность мобильных генетических элементов во время эмбриогенеза |
Проблема терминологии
Прежде чем ответить на вопрос: «Сколько у нас генов?», нужно понять, что же такое ген?
Основное внимание HGP было направлено на белок-кодирующие гены [15]. Однако, как было указано в первоначальном докладе HGP в 2001 году, «тысячи генов человека продуцируют некодирующие РНК (нкРНК), являющиеся их конечным продуктом», хотя на тот момент было известно около 706 генов нкРНК [2]. В своей недавней статье, опубликованной в журнале BMC Biology Стивен Зальцберг (Steven L. Salzberg) дает следующее определение гена [16]:
Ген любой участок хромосомной ДНК, который транскрибируется в функциональную молекулу РНК или сначала транскрибируется в РНК, а затем транслируется в функциональный белок.
Это определение включает как гены некодирующих РНК, так и белок-кодирующие гены, и позволяет определять все варианты альтернативного сплайсинга в одном локусе как варианты одного и того же гена. Это позволяет исключить псевдогены – нефункциональные остатки структурных генов, утратившие способность кодировать белок.
Результаты двух первых исследований свидетельствовали о наличии у человека 31 000 [2] и 26 588 белок-кодирующих генов [17], а в 2004 появилась полная последовательность генома человека [4], и авторы подсчитали, что полный каталог насчитывает 24 000 белок-кодирующих генов. Каталог человеческих генов Ensembl включает 22 287 белок-кодирующих генов и 34 214 транскриптов [18].
Секвенирование нового поколения (NGS)
Появление высокопроизводительных методов параллельного секвенирования (в ходе такого секвенирования миллионы фрагментов ДНК из одного образца секвенируются одновременно) или секвенирования нового (следующего) поколения (next-generation sequencing, NGS) [1] позволило значительно ускорить поиск функциональных участков генома [4]. Биотехнологические компании разработали и коммерциализировали различные платформы для NG-секвенирования, позволяющие секвенировать от 1 млн до десятков млрд коротких последовательностей (ридов, reads) длиной 50–600 нуклеотидов каждая. К наиболее популярным платформам относятся такие, как Illumina и IonTorrent, использующие амплификацию ДНК с помощью ПЦР [19], а также платформы одномолекулярного секвенирования, такие как Helicos Biosciences HeliScope, Pacific Biosciences SMRT (single molecule real-time sequencing), и нанопорового секвенирования Oxford Nanopore, осуществляющие секвенирование в реальном времени и позволяющие прочитывать значительно более длинные риды — до 10–60 тыс. нуклеотидов. Кроме того, изобретение секвенирования РНК (RNA-seq) в 2008 году, которое создавалось для количественного определения экспрессии генов, также способствовало обнаружению транскрибируемых последовательностей, как кодирующих, так и некодирующих РНК [20].
Благодаря NGS, базы данных днкРНК и других генов РНК (таких как микро-РНК) резко выросли за десятилетие, и текущие каталоги генов человека теперь содержат больше генов, кодирующих РНК, чем белки (табл. 2).
Типы генов | Gencode | Ensembl | RefSeq | CHESS |
---|---|---|---|---|
Белок-кодирующие гены | 19 901 | 20 376 | 20 345 | 21 306 |
Гены длинных некодирующих РНК | 15 779 | 14 720 | 17 712 | 18 484 |
Антисмысловые РНК | 5501 | — | 28 | 2694 |
Другие некодирующие РНК | 2213 | 2222 | 13 899 | 4347 |
Псевдогены | 14 723 | 1740 | 15 952 | — |
Общее число транскриптов | 203 835 | 203 903 | 154 484 | 323 827 |
Рисунок 3. Последовательность ДНК, получаемая после секвенирования человеческого генома
В ходе секвенирования РНК обнаружилось, что альтернативный сплайсинг, альтернативное инициирование транскрипции и альтернативное прерывание транскрипции проиcходят гораздо чаще, чем полагали, затрагивая до 95% человеческих генов. Следовательно, даже если известно местоположение всех генов, сначала нужно выявить все изоформы этих генов, а также определить, выполняют ли эти изоформы какие-либо функции или они просто представляют собой ошибки сплайсинга.
Базы данных генов человека
Задача по составлению каталога всех генов по-прежнему не решена. Проблема заключается в том, что за последние 15 лет только две исследовательские группы составили список доминантных генов: RefSeq, которая поддерживается Национальным центром биотехнологической информации (NCBI) при Национальных институтах здоровья (NIH), и Ensembl/Gencode, которая поддерживается Европейской молекулярно-биологической лабораторией (EMBL). Однако, несмотря на большой прогресс, сейчас в каталогах различается количество белок-колирующих генов, генов длинных некодирующих РНК, псевдогенов, а также варьирует количество антисмысловых РНК и других некодирующих РНК (табл. 2). Каталоги еще дорабатываются: например, в прошлом году сотни генов, кодирующих белок, были добавлены или удалены из списка Gencode. Эти разногласия объясняют проблему создания полного каталога человеческих генов.
В 2017 году была создана новая база данных генов человека — CHESS. Примечательно, что она включает все белок-кодирующие гены как Gencode, так и RefSeq, так что пользователям CHESS не нужно решать, какую базу данных они предпочитают. Бóльшее количество генов может вызывать больше ошибок, но создатели считают, что бóльший набор окажется полезным при исследовании болезней человека, которые еще не отнесены к генетическим. Набор генов CHESS в настоящее время в версии 2.0 еще не окончательный, и, безусловно, создатели работают над его усовершенствованием.
Таким образом, все еще неизвестно, сколько всего генов у человека. Существует ряд проблем, затрудняющих эту задачу. Например, многие гены (особенно, гены днкРНК), видимо, имеют высокую тканеспецифичность. Из этого следует, что пока ученые подробно не исследуют все типы клеток человека, они не могут быть уверены, что обнаружили все человеческие гены и транскрипты. Безусловно, сегодня знания о человеческих генах стали значительно обширнее, чем в начале проекта «Геном человека», а технологии совершеннее. Это дает надежду на то, что в скором времени мы узнаем точный ответ на поставленный вопрос.