24 августа 2018

Генетические базы данных требуют пересмотра

Авторы нового исследования высказывают подозрение, что количество кодирующих генов в современных базах данных может быть завышено. Множество генов, аннотируемых как белок-кодирующие, на самом деле не имеют собственных белковых продуктов. Лишний «шум», вносимый такими генами, понижает точность проводимых крупномасштабных исследований.


Спустя 17 лет после секвенирования генома человека человеческий протеом все еще находится в стадии изучения. Каждый восьмой из 22210 кодирующих генов аннотируется по-разному в каждой из трех справочных баз данных: Ensembl/GENCODE, RefSeq и UniProtKB. Для таких генов характерен высокий процент несинонимичных мутаций, что говорит о том, что эти гены не должны были закрепиться в ходе естественного отбора, и в дальнейшем постепенно элиминироваться из популяции. Авторы выделили 16 признаков, свойственных потенциально некодирующим, «сомнительным» генам. К «некодирующим» признакам авторы отнесли нонсенс-опосредованное расщепление мРНК, транскрибируемой с данного гена, сквозную транскрипцию, сходства с полиморфными псевдогенами и др. В ходе исследования выяснилось, что более 11% генов, аннотируемых как кодирующие в базе Ensembl/GENCODE, обладают хотя бы одним «некодирующим» признаком. При этом почти для всех «сомнительных» генов не удалось найти достаточных доказательств, подтверждающих существование их белковых продуктов (к таким доказательствам авторы относят высокий уровень экспресии транскрипта в какой-либо ткани, наличие известного антитела к соответствующему белку и пр.) Анализ пула генетических вариаций для каждого «сомнительного» гена показал, во-первых, что их количество гораздо выше количества генетических вариаций для белок-кодирующих генов, а во-вторых, то, что большинство вариаций «сомнительных» генов относятся к патогенным. Суммарно из всех трех баз было выделено 4234 гена, которые авторы определили как «потенциально некодирующие». В эту группу входили как «сомнительные» гены, обладающие «некодирующими» признаками (1470), так и те гены, которые были аннотированы по-разному в каждой базе (2764). По словам авторов, если предположить, что большинство генов из данной группы действительно не кодируют белки, то число кодирующих генов в нашем геноме сократиться до 19446. Однако авторы подчеркивают, что пока рано говорить о точных значениях, так как каждый ген, в идеале, должен быть аннотирован «вручную» и, кроме того, новые кодирующие гены продолжают добавляться в базы. Основными причинами, по которым некодирующие гены оказываются аннотированными как кодирующие, исследователи считают автоматическое прогнозирование функции гена (кодирующий/некодирующий), а также сложность в различении некоторых кодирующих генов от псевдогенов. Так, семейство генов убиквитинкарбоксилгидролазы 17 включает в себя 26 генов с практически идентичными последовательностями, однако исходя из соотношения синонимичных и несинонимичных мутаций большинство из этих генов являются псевдогенами. На сегодняшний день нет универсального и простого способа, позволяющего безошибочно отличать белок-кодирующие гены от псевдогенов, поэтому все 26 автоматически аннотируются в базах как кодирующие.

Более того, ученые подчеркивают, что достоверно убедиться в том, что ген точно является кодирующим либо некодирующим, экспериментальным путём также бывает непросто. Например, близкие по строению белковые продукты разных генов крайне сложно отличить при помощи антител. Протеомные эксперименты также не годятся для анализа, так как похожие белки могут оказаться трудноразличимыми после пострансляционных модификаций.

В частности, авторы приводят пример из базы PeptideAtlas, в которой указано, что ген FO538757.2 кодирует 2 белковых продукта. Однако при анализе их аминокислотного состава выяснилось, что данные белки отличаются всего на 1 аминокислоту от белковых продуктов гена WASH1. При этом FO538757.2 входит в группу «потенциально некодирующих» генов и, по мнению исследователей, с большой долей вероятности действительно не кодирует белки, тогда как 2 аннотированных в соответствии с базой данных белка на самом деле являются еще одними продуктами WASH1.

В целом, ученые говорят о необходимости «ручного» пересмотра существующих на сегодняшний день генетических баз данных, ведь составление корректной базы данных «эталонного» протеома человека лежит в основе большинства новых фундаментальных биомедицинских проектов. В результате такого пересмотра можно не только исключить некодирующие гены из списка, но и внести в него новые гены, существование белковых продуктов которых будет достоверно доказано.

Оригинал статьи

Получить скидку на генетические анализы

Записаться на генетическую Школу