
Многие мутации в ДНК, которые вызывают заболевание, не присутствуют в настоящих генах, а лежат в 99% генома, который когда-то считался "хлам." Несмотря на то, что ученые недавно пришли к пониманию того, что эти обширные участки ДНК действительно играют решающую роль, до сих пор было невозможно расшифровать эти эффекты в широком масштабе.
Используя искусственный интеллект, команда под руководством Принстонского университета расшифровала функциональное влияние таких мутаций на людей с аутизмом. Исследователи считают, что этот мощный метод обычно применим для обнаружения генетического вклада в развитие любого заболевания.
Опубликовав 27 мая в журнале Nature Genetics, исследователи проанализировали геномы 1790 семей, в которых один ребенок страдает расстройством аутистического спектра, а другие нет. Метод отсортировал среди 120000 мутаций, чтобы найти те, которые влияют на поведение генов у людей с аутизмом. Хотя результаты не раскрывают точных причин случаев аутизма, они позволяют исследователям изучить тысячи возможных участников.
Многие предыдущие исследования были сосредоточены на выявлении мутаций в самих генах. Гены – это, по сути, инструкции по производству многих белков, которые строят и контролируют тело. Мутации в генах приводят к появлению мутировавших белков, функции которых нарушены. Однако другие типы мутаций нарушают регуляцию генов. Мутации в этих областях влияют не на то, что гены производят, а на то, когда и сколько они производят.
По словам исследователей, до сих пор было невозможно просмотреть весь геном в поисках фрагментов ДНК, которые регулируют гены, и предсказать, как мутации в этой регуляторной ДНК могут способствовать развитию сложных заболеваний. Это исследование является первым доказательством того, что мутации в регуляторной ДНК могут вызывать сложное заболевание.
"Этот метод обеспечивает основу для проведения такого анализа при любом заболевании," сказала Ольга Троянская, профессор компьютерных наук и геномики и старший автор исследования. Такой подход может быть особенно полезен при неврологических расстройствах, раке, сердечных заболеваниях и многих других состояниях, при которых не удалось выявить генетические причины.
"Это меняет то, как нам нужно думать о возможных причинах этих болезней," сказала Троянская, которая также является заместителем директора по геномике в Институте Флэтайрона Simons Foundation в Нью-Йорке, где она возглавляла группу соавторов.
В команду также входила группа, возглавляемая нейробиологом Робертом Дарнеллом из Университета Рокфеллера. Первыми авторами статьи являются Цзянь Чжоу и Кристофер Парк, получившие докторскую степень.D.s из Принстона, а теперь они посещают сотрудников Института интегративной геномики Льюиса-Сиглера и исследователей из Института Флэтайрон, а также Чандру Тисфельд из Принстонского института интегративной геномики Льюиса-Сиглера.
Большинство предыдущих исследований генетической основы болезни было сосредоточено на 20000 известных генах и окружающих их участках ДНК, которые регулируют эти гены. Однако даже это огромное количество генетической информации составляет лишь немногим более 1% от трех.2 миллиарда химических пар в геноме человека. Остальные 99% традиционно считались "темный" или "хлам," хотя недавние исследования начали разрушать эту идею.
В своем новом открытии исследовательская группа предлагает метод, позволяющий разобраться в этом огромном массиве геномных данных. В системе используется метод искусственного интеллекта, называемый глубоким обучением, в котором алгоритм выполняет последовательные уровни анализа, чтобы узнать о закономерностях, которые в противном случае было бы невозможно различить. В этом случае алгоритм учит себя определять биологически релевантные участки ДНК и предсказывает, играют ли эти фрагменты какую-либо роль в каком-либо из более чем 2000 белковых взаимодействий, которые, как известно, влияют на регуляцию генов. Система также предсказывает, окажет ли разрушение одной пары единиц ДНК существенное влияние на эти взаимодействия белков.
Алгоритм "скользит по геному" анализируя каждую химическую пару в контексте 1000 химических пар вокруг нее, пока не будут сканированы все мутации, сказала Троянская. Таким образом, система может предсказать эффект мутации каждой химической единицы во всем геноме. В конце концов, он показывает приоритетный список последовательностей ДНК, которые могут регулировать гены и мутации, которые могут мешать этой регуляции.
До этого вычислительного достижения обычным способом сбора такой информации были бы кропотливые лабораторные эксперименты с каждой последовательностью и каждой возможной мутацией в этой последовательности. Такое количество возможных функций и мутаций слишком велико, чтобы рассматривать его – экспериментальный подход потребовал бы проверки каждой мутации на более чем 2000 типов взаимодействий с белками и повторения этих экспериментов снова и снова для разных тканей и типов клеток, что составляет сотни миллионов экспериментов. Другие исследовательские группы стремились ускорить это открытие, применяя машинное обучение к целевым участкам ДНК, но не смогли изучить каждую единицу ДНК и каждую возможную мутацию, а также влияние на каждое из более чем 2000 регуляторных взаимодействий по всему геному.
"Наша статья действительно позволяет вам использовать все эти возможности и ранжировать их," сказал Парк. "Сама по себе расстановка приоритетов очень полезна, потому что теперь вы также можете продолжить и проводить эксперименты только в случаях с наивысшим приоритетом."
Наконец, система калибрует его на основе известных мутаций, вызывающих болезнь, и вырабатывает "оценка воздействия болезни," оценка того, насколько вероятно, что данная мутация повлияет на болезнь.
В случае аутизма исследователи проанализировали геномы 1790 семей с "симплекс" расстройство аутистического спектра, то есть заболевание проявляется у одного ребенка, но не у других членов семьи. (Эти данные были взяты из коллекции Simons Simplex Collection более 2000 семей с аутизмом.) Среди этой выборки менее 30% людей, страдающих расстройством аутистического спектра, имели ранее идентифицированную генетическую причину. Исследователи заявили, что недавно обнаруженные мутации, вероятно, значительно увеличат эту долю.
Возможность предсказывать функциональный эффект каждой мутации была ключевым нововведением в этом новом исследовании. Предыдущие исследования показали, что трудно обнаружить какую-либо разницу в количестве регуляторных мутаций у людей с аутизмом по сравнению с здоровыми людьми. Новый метод, однако, рассматривал мутации, которые, по прогнозам, будут иметь большое функциональное влияние, и обнаружил значительно большее количество таких мутаций у пораженных людей.
Когда исследователи затем посмотрели, на какие гены повлияли эти мутации, оказалось, что это гены, тесно связанные с функциями мозга. Эти недавно обнаруженные мутации повлияли на аналогичные гены и функции, как и ранее идентифицированные мутации.
"Теперь мы открываем поле, чтобы понять все факторы, которые могут быть связаны с аутизмом," сказал Тисфельд.
Эта информация также важна для семей и их врачей, чтобы лучше диагностировать расстройство и избежать слишком общих предположений о том, как аутизм одного человека может быть отнесен к другим. "Говорят, что когда вы встречаете одного человека с аутизмом, вы встречаете одного человека с аутизмом, потому что нет одинаковых случаев," сказал Тисфельд. "Генетически вроде так же."
С помощью этого нового метода команда анализирует генетические причины различных форм рака, болезней сердца и других заболеваний.