Биоинформатика /ˌbaɪ.oʊˌɪnfərˈmætɪks/ (About this soundlisten) – междисциплинарная область, в которой разрабатываются методы и программные средства для понимания биологических данных. Биоинформатика объединяет биологию, информатику, информационную инженерию, математику и статистику для анализа и понимания биологических данных. Она также используется для кремниевого анализа биологических запросов с использованием математических и статистических методов.

Биологические исследования, использующие компьютерное программирование как часть своей методологии, включены в биоинформатику, а также в особый поток анализов, которые многократно используются, в частности, в области геномики. Типичными областями применения биоинформатики являются гены-кандидаты и мононуклеотидные полиморфизмы (SNPs). Такое обнаружение часто проводится с целью лучшего понимания генетической основы заболевания, уникальных адаптаций, желательных свойств (особенно у сельскохозяйственных видов) или различий в популяциях. Менее формально биоинформатика также стремится понять организационные принципы в рамках последовательностей нуклеиновых кислот и белков, называемых протеомикой.

Введение

Биоинформатика стала неотъемлемой частью многих областей биологии. В рамках экспериментальной молекулярной биологии методы биоинформатики, такие как обработка изображений и сигналов, позволяют извлекать полезные результаты из больших объемов необработанных данных. В генетике они помогают упорядочивать и аннотировать геномы и наблюдаемые мутации. Они играют роль в текстовом извлечении биологической литературы и в развитии биологической и генной онтологии для организации и запроса биологических данных. Также играет роль в анализе экспрессии и регуляции генов и белков. Инструменты биоинформатики помогают сравнивать, анализировать и интерпретировать генетические и геномные данные и в более общем плане понимать эволюционные аспекты молекулярной биологии. На более высоком интеграционном уровне она помогает анализировать, а также каталогизировать биологические пути и сети, которые являются неотъемлемой частью системной биологии. В структурной биологии он помогает в моделировании и моделировании ДНК, РНК, белков и биомолекулярных взаимодействий.

Последовательности

Последовательности генетического материала часто используются в биоинформатике, и с ними легче работать на компьютере, чем вручную.

Поскольку белковые последовательности стали неотъемлемой частью молекулярной биологии, компьютеры стали доступны после того, как в начале 1950-х годов Фредерик Сэнгер определил последовательность инсулина. Ручное сравнение нескольких последовательностей оказалось непрактичным. Одним из пионеров в этой области была Маргарет Оукли Дайхофф, которая собрала одну из первых баз данных белковых последовательностей, первоначально опубликованную в виде книг и экспериментировавшую с методами выравнивания последовательностей и молекулярной эволюции.  Другим пионером биоинформатики был Элвин А. Кабат, который стал пионером анализа биологических последовательностей в 1970 году, выпустив полные тома последовательностей антител с Тай Те Ву в период между 1980 и 1991 годами.

Цели

Для того, чтобы изучить, как нормальная клеточная деятельность изменяется в различных состояниях болезни, биологические данные должны быть объединены, чтобы сформировать полную картину этой деятельности. Поэтому область биоинформатики развивалась таким образом, что наиболее актуальной задачей в настоящее время является анализ и интерпретация различных видов данных. К ним относятся последовательности нуклеотидов и аминокислот, белковые домены и белковые структуры. Фактический процесс анализа и интерпретации данных называется вычислительной биологией. Важными поддисциплинами в биоинформатике и вычислительной биологии являются:

Взаимоотношения с другими областями

Биоинформатика является похожей научной областью, но отличной от биологических вычислений, в то время как она часто считается синонимом вычислительной биологии. Биологические вычисления использует биоинженерии и биологии для создания биологических компьютеров, в то время как биоинформатика использует вычисления, чтобы лучше понять биологию. Вычислительная биология и биоинформатика включают в себя анализ биологических данных, в частности, ДНК, РНК и белковых последовательностей. С середины 1990-х годов биоинформатика стремительно развивается, в основном благодаря проекту “Геном человека” и стремительному прогрессу в технологии секвенирования ДНК.

Анализ биологической исследовательской информации для получения значимой информации включает в себя написание и запуск программ, использующих алгоритмы теории графов, искусственного интеллекта, мягких вычислений, интеллектуального анализа данных, обработки изображений и компьютерного моделирования. Алгоритмы, в свою очередь, зависят от теоретических основ, таких как дискретная математика, теория управления, теория систем, теория информации и статистика.

Секвенирование ДНК

Основная статья: секвенирование ДНК

Последовательности должны быть получены на примере банка памяти Genbank, прежде чем их можно будет проанализировать. Секвенирование ДНК опять же является нетривиальной проблемой, так как исходные данные могут быть шумными или пораженными слабыми сигналами. Для базы были разработаны алгоритмы, требующие различных экспериментальных подходов к секвенированию ДНК.

Сборка секвенирования

Большинство методов секвенирования ДНК позволяют получить фрагменты коротких последовательностей, которые должны быть собраны для получения полных последовательностей генов или геномов. Например, так называемый дробовик (используется Институтом геномных исследований (TIGR) для сиквенирования первого генома бактерий – Haemophilus influenzae)[19] генерирует последовательности нескольких тысяч мелких фрагментов ДНК (от 35 до 900 длинных нуклеотидов, в зависимости от технологии секвенирования). Концы этих фрагментов перекрываются и, при правильном выравнивании по программе сборки генома, могут быть использованы для реконструкции всего генома. Секвенирование с помощью дробовика позволяет быстро получить данные о последовательности, но задача сборки фрагментов может быть достаточно сложной для более крупных геномов. При геноме размером с человеческий геном на сборку фрагментов может потребоваться много дней процессорного времени на больших компьютерах с памятью и многопроцессорных компьютерах, а полученная в результате сборка обычно содержит много пробелов, которые необходимо заполнить позже. Секвенирование дробовика является методом выбора практически для всех геномов, секвенированных сегодня [когда?], а алгоритмы сборки генома являются критическим направлением исследований в области биоинформатики.

Аннотация генома

В контексте геномики аннотация – это процедура разметки генов и других биологических характеристик в последовательности ДНК. Этот процесс должен быть автоматизирован, поскольку большинство геномов слишком велики для аннотирования вручную, не говоря уже о желании аннотировать как можно больше геномов, так как скорость секвенирования перестала представлять собой “узкое место”. Такая аннотация становится возможной благодаря тому, что гены действительно имеют узнаваемые начальный и конечный регионы, хотя точная последовательность, найденная в этих регионах, может варьироваться от одного гена к другому.

Первое полное описание системы полной аннотации генома было опубликовано в 1995 г. [19] коллективом Института геномных исследований, который выполнил первый полный секвенирование и анализ генома свободного живого организма, бактерии Haemophilus influenzae [19] Owen White спроектировал и построил программный комплекс для идентификации генов, кодирующих все белки, трансфертных РНК, рибосомальных РНК (и других сайтов) и выполнения исходных функциональных заданий. Большинство современных систем аннотаций геномов работают аналогичным образом, но программы, доступные для анализа геномной ДНК, такие как программа GeneMark, обученные и используемые для поиска генов, кодирующих белки гриппа Haemophilus, постоянно развиваются и совершенствуются.

Вслед за целями, которые оставил после своего закрытия в 2003 году проект “Геном человека”, появился новый проект, разработанный Национальным исследовательским институтом по изучению генома человека в США. Так называемый проект ENCODE представляет собой совместный сбор данных о функциональных элементах генома человека с использованием технологий секвенирования ДНК нового поколения и массивов геномных плиток – технологий, способных автоматически генерировать большие объемы данных при значительно меньших затратах на базу, но с одинаковой точностью (основная ошибка вызова) и верностью (ошибка сборки).

Вычислительная эволюционная биология

Эволюционная биология – это изучение происхождения и происхождения видов, а также их изменения во времени. Компьютерная наука помогает эволюционным биологам, позволяя исследователям делать это:

отслеживать эволюцию большого количества организмов, измеряя изменения в их ДНК, а не только через физическую таксономию или физиологические наблюдения, сравнивать целые геномы, что позволяет изучать более сложные эволюционные события, такие как дублирование генов, горизонтальный перенос генов и прогнозирование важных факторов видообразования бактерий,

Построение комплексных моделей вычислительной популяционной генетики для прогнозирования исхода системы во времени[20].

мониторинг и обмен информацией о растущем количестве видов и организмов

Будущая работа пытается восстановить теперь более сложное дерево жизни.

Однако область исследований в компьютерной науке с использованием генетических алгоритмов иногда путают с вычислительной эволюционной биологией, но эти две области не обязательно взаимосвязаны.

Сравнительная геномика

В основе сравнительного анализа генома лежит определение соответствия между генами (ортологический анализ) или другими характеристиками генома у разных организмов. Именно эти межгеномные карты позволяют проследить эволюционные процессы, ответственные за дивергенцию двух геномов. Разнообразные эволюционные события, действующие на разных организационных уровнях, моделируют эволюцию генома. На низшем уровне точечные мутации воздействуют на отдельные нуклеотиды. На более высоком уровне большие сегменты хромосомы подвергаются дублированию, латеральному переносу, инверсии, транспозиции, делеции и вставке[21]. В конечном счете, целые геномы участвуют в процессах гибридизации, полиплоидизации и эндосимбиоза, что часто приводит к быстрому видообразованию. Такая сложность эволюции геномов ставит множество интересных задач перед разработчиками математических моделей и алгоритмов, которые прибегают к спектру алгоритмических, статистических и математических методов, начиная от точных, эвристических алгоритмов и заканчивая фиксированными параметрами и алгоритмами аппроксимации для задач с использованием моделей бережливости и заканчивая цепными алгоритмами Монте-Карло Маркова для анализа байесовских проблем на основе вероятностных моделей.

Некоторые из этих исследований основаны на обнаружении омологии последовательностей для присвоения последовательностей семействам белков[22].

Геномика панов

Геномическая панорама – это понятие, введенное в 2005 году Тетелином и Медини, которое в конечном итоге укоренилось в биоинформатике. Геном Pan представляет собой полный генный репертуар определенной таксономической группы: хотя первоначально он был применен к близкородственным штаммам вида, он может быть применен к более широкому контексту, такому как род, филум и т. д. Он разделен на две части – Основной ген (Core genome): набор генов, общих для всех генов в исследовании (часто жизненно важных для выживания домашних генов) и Доступный/Гибкий ген (Dispensable/Flexible genome): набор генов, присутствующих не во всех генах в исследовании, а в одном или в некоторых из них. Инструмент биоинформатики BPGA может быть использован для характеристики генома бактерий Pan[23].

Генетика болезни

Появление секвенирования следующего поколения означает, что мы получаем достаточно данных о последовательности, чтобы отобразить гены таких сложных заболеваний, как бесплодие,[24] рак молочной железы[25] или болезнь Альцгеймера.[26] Исследования геномных ассоциаций являются полезным подходом к выявлению мутаций, ответственных за такие сложные заболевания.[27] В результате этих исследований были выявлены тысячи вариантов ДНК, связанных с аналогичными заболеваниями и признаками.[28] Кроме того, возможность использования генов для прогнозирования, диагностики или лечения является одним из наиболее важных применений. Во многих исследованиях обсуждаются как перспективные способы выбора генов для использования, так и проблемы и подводные камни использования генов для прогнозирования наличия или прогноза заболевания[29].

В случае рака гены пораженных клеток реорганизуются сложным или даже непредсказуемым образом. Для выявления ранее неизвестных точечных мутаций в различных генах рака используются обширные усилия по секвенированию. Биоинформатики производят автоматизированные специализированные системы управления объемом получаемых данных о последовательностях, а также создают новые алгоритмы и программное обеспечение для сравнения результатов секвенирования с растущей коллекцией секвенций генома человека и зародышевых полиморфизмов. Используются новые технологии физического обнаружения, такие как олигонуклеотидные микрочипы для идентификации прироста и потери хромосом (называемой сравнительной геномной гибридизацией), а также массивы полиморфизма единичных нуклеотидов для обнаружения известных точечных мутаций. В совокупности такие методы обнаружения измеряют несколько сотен тысяч участков по всему геному, а при их использовании с высокой скоростью для измерения тысяч образцов они генерируют терабайты данных за один эксперимент. И здесь огромные объемы и новые типы данных создают новые возможности для биоинформатиков. Часто обнаруживается, что данные содержат значительную вариабельность, или шум, поэтому разрабатываются методы анализа скрытой модели Маркова и точек изменения для вывода реальных вариаций в количестве копий.