Биоинформатика применительно к молекулярной генетике. Биоинформационные технологии

Если спросить случайного прохожего, что такое биология, он наверняка ответит что-то вроде «наука о живой природе». Про информатику скажет, что она имеет дело с компьютерами и информацией. Если мы не побоимся быть навязчивыми и зададим ему третий вопрос – что такое биоинформатика? – тут-то он наверняка и растеряется. Логично: про эту область знаний даже в ЕРАМ знает далеко не каждый – хотя в нашей компании и биоинформатики есть. Давайте разбираться, для чего эта наука нужна человечеству вообще и ЕРАМ в частности: в конце концов, вдруг нас на улице об этом спросят.

Почему биология перестала справляться без информатики и при чем тут рак

Чтобы провести исследование, биологам уже недостаточно взять анализы и посмотреть в микроскоп. Современная биология имеет дело с колоссальными объемами данных. Часто обработать их вручную просто невозможно, поэтому многие биологические задачи решаются вычислительными методами. Не будем далеко ходить: молекула ДНК настолько мала, что разглядеть ее под световым микроскопом нельзя. А если и можно (под электронным), всё равно визуальное изучение не помогает решить многих задач.

ДНК человека состоит из трех миллиардов нуклеотидов – чтобы вручную проанализировать их все и найти нужный участок, не хватит и целой жизни. Ну, может и хватит – одной жизни на анализ одной молекулы – но это слишком долго, дорого и малопродуктивно, так что геном анализируют при помощи компьютеров и вычислений.

Биоинформатика - это и есть весь набор компьютерных методов для анализа биологических данных: прочитанных структур ДНК и белков, микрофотографий, сигналов, баз данных с результатами экспериментов и т. д.

Иногда секвенировать ДНК нужно, чтобы подобрать правильное лечение. Одно и то же заболевание, вызванное разными наследственными нарушениями или воздействием среды, нужно лечить по-разному. А еще в геноме есть участки, которые не связаны с развитием болезни, но, например, отвечают за реакцию на определенные виды терапии и лекарств. Поэтому разные люди с одним и тем же заболеванием могут по-разному реагировать на одинаковое лечение.

Еще биоинформатика нужна, чтобы разрабатывать новые лекарства. Их молекулы должны иметь определенную структуру и связываться с определенным белком или участком ДНК. Смоделировать структуру такой молекулы помогают вычислительные методы.

Достижения биоинформатики широко применяют в медицине, в первую очередь в терапии рака. В ДНК зашифрована информация о предрасположенности и к другим заболеваниям, но над лечением рака работают больше всего. Это направление считается самым перспективным, финансово привлекательным, важным – и самым сложным.

Биоинформатика в ЕРАМ

В ЕРАМ биоинформатикой занимается подразделение Life Sciences. Там разрабатывают программное обеспечение для фармкомпаний, биологических и биотехнологических лабораторий всех масштабов - от стартапов до ведущих мировых компаний. Справиться с такой задачей могут только люди, которые разбираются в биологии, умеют составлять алгоритмы и программировать.

Биоинформатики – гибридные специалисты. Сложно сказать, какое знание для них первично: биология или информатика. Если так ставить вопрос, им нужно знать и то и другое. В первую очередь важны, пожалуй, аналитический склад ума и готовность много учиться. В ЕРАМ есть и биологи, которые доучились информатике, и программисты с математиками, которые дополнительно изучали биологию.

Как становятся биоинформатиками

Мария Зуева, разработчик:

«Я получила стандартное ИТ-образование, потом училась на курсах ЕРАМ Java Lab, где увлеклась машинным обучением и Data Science. Когда я выпускалась из лаборатории, мне сказали: «Сходи в Life Sciences, там занимаются биоинформатикой и как раз набирают людей». Не лукавлю: тогда я услышала слово «биоинформатика» в первый раз. Прочитала про нее на Википедии и пошла.

Тогда в подразделение набрали целую группу новичков, и мы вместе изучали биоинформатику. Начали с повторения школьной программы про ДНК и РНК, затем подробно разбирали существующие в биоинформатике задачи, подходы к их решению и алгоритмы, учились работать со специализированным софтом».

«По образованию я биофизик, в 2012-м защитил кандидатскую по генетике. Какое-то время работал в науке, занимался исследованиями – и продолжаю до сих пор. Когда появилась возможность применить научные знания в производстве, я тут же за нее ухватился.

Для бизнес-аналитика у меня весьма специфическая работа. Например, финансовые вопросы проходят мимо меня, я скорее эксперт по предметной области. Я должен понять, чего от нас хотят заказчики, разобраться в проблеме и составить высокоуровневую документацию – задание для программистов, иногда сделать работающий прототип программы. По ходу проекта я поддерживаю контакт с разработчиками и заказчиками, чтобы те и другие были уверены: команда делает то, что от нее требуется. Фактически я переводчик с языка заказчиков – биологов и биоинформатиков – на язык разработчиков и обратно».

Как читают геном

Чтобы понять суть биоинформатических проектов ЕРАМ, сначала нужно разобраться, как секвенируют геном. Дело в том, что проекты, о которых мы будем говорить, напрямую связаны с чтением генома. Обратимся за объяснением к биоинформатикам.

Михаил Альперович, глава юнита биоинформатики:

«Представьте, что у вас есть десять тысяч экземпляров «Войны и мира». Вы пропустили их через шредер, хорошенько перемешали, наугад вытащили из этой кучи ворох бумажных полосок и пытаетесь собрать из них исходный текст. Вдобавок у вас есть рукопись «Войны и мира». Текст, который вы соберете, нужно будет сравнить с ней, чтобы отловить опечатки (а они обязательно будут). Примерно так же читают ДНК современные машины-секвенаторы. ДНК выделяют из клеточных ядер и делят на фрагменты по 300–500 пар нуклеотидов (мы помним, что в ДНК нуклеотиды связаны друг с другом попарно). Молекулы дробят, потому что ни одна современная машина не может прочитать геном от начала до конца. Последовательность слишком длинная, и по мере ее прочтения накапливаются ошибки.

Вспоминаем «Войну и мир» после шредера. Чтобы восстановить исходный текст романа, нам нужно прочитать и расположить в правильном порядке все кусочки романа. Получается, что мы читаем книгу несколько раз по крошечным фрагментам. То же с ДНК: каждый участок последовательности секвенатор прочитывает с многократным перекрытием – ведь мы анализируем не одну, а множество молекул ДНК.

Полученные фрагменты выравнивают – «прикладывают» каждый из них к эталонному геному и пытаются понять, какому участку эталона соответствует прочитанный фрагмент. Затем в выравненных фрагментах находят вариации – значащие отличия прочтений от эталонного генома (опечатки в книге по сравнению с эталонной рукописью). Этим занимаются программы – вариант-коллеры (от англ. variant caller – выявитель мутаций). Это самая сложная часть анализа, поэтому различных программ – вариант-коллеров много и их постоянно совершенствуют и разрабатывают новые.

Подавляющее большинство найденных мутаций нейтральны и ни на что не влияют. Но есть и такие, в которых зашифрованы предрасположенность к наследственным заболеваниям или способность откликаться на разные виды терапии».

Для анализа берут образец, в котором находится много клеток - а значит, и копий полного набора ДНК клетки. Каждый маленький фрагмент ДНК прочитывают несколько раз, чтобы минимизировать вероятность ошибки. Если пропустить хотя бы одну значащую мутацию, можно поставить пациенту неверный диагноз или назначить неподходящее лечение. Прочитать каждый фрагмент ДНК по одному разу слишком мало: единственное прочтение может быть неправильным, и мы об этом не узнаем. Если мы прочитаем тот же фрагмент дважды и получим один верный и один неверный результат, нам будет сложно понять, какое из прочтений правдивое. А если у нас сто прочтений и в 95 из них мы видим один и тот же результат, мы понимаем, что он и есть верный.

Геннадий Захаров:

«Для анализа раковых заболеваний секвенировать нужно и здоровую, и больную клетку. Рак появляется в результате мутаций, которые клетка накапливает в течение своей жизни. Если в клетке испортились механизмы, отвечающие за ее рост и деление, то клетка начинает неограниченно делиться вне зависимости от потребностей организма, т. е. становится раковой опухолью. Чтобы понять, чем именно вызван рак, у пациента берут образец здоровой ткани и раковой опухоли. Оба образца секвенируют, сопоставляют результаты и находят, чем один отличается от другого: какой молекулярный механизм сломался в раковой клетке. Исходя из этого подбирают лекарство, которое эффективно против клеток с “поломкой”».

Биоинформатика: производство и опенсорс

У подразделения биоинформатики в ЕРАМ есть и производственные, и опенсорс-проекты. Причем часть производственного проекта может перерасти в опенсорс, а опенсорсный проект – стать частью производства (например, когда продукт ЕРАМ с открытым кодом нужно интегрировать в инфраструктуру клиента).

Проект №1: вариант-коллер

Для одного из клиентов – крупной фармацевтической компании – ЕРАМ модернизировал программу вариант-коллер. Ее особенность в том, что она способна находить мутации, недоступные другим аналогичным программам. Изначально программа была написана на языке Perl и обладала сложной логикой. В ЕРАМ программу переписали на Java и оптимизировали – теперь она работает в 20, если не в 30 раз быстрее.

Исходный код программы доступен на GitHub .

Проект №2: 3D-просмотрщик молекул

Для визуализации структуры молекул в 3D есть много десктоп- и веб-приложений. Представлять, как молекула выглядит в пространстве, крайне важно, например, для разработки лекарств. Предположим, нам нужно синтезировать лекарство, обладающее направленным действием. Сначала нам потребуется спроектировать молекулу этого лекарства и убедиться, что она будет взаимодействовать с нужными белками именно так, как нужно. В жизни молекулы трехмерные, поэтому анализируют их тоже в виде трехмерных структур.

Для 3D-просмотра молекул ЕРАМ сделал онлайн-инструмент, который изначально работал только в окне браузера. Потом на основании этого инструмента разработали версию, которая позволяет визуализировать молекулы в очках виртуальной реальности HTC Vive. К очкам прилагаются контроллеры, которыми молекулу можно поворачивать, перемещать, подставлять к другой молекуле, поворачивать отдельные части молекулы. Делать всё это в 3D куда удобнее, чем на плоском мониторе. Эту часть проекта биоинформатики ЕРАМ делали совместно с подразделением Virtual Reality, Augmented Reality and Game Experience Delivery.

Программа только готовится к публикации на GitHub, зато пока есть , по которой можно посмотреть ее демо-версию.

Как выглядит работа с приложением, можно узнать из видео .

Проект №3: геномный браузер NGB

Геномный браузер визуализирует отдельные прочтения ДНК, вариации и другую информацию, сгенерированную утилитами для анализа генома. Когда прочтения сопоставлены с эталонным геномом и мутации найдены, ученому остается проконтролировать, правильно ли сработали машины и алгоритмы. От того, насколько точно выявлены мутации в геноме, зависит, какой диагноз поставят пациенту или какое лечение ему назначат. Поэтому в клинической диагностике контролировать работу машин должен ученый, а помогает ему в этом геномный браузер.

Биоинформатикам-разработчикам геномный браузер помогает анализировать сложные случаи, чтобы найти ошибки в работе алгоритмов и понять, как их можно улучшить.

Новый геномный браузер NGB (New Genome Browser) от ЕРАМ работает в вебе, но по скорости и функционалу не уступает десктопным аналогам. Это продукт, которого не хватало на рынке: предыдущие онлайновые инструменты работали медленнее и умели делать меньше, чем десктопные. Сейчас многие клиенты выбирают веб-приложения из соображений безопасности. Онлайн-инструмент позволяет ничего не устанавливать на рабочий компьютер ученого. С ним можно работать из любой точки мира, зайдя на корпоративный портал. Ученому не обязательно всюду возить за собой рабочий компьютер и скачивать на него все необходимые данные, которых может быть очень много.

Геннадий Захаров, бизнес-аналитик:

«Над опенсорсными утилитами я работал частично как заказчик: ставил задачу. Я изучал лучшие решения на рынке, анализировал их преимущества и недостатки, искал, как можно их усовершенствовать. Нам нужно было сделать веб-решения не хуже десктопных аналогов и при этом добавить в них что-то уникальное.

В 3D-просмотрщике молекул это была работа с виртуальной реальностью, а в геномном браузере – улучшенная работа с вариациями. Мутации бывают сложными. Перестройки в раковых клетках иногда затрагивают огромные области. В них появляются лишние хромосомы, куски хромосом и целые хромосомы исчезают или объединяются в случайном порядке. Отдельные куски генома могут копироваться по 10–20 раз. Такие данные, во-первых, сложнее получить из прочтений, а во-вторых, сложнее визуализировать.

Мы разработали визуализатор, который правильно читает информацию о таких протяженных структурных перестройках. Еще мы сделали набор визуализаций, который при контакте хромосом показывает, образовались ли из-за этого контакта гибридные белки. Если протяженная вариация затрагивает несколько белков, мы по клику можем рассчитать и показать, что происходит в результате такой вариации, какие гибридные белки получаются. В других визуализаторах ученым приходилось отслеживать эту информацию вручную, а в NGB – в один клик».

Как изучать биоинформатику

Мы уже говорили, что биоинформатики – гибридные специалисты, которые должны знать и биологию, и информатику. Самообразование играет в этом не последнюю роль. Конечно, в ЕРАМ есть вводный курс в биоинформатику, но рассчитан он на сотрудников, которым эти знания пригодятся на проекте. Занятия проводятся только в Санкт-Петербурге. И всё же, если биоинформатика вам интересна, возможность учиться есть:

Если спросить случайного прохожего, что такое биология, он наверняка ответит что-то вроде «наука о живой природе». Про информатику скажет, что она имеет дело с компьютерами и информацией. Если мы не побоимся быть навязчивыми и зададим ему третий вопрос – что такое биоинформатика? – тут-то он наверняка и растеряется. Логично: про эту область знаний даже в ЕРАМ знает далеко не каждый – хотя в нашей компании и биоинформатики есть. Давайте разбираться, для чего эта наука нужна человечеству вообще и ЕРАМ в частности: в конце концов, вдруг нас на улице об этом спросят.

Почему биология перестала справляться без информатики и при чем тут рак

Чтобы провести исследование, биологам уже недостаточно взять анализы и посмотреть в микроскоп. Современная биология имеет дело с колоссальными объемами данных. Часто обработать их вручную просто невозможно, поэтому многие биологические задачи решаются вычислительными методами. Не будем далеко ходить: молекула ДНК настолько мала, что разглядеть ее под световым микроскопом нельзя. А если и можно (под электронным), всё равно визуальное изучение не помогает решить многих задач.

ДНК человека состоит из трех миллиардов нуклеотидов – чтобы вручную проанализировать их все и найти нужный участок, не хватит и целой жизни. Ну, может и хватит – одной жизни на анализ одной молекулы – но это слишком долго, дорого и малопродуктивно, так что геном анализируют при помощи компьютеров и вычислений.

Биоинформатика - это и есть весь набор компьютерных методов для анализа биологических данных: прочитанных структур ДНК и белков, микрофотографий, сигналов, баз данных с результатами экспериментов и т. д.

Иногда секвенировать ДНК нужно, чтобы подобрать правильное лечение. Одно и то же заболевание, вызванное разными наследственными нарушениями или воздействием среды, нужно лечить по-разному. А еще в геноме есть участки, которые не связаны с развитием болезни, но, например, отвечают за реакцию на определенные виды терапии и лекарств. Поэтому разные люди с одним и тем же заболеванием могут по-разному реагировать на одинаковое лечение.

Еще биоинформатика нужна, чтобы разрабатывать новые лекарства. Их молекулы должны иметь определенную структуру и связываться с определенным белком или участком ДНК. Смоделировать структуру такой молекулы помогают вычислительные методы.

Достижения биоинформатики широко применяют в медицине, в первую очередь в терапии рака. В ДНК зашифрована информация о предрасположенности и к другим заболеваниям, но над лечением рака работают больше всего. Это направление считается самым перспективным, финансово привлекательным, важным – и самым сложным.

Биоинформатика в ЕРАМ

В ЕРАМ биоинформатикой занимается подразделение Life Sciences. Там разрабатывают программное обеспечение для фармкомпаний, биологических и биотехнологических лабораторий всех масштабов - от стартапов до ведущих мировых компаний. Справиться с такой задачей могут только люди, которые разбираются в биологии, умеют составлять алгоритмы и программировать.

Биоинформатики – гибридные специалисты. Сложно сказать, какое знание для них первично: биология или информатика. Если так ставить вопрос, им нужно знать и то и другое. В первую очередь важны, пожалуй, аналитический склад ума и готовность много учиться. В ЕРАМ есть и биологи, которые доучились информатике, и программисты с математиками, которые дополнительно изучали биологию.

Как становятся биоинформатиками

Мария Зуева, разработчик:

«Я получила стандартное ИТ-образование, потом училась на курсах ЕРАМ Java Lab, где увлеклась машинным обучением и Data Science. Когда я выпускалась из лаборатории, мне сказали: «Сходи в Life Sciences, там занимаются биоинформатикой и как раз набирают людей». Не лукавлю: тогда я услышала слово «биоинформатика» в первый раз. Прочитала про нее на Википедии и пошла.

Тогда в подразделение набрали целую группу новичков, и мы вместе изучали биоинформатику. Начали с повторения школьной программы про ДНК и РНК, затем подробно разбирали существующие в биоинформатике задачи, подходы к их решению и алгоритмы, учились работать со специализированным софтом».

«По образованию я биофизик, в 2012-м защитил кандидатскую по генетике. Какое-то время работал в науке, занимался исследованиями – и продолжаю до сих пор. Когда появилась возможность применить научные знания в производстве, я тут же за нее ухватился.

Для бизнес-аналитика у меня весьма специфическая работа. Например, финансовые вопросы проходят мимо меня, я скорее эксперт по предметной области. Я должен понять, чего от нас хотят заказчики, разобраться в проблеме и составить высокоуровневую документацию – задание для программистов, иногда сделать работающий прототип программы. По ходу проекта я поддерживаю контакт с разработчиками и заказчиками, чтобы те и другие были уверены: команда делает то, что от нее требуется. Фактически я переводчик с языка заказчиков – биологов и биоинформатиков – на язык разработчиков и обратно».

Как читают геном

Чтобы понять суть биоинформатических проектов ЕРАМ, сначала нужно разобраться, как секвенируют геном. Дело в том, что проекты, о которых мы будем говорить, напрямую связаны с чтением генома. Обратимся за объяснением к биоинформатикам.

Михаил Альперович, глава юнита биоинформатики:

«Представьте, что у вас есть десять тысяч экземпляров «Войны и мира». Вы пропустили их через шредер, хорошенько перемешали, наугад вытащили из этой кучи ворох бумажных полосок и пытаетесь собрать из них исходный текст. Вдобавок у вас есть рукопись «Войны и мира». Текст, который вы соберете, нужно будет сравнить с ней, чтобы отловить опечатки (а они обязательно будут). Примерно так же читают ДНК современные машины-секвенаторы. ДНК выделяют из клеточных ядер и делят на фрагменты по 300–500 пар нуклеотидов (мы помним, что в ДНК нуклеотиды связаны друг с другом попарно). Молекулы дробят, потому что ни одна современная машина не может прочитать геном от начала до конца. Последовательность слишком длинная, и по мере ее прочтения накапливаются ошибки.

Вспоминаем «Войну и мир» после шредера. Чтобы восстановить исходный текст романа, нам нужно прочитать и расположить в правильном порядке все кусочки романа. Получается, что мы читаем книгу несколько раз по крошечным фрагментам. То же с ДНК: каждый участок последовательности секвенатор прочитывает с многократным перекрытием – ведь мы анализируем не одну, а множество молекул ДНК.

Полученные фрагменты выравнивают – «прикладывают» каждый из них к эталонному геному и пытаются понять, какому участку эталона соответствует прочитанный фрагмент. Затем в выравненных фрагментах находят вариации – значащие отличия прочтений от эталонного генома (опечатки в книге по сравнению с эталонной рукописью). Этим занимаются программы – вариант-коллеры (от англ. variant caller – выявитель мутаций). Это самая сложная часть анализа, поэтому различных программ – вариант-коллеров много и их постоянно совершенствуют и разрабатывают новые.

Подавляющее большинство найденных мутаций нейтральны и ни на что не влияют. Но есть и такие, в которых зашифрованы предрасположенность к наследственным заболеваниям или способность откликаться на разные виды терапии».

Для анализа берут образец, в котором находится много клеток - а значит, и копий полного набора ДНК клетки. Каждый маленький фрагмент ДНК прочитывают несколько раз, чтобы минимизировать вероятность ошибки. Если пропустить хотя бы одну значащую мутацию, можно поставить пациенту неверный диагноз или назначить неподходящее лечение. Прочитать каждый фрагмент ДНК по одному разу слишком мало: единственное прочтение может быть неправильным, и мы об этом не узнаем. Если мы прочитаем тот же фрагмент дважды и получим один верный и один неверный результат, нам будет сложно понять, какое из прочтений правдивое. А если у нас сто прочтений и в 95 из них мы видим один и тот же результат, мы понимаем, что он и есть верный.

Геннадий Захаров:

«Для анализа раковых заболеваний секвенировать нужно и здоровую, и больную клетку. Рак появляется в результате мутаций, которые клетка накапливает в течение своей жизни. Если в клетке испортились механизмы, отвечающие за ее рост и деление, то клетка начинает неограниченно делиться вне зависимости от потребностей организма, т. е. становится раковой опухолью. Чтобы понять, чем именно вызван рак, у пациента берут образец здоровой ткани и раковой опухоли. Оба образца секвенируют, сопоставляют результаты и находят, чем один отличается от другого: какой молекулярный механизм сломался в раковой клетке. Исходя из этого подбирают лекарство, которое эффективно против клеток с “поломкой”».

Биоинформатика: производство и опенсорс

У подразделения биоинформатики в ЕРАМ есть и производственные, и опенсорс-проекты. Причем часть производственного проекта может перерасти в опенсорс, а опенсорсный проект – стать частью производства (например, когда продукт ЕРАМ с открытым кодом нужно интегрировать в инфраструктуру клиента).

Проект №1: вариант-коллер

Для одного из клиентов – крупной фармацевтической компании – ЕРАМ модернизировал программу вариант-коллер. Ее особенность в том, что она способна находить мутации, недоступные другим аналогичным программам. Изначально программа была написана на языке Perl и обладала сложной логикой. В ЕРАМ программу переписали на Java и оптимизировали – теперь она работает в 20, если не в 30 раз быстрее.

Исходный код программы доступен на GitHub .

Проект №2: 3D-просмотрщик молекул

Для визуализации структуры молекул в 3D есть много десктоп- и веб-приложений. Представлять, как молекула выглядит в пространстве, крайне важно, например, для разработки лекарств. Предположим, нам нужно синтезировать лекарство, обладающее направленным действием. Сначала нам потребуется спроектировать молекулу этого лекарства и убедиться, что она будет взаимодействовать с нужными белками именно так, как нужно. В жизни молекулы трехмерные, поэтому анализируют их тоже в виде трехмерных структур.

Для 3D-просмотра молекул ЕРАМ сделал онлайн-инструмент, который изначально работал только в окне браузера. Потом на основании этого инструмента разработали версию, которая позволяет визуализировать молекулы в очках виртуальной реальности HTC Vive. К очкам прилагаются контроллеры, которыми молекулу можно поворачивать, перемещать, подставлять к другой молекуле, поворачивать отдельные части молекулы. Делать всё это в 3D куда удобнее, чем на плоском мониторе. Эту часть проекта биоинформатики ЕРАМ делали совместно с подразделением Virtual Reality, Augmented Reality and Game Experience Delivery.

Программа только готовится к публикации на GitHub, зато пока есть , по которой можно посмотреть ее демо-версию.

Как выглядит работа с приложением, можно узнать из видео .

Проект №3: геномный браузер NGB

Геномный браузер визуализирует отдельные прочтения ДНК, вариации и другую информацию, сгенерированную утилитами для анализа генома. Когда прочтения сопоставлены с эталонным геномом и мутации найдены, ученому остается проконтролировать, правильно ли сработали машины и алгоритмы. От того, насколько точно выявлены мутации в геноме, зависит, какой диагноз поставят пациенту или какое лечение ему назначат. Поэтому в клинической диагностике контролировать работу машин должен ученый, а помогает ему в этом геномный браузер.

Биоинформатикам-разработчикам геномный браузер помогает анализировать сложные случаи, чтобы найти ошибки в работе алгоритмов и понять, как их можно улучшить.

Новый геномный браузер NGB (New Genome Browser) от ЕРАМ работает в вебе, но по скорости и функционалу не уступает десктопным аналогам. Это продукт, которого не хватало на рынке: предыдущие онлайновые инструменты работали медленнее и умели делать меньше, чем десктопные. Сейчас многие клиенты выбирают веб-приложения из соображений безопасности. Онлайн-инструмент позволяет ничего не устанавливать на рабочий компьютер ученого. С ним можно работать из любой точки мира, зайдя на корпоративный портал. Ученому не обязательно всюду возить за собой рабочий компьютер и скачивать на него все необходимые данные, которых может быть очень много.

Геннадий Захаров, бизнес-аналитик:

«Над опенсорсными утилитами я работал частично как заказчик: ставил задачу. Я изучал лучшие решения на рынке, анализировал их преимущества и недостатки, искал, как можно их усовершенствовать. Нам нужно было сделать веб-решения не хуже десктопных аналогов и при этом добавить в них что-то уникальное.

В 3D-просмотрщике молекул это была работа с виртуальной реальностью, а в геномном браузере – улучшенная работа с вариациями. Мутации бывают сложными. Перестройки в раковых клетках иногда затрагивают огромные области. В них появляются лишние хромосомы, куски хромосом и целые хромосомы исчезают или объединяются в случайном порядке. Отдельные куски генома могут копироваться по 10–20 раз. Такие данные, во-первых, сложнее получить из прочтений, а во-вторых, сложнее визуализировать.

Мы разработали визуализатор, который правильно читает информацию о таких протяженных структурных перестройках. Еще мы сделали набор визуализаций, который при контакте хромосом показывает, образовались ли из-за этого контакта гибридные белки. Если протяженная вариация затрагивает несколько белков, мы по клику можем рассчитать и показать, что происходит в результате такой вариации, какие гибридные белки получаются. В других визуализаторах ученым приходилось отслеживать эту информацию вручную, а в NGB – в один клик».

Как изучать биоинформатику

Мы уже говорили, что биоинформатики – гибридные специалисты, которые должны знать и биологию, и информатику. Самообразование играет в этом не последнюю роль. Конечно, в ЕРАМ есть вводный курс в биоинформатику, но рассчитан он на сотрудников, которым эти знания пригодятся на проекте. Занятия проводятся только в Санкт-Петербурге. И всё же, если биоинформатика вам интересна, возможность учиться есть:

Может продемонстрировать сходство функций белков или отношения между видами (таким образом могут быть составлены Филогенетические деревья). С возрастанием количества данных уже давно стало невозможным вручную анализировать последовательности. В наши дни для поиска по геномам тысяч организмов, состоящих из миллиардов пар нуклеотидов используются компьютерные программы. Программы могут однозначно сопоставить (выровнять) похожие последовательности ДНК в геномах разных видов; часто такие последовательности несут сходные функции, а различия возникают в результате мелких мутаций, таких как замены отдельных нуклеотидов, вставки нуклеотидов, и их «выпадения» (делеции). Один из вариантов такого выравнивания применяется при самом процессе секвенирования. Так называемая техника «дробного секвенирования » (которая была, например, использована Институтом Генетических Исследований для секвенирования первого бактериального генома, Haemophilus influenzae ) вместо полной последовательности нуклеотидов даёт последовательности коротких фрагментов ДНК (каждый длиной около 600-800 нуклеотидов). Концы фрагментов накладываются друг на друга и, совмещённые должным образом, дают полный геном. Такой метод быстро даёт результаты секвенирования, но сборка фрагментов может быть довольно сложной задачей для больших геномов. В проекте по расшифроке генома человека сборка заняла несколько месяцев компьютерного времени. Сейчас этот метод применяется для практически всех геномов, и алгоритмы сборки геномов являются одной из острейших проблем биоинформатики на сегодняшний момент.

Другим примером применения компьютерного анализа последовательностей является автоматический поиск генов и регуляторных последовательностей в геноме. Не все нуклеотиды в геноме используются для задания последовательностей белков. Например, в геномах высших организмов, большие сегменты ДНК явно не кодируют белки и их функциональная роль неизвестна. Разработка алгоритмов выявления кодирующих белки участков генома является важной задачей современной биоинформатики.

Биоинформатика помогает связать геномные и протеомные проекты, к примеру, помогая в использовании последовательности ДНК для идентификации белков.

Аннотация геномов

Оценка биологического разнообразия

Основные биоинформационные программы

  • ACT (Artemis Comparison Tool) - геномный анализ
  • Arlequin - анализ популяционно-генетических данных
  • BioEdit
  • BioNumerics - коммерческий универсальный пакет программ
  • BLAST - поиск родственных последовательностей в базе данных нуклеотидных и аминокислотных последовательностей
  • Clustal - множественное выравнивание нуклеотидных и аминокислотных последовательностей
  • DnaSP - анализ полиморфизма последовательностей ДНК
  • FigTree - редактор филогенетических деревьев
  • Genepop
  • Genetix - популяционно-генетический анализ (программа доступна только на французском языке)
  • JalView - редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей
  • MacClade - коммерческая программа для интерктивного эволюционного анализа данных
  • MEGA - молекулярно-эволюционный генетический анализ
  • Mesquite - программа для сравнительной биологии на языке Java
  • Muscle - множественное сравнение нуклеотидных и аминокислотных последовательностей. Более быстрая и точная по сравнению с ClustalW
  • PAUP - филогенетический анализ с использованием метода парсимонии (и других методов)
  • PHYLIP - пакет филогенетических программ
  • Phylo_win - филогенетический анализ. Программа имеет графический интерфейс.
  • PopGene - анализ генетического разнообразия популяций
  • Populations - популяционно-генетический анализ
  • PSI Protein Classifier - обобщение результатов, полученных с помощью программы PSI-BLAST
  • Seaview - филогенетический анализ (с графическим интерфейсом)
  • Sequin - депонирование последовательностей в GenBank , EMBL , DDBJ
  • SPAdes - сборщик бактериальных геномов
  • T-Coffee - множественное прогрессивное выравнивание нуклеотидных и аминокислотных последовательностей. Более чувствительное, чем в ClustalW /ClustalX .
  • UGENE - свободный русскоязычный инструмент, множественное выравнивание нуклеотидных и аминокислотных последовательностей, филогенетический анализ, аннотирование, работа с базами данных.
  • Velvet - сборщик геномов

Биоинформатика и вычислительная биология

Под биоинформатикой понимают любое использование компьютеров для обработки биологической информации. На практике, иногда это определение более узкое, под ним понимают использование компьютеров для обработки экспериментальных данных по структуре биологических макромолекул (белков и нуклеиновых кислот) с целью получения биологически значимой информации. В свете изменения шифра научных специальностей (03.00.28 "Биоинформатика" превратилась в 03.01.09 "Математическая биология, биоинформатика") поле термина "биоинформатика" расширилось и включает все реализации математических алгоритмов, связанных с биологическими объектами.

Термины биоинформатика и «вычислительная биология » часто употребляются как синонимы, хотя последний чаще указывает на разработку алгоритмов и конкретные вычислительные методы. Считается, что не всякое использование вычислительных методов в биологии является биоинформатикой, например, математическое моделирование биологических процессов - это не биоинформатика.

Биоинформатика использует методы прикладной математики , статистики и информатики . Исследования в вычислительной биологии нередко пересекаются с системной биологией . Основные усилия исследователей в этой области направлены на изучение геномов , анализ и предсказание структуры белков , анализ и предсказание взаимодействий молекул белка друг с другом и другими молекулами, а также реконструкция эволюции .

Биоинформатика и её методы используются также в биохимии , биофизике , экологии и в других областях. Основная линия в проектах биоинформатики - это использование математических средств для извлечения полезной информации из «шумных» или слишком объёмных данных о структуре ДНК и белков, полученных экспериментально.

Структурная биоинформатика

К структурной биоинформатике относится разработка алгоритмов и программ для предсказания пространственной структуры белков. Темы исследований в структурной биоинформатике:

  • Рентгеноструктурный анализ (РСА) макромолекул
  • Индикаторы качества модели макромолекулы, построенной по данным РСА
  • Алгоритмы вычисления поверхности макромолекулы
  • Алгоритмы нахождения гидрофобного ядра молекулы белка
  • Алгоритмы нахождения структурных доменов белков
  • Пространственное выравнивание структур белков
  • Структурные классификации доменов SCOP и CATH
  • Молекулярная динамика

Примечания

См. также


Wikimedia Foundation . 2010 .

Синонимы :

Смотреть что такое "Биоинформатика" в других словарях:

    Сущ., кол во синонимов: 1 биология (73) Словарь синонимов ASIS. В.Н. Тришин. 2013 … Словарь синонимов

    Биоинформатика - (син. Вычислительная биология) биологическая дисциплина, занимающаяся исследованием, разработкой и применением вычислительных методов (в т.ч. компьютерных) и подходов для расширения использования биологических, поведенческих или медицинских… … Официальная терминология

    биоинформатика - Раздел биотехнологии, изучает возможности эффективного использования баз данных и сведений, накопленных с помощью функциональной, структурной геномики, комбинаторной химии, скрининга, протеомики и ДНК секвинирования… … Справочник технического переводчика

    Биоинформатика - * біяінфарматыка * bioinformatics новое направление исследований, использующее математические и алгоритмические методы для решения молекулярно биологических задач. Задачи Б. можно определить как развитие и использование математических и… …

    Биоинформатика - (bioinformatics). Дисциплина, в которой соединились биология, компьютерные технологии и информатика … Психология развития. Словарь по книге

    Белковая биоинформатика - * бялковая біяінфарматыка * protein bioinformatics анализ белковых суперсемейств методами биоинформатики и экспериментальными исследованиями для разработки стратегий в области белковой биоинженерии. Этот анализ используется для выяснения роли… … Генетика. Энциклопедический словарь

    Бактериальная биоинформатика - * бактэрыяльная біяінфарматыка * bacterial bioinformatics использование компьютерных методов скрининга секвенированных геномов патогенов для разработки антимикробных препаратов. Устойчивость к антибиотикам среди вирулентных видов увеличивается,… … Генетика. Энциклопедический словарь

    Клеточная биоинформатика - * клетачная біяінфарматыка * cellular bioinformatics небольшой раздел биоинформатики (см.), сфокусированный на исследовании функционирования живых клеток с привлечением всех имеющихся данных о ДНК, мРНК, белках и процессах метаболизма. Один из… … Генетика. Энциклопедический словарь

    Медицинская биоинформатика - * медыцынская біяінфарматыка * medical bioinformatics научная дисциплина, использующая методы биоинформатики (см.) в медицине … Генетика. Энциклопедический словарь

    Выделениe ДНК методом спиртового осаждения. ДНК выглядит как клубок белых нитей … Википедия

Вводная лекция по биоинформатике

План урока:

    Что такое биоиформатика?

    Цели и задачи биоинформатики.

    Объекты исследования.

    Этапы развития биоинформатики.

    Типы базы данных.

    Разделы биоинформатики.

    Список литературы.

1. Что такое биоинформатика?

Биоинформатика (bioinformatics) - быстро развивающаяся отрасль информатики (теории информации), занимающаяся теоретическими вопросами хранения и передачи информации в биологических системах.

Эта наука возникла в 1976-1978 годах, окончательно оформилась в 1980 году со специальным выпуском журнала «Nucleic Acid Research» (NAR).

2. Цели и задачи биоинформатики

Целью биоинформатики является, как накопление биологических знаний в форме, обеспечивающей их наиболее эффективное использование, так и построение и анализ математических моделей биологических систем и их элементов.

    Разработка алгоритмов для анализа биологических данных большого объема:

    • Алгоритм поиска генов в геноме;

    Анализ и интерпретация различных типов биологических данных таких, как нуклеотидные и аминокислотные последовательности, домены белков, структура белков и т.д.:

    • Изучение структуры активного центра белка;

    Разработка программного обеспечения для управления и быстрого доступа к биологическим данным:

    • Создание банка данных аминокислотных последовательностей.

Таким образом, основными задачами биоинформатики являются: распознавание белок-кодирующих участков в первичной структуре биополимеров, сравнительный анализ первичных структур биополимеров, расшифровка пространственной структуры биополимеров и их комплексов, пространственное сворачивание белков, моделирование структуры и динамики биомакромолекул, а также создание и сопровождение специализированных баз данных.

3. Основные направления биоинформатики

в зависимости от исследуемых объектов

1) Биоинформатика последовательностей;

2) Структурная биоинформатика;

3) Компьютерная геномика.

С другой стороны биоинформатику можно условно разделить на несколько направлений в зависимости от типа решаемых задач:

    Применение известных методов анализа для получения новых биологических знаний;

    Разработка новых методов анализа биологических данных;

    Разработка новых баз данных.

Наиболее известной и наиболее эффективной областью применения биоинформатики в настоящее время является анализ геномов, тесно связанный с анализом последовательностей.

4. Этапы развития биоинформатики

В 1962 году была придумана концепция "молекулярных часов", в 1965 была секвенирована т-РНК, определена ее вторичная структура, в это же время были созданы базы данных PIR для хранения информации об аминокислотных последовательностях. В 1972 году было придумано клонирование.

Рис. 1. Клонирование животных.

В 1978 году были разработаны методы секвенирования, была создана база данных пространственных структур белков. В 1980 был выпущен спецвыпуск журнала NAR, посвященный биоинформатике, затем были придуманы некоторые алгоритмы выравнивания последовательностей, о которых речь пойдет дальше. Дальше был придуман метод ПЦР (полимеразная цепная реакция), а в биоинформатике - алгоритмы поиска похожих фрагментов последовательностей в базах данных. В 1987 году оформился GeneBank (коллекция нуклеотидных последовательностей) и т.д.

5. Типы базы данных

Биолог в биоинформатике обычно имеет дело с базами данных и инструментами их анализа. Теперь разберемся, какие базы данных бывают в зависимости от того, что в них помещают.

Первый тип – архивные базы данных, это большая свалка, куда любой может поместить все, что захочет. К таким базам относятся:

    GeneBank & EMBL – здесь хранятся первичные последовательности;

    PDB – пространственные структуры белков,

и многое другое.

В качестве курьеза могу привести пример: в архивной базе данных указано, что в геноме археи (архебактерии) есть ген, кодирующий белок главного комплекса гистосовместимости, что является полной чепухой.

Второй тип – курируемые базы данных, за достоверность которых отвечает хозяева базы данных. Туда информацию никто не присылает, ее из архивных баз данных отбирают эксперты, проверяя достоверность информации – что записано в этих последовательностях, какие есть экпериментальные основания для того, чтобы считать, что эти последовательности выполняют ту или иную функцию. К базам данных такого типа относятся:

    Swiss- Prot – наиболее качественная база данных, содержащая аминокислотные последовательности белков;

    KEGG – информация о метаболизме (такая, которая представлена на карте метаболических путей, которую те, кто ходит на лекции, видели на лекции № 2);

    FlyBase – информация о Drosophila;

    COG – информация об ортологичных генах.

Поддержание базы требует работы кураторов или аннотаторов.

Третий тип – производные базы данных. Такие базы получаются в результате обработки данных из архивных и курируемых баз данных. Сюда входит:

    SCOP – База данных структурной классификации белков (описывается структура белков);

    PFAM – База данных по семействам белков;

    GO (Gene Ontology) – Классификация генов (попытка создания набора терминов, упорядочивания терминологии, чтобы один ген не назывался по-разному, и чтобы разным генам не давали одинаковые названия);

    ProDom – белковые домены;

    AsMamDB – альтернативный сплайсинг у млекопитающих.

Таким образом, существует три типа базы данных: архивные базы данных, курируемые и производные базы данных.

[Видео] [Слайды]

Революция в ядерной физике привела много лет назад к накоплению огромного количества данных, которые надо было хранить и обрабатывать. Это оказалось под силу только компьютерам, а за ними и супер-компьютерам.

Бум геномики последних 10-15 лет продолжил эту традицию и приумножил ее: медико-биологические исследования касаются каждого из нас, а значит и данных будет производиться все больше и больше особенно в свете идеи персонализированной медицины и требований большой фармы. Тут уж без компьютерных знаний и программных продуктов и вовсе делать нечего. Но кроме того, надо хорошо знать что изучать, как, как анализировать данные и насколько им можно верить. Как хранить и обрабатывать. Где применять и где использовать.

В лекции освещено большинство этих «как». Алла ставит своей целью рассказать о значимости и широте приложений биоинформатики.

2. Мутационный процесс и методы его изучения (Алексей Кондрашов, МГУ)

[Видео] [Слайды]

Мутационный процесс - первый из двух необходимых факторов дарвиновской эволюции. В лекции рассмотрены причины и механизмы возникновения мутаций, методы измерения параметров мутационного процесса на малых, средних и больших временах, данные о скоростях мутирования и простейшие модели влияния мутирования на генетическую структуру популяции.

3. Естественный отбор и методы его изучения (Алексей Кондрашов, МГУ)

[Видео] [Слайды]

Естественный отбор - второй из двух необходимых факторов дарвиновской эволюции. В лекции рассмотрены причины и механизмы возникновения отбора, методы и параметры, применяемые для его описания и изучения, данные об отборе в природе и простейшие модели влияния отбора на популяцию.

4. Детское развитие и биоинформатика: задачи и решения (Елена Григоренко, Yale University)

[Видео] [Слайды]

В лекции рассказано о нескольких «стыках» наук о развитии и биоинформатики.
Обсуждаются проблемы пренатальной диагностики и пренатального секвенирования, а также экзомного секвенирования новорожденных.

Рассказывается об изучении влияния ранней среды развития на состояние метилома, и о геномной этиологии детских расстройств развития. В заключение рассмотрены этические вопросы, связанные с использованием геномной информации в принятии диагностических и индивидуализированных решений о развитии ребенка.

5. Секвенирование нового поколения: принципы, возможности и перспективы (Мария Логачева, МГУ)

[Видео] [Слайды]

Секвенирование нового поколения (NGS) преобразило многие области биологических и биомедицинских исследований. Оно позволяет относительно быстро и недорого получать последовательности генов и геномов ранее не изученных видов, а также – на материале большого числа индивидуумов одного вида – выявлять внутривидовую изменчивость, проводить поиск генов, ассоциированных с интересующими признаками. Помимо собственно определения последовательностей геномов NGS позволяет проводить детальный анализ экспрессии генов в разных тканях организма или при разных условиях, широко используется в эпигенетических исследованиях.

В лекции дан обзор основных методов секвенирования, их физико-химические принципы, особенности пробоподготовки, характеристика получаемых данных, их стоимость и типичные ошибки. Особое внимание уделено применимости разных методов для решения биологических задач, и даны рекомендации по планированию экспериментов, связанных с NGS.

6. Структурная биология белка: обзор проблем и подходов (Павел Яковлев, BIOCAD)

[Видео] [Слайды]

Использование только первичных последовательностей позволяет решить большинство вопросов, связанных с нуклеиновыми кислотами (ДНК и РНК). При изучении функций белков знание только первичной последовательности уже не позволяет решить большинство задач. Какие белки будут взаимодействовать между собой и как сильно? Повлечет ли замена аминокислоты смену функции белка? Как убрать побочные эффекты от лекарственного белка или увеличить его эффективность? На эти вопросы призвана ответить область биоинформатики, занимающаяся разработкой алгоритмов для моделирования пространственной формы белков и их взаимодействий.

7. De novo сборка транскриптомов (Артем Касьянов, МФТИ)

[Видео] [Слайды]

В связи со значительным удешевлением и повышением производительности технологий число проектов, посвященных de novo секвенированию геномов немодельных организмов, значительно возросло. В ряде случаев de novo секвенирование и сборка генома затруднена - к примеру, в случае его значительных размеров. В таких случаях прибегают к изучению транскриптома. Также de novo анализ транскриптома может понадобиться в случае изучения видов с большим количеством альтернативно сплайсирующихся генов, так как даже при наличии генома достаточно сложно определить полный перечень изоформ.

Лекция посвящена вопросам сборки транскриптомных данных в отсутствии генома. Рассмотрены такие темы, как сплайс-графы, программы trinity и newbler, сравнение и анализ сборок, сборка транскриптомов полиплоидных организмов.

8. Эволюция алгоритмов сборки генома (Антон Банкевич, СПбАУ РАН)

[Видео] [Слайды]

На данный момент существует уже несколько поколений методов секвенирования ДНК. Однако новые технологии бессмысленны без алгоритмов, способных обработать их результаты. Постоянно возникающие новые методы секвенирования ставят всё новые алгоритмические задачи. Одной из важнейших таких задач является сборка генома. В лекции рассказано об эволюции методов секвенирования и алгоритмических подходах к сборке генома, возникавших и продолжающих возникать с каждым шагом этой эволюции.

9. Введение в молекулярную биологию и генетику (Павел Добрынин, СПбГУ)

[Видео] [Слайды]

Лекция посвящена структуре и организации ДНК у прокариот и эукариот, молекулярным механизмам, отвечающим за сохранение и воспроизведение генетического материала. Разобраны основные механизмы, стоящие за генетической изменчивостью, и варианты реализации генетического материала.

10. Задача множественного локального выравнивания и построения синтенных блоков (Илья Минкин, Pennsylvania State University)

[Видео] [Слайды]

В лекции рассматривается две похожие алгоритмические задачи в сравнительной геномике: множественное локальное выравнивание и построение синтенных блоков. Эти алгоритмы играют крайне важную роль в сравнении полных последовательностей геномов. Рассказано о постановке задач и о базовых идеях, на которых построены некоторые современные алгоритмы.

11. Зачем и как делать презентации (Андрей Афанасьев, iBinom)

[Видео] [Слайды]

В лекции обсуждаются типы презентаций, зачем они на самом деле нужны, и рассказывается, как выступить так, чтобы слушатели все поняли и не заснули, а также каких ошибок надо избегать и с кого брать пример при подготовке своего выступления.

12. Бизнес в биоинформатике (Андрей Афанасьев, iBinom)

[Видео] [Слайды]

В лекции рассказано, какие биоинформатические компании существуют в России и в мире, кто их создал и на чем именно они зарабатывают деньги.
Обсуждены планы крупных игроков и тренды в индустрии.

В завершающей части лекции Андрей дает пищу для размышлений об организации собственного стартапа или выборе нового места работы.

13. Перспективы и проблемы системной биологии (Илья Серебрийский, Fox Chase Cancer Center)

[Видео] [Слайды]

Лекция призвана дать общее представление о системных свойствах биологических объектов. Илья Серебрийский рассказывает об основных составляющих системной биологии, об интерактомике и построении моделей, об основных проблемах в системной биологии и попытках их разрешения. Обсуждаются некоторые достижения системной биологии (главным образом из области онкологии). Также рассматриваются общедоступные ресурсы для системной биологии (TCGA/cBioPortal, CCLE).

14. Лабораторная по системной биологии (Илья Серебрийский, Fox Chase Cancer Center)

[Видео] [Слайды]

Занятие посвящено построению сетей взаимодействия на основе общедоступных баз данных. Использованы такие базы данных и веб-сервисы, как Entrez, GeneMANIA, BioGRID и другие. Рассмотрены различные методы визуализации сетей взаимодействия, в частности с помощью программы Cytoscape.

15. Метагеномика (Алла Лапидус, СПбАУ РАН)

[Видео] [Слайды]

Микробы везде, микробы правят миром, но далеко не со всеми из них мы можем познакомиться в лабораторных условиях. Подавляющее большинство из них мы не знаем как вырастить, а значит, их надо как-то извлекать из их естественной среды обитания - земли, воды, из-под корней деревьев и т.д., где они живут большими группами.

Метагеномика и помогает в этих весьма запутанных исследованиях. А еще она помогает кормить, согревать, лечить людей и ловить преступников. Всему этому и биоинформатике в метагеномике и была посвящена эта лекция.

16. Проблема проверки множества статистических гипотез (Антон Коробейников, СПбГУ, СПбАУ РАН)

[Видео] [Слайды]

В лекции рассмотрена классическая проблема проверки множества гипотез одновременно. Подобного рода задачи встают сплошь и рядом, например, при полногеномном поиске ассоциаций или анализе данных микрочипов. Рассмотрены возможные варианты решения этой проблемы, начиная от классического подхода Бонферрони и заканчивая методами, позволяющими контролировать FDR (false discovery rate).

17. Как правильно и неправильно использовать статистику (Никита Алексеев, СПбГУ, George Washington University)

[Видео] [Слайды]

Лекция посвящена ошибкам в применении статистики и способам их предотвращения. В частности, дан ответ на вопрос: в каких ситуациях можно использовать стандартные критерии для сравнения типичных представителей выборки, и что делать, если стандартные критерии не подходят?

18. Математические модели регуляции экспрессии гена (Мария Самсонова, СПбГПУ)

[Видео] [Слайды]

Понимание тонких механизмов регуляции активности генов ‒ необходимое условие для расшифровки механизмов возникновения болезней у человека. К сожалению, на сегодняшний день такое понимание отсутствует: мы не можем удовлетворительно объяснить, ни каким образом группы транскрипционных факторов взаимодействуют друг с другом, с белками хроматина, другими адапторными белками и комплексом РНК‒полимеразы, ни как и почему тот или иной участок последовательности ДНК может контролировать сложную, ограниченную в пространстве и детерминированную во времени картину экспрессии гена.

Математическое моделирование помогает понять механизмы генной регуляции путем механистического и количественного описания этого процесса. В лекции рассмотрены два наиболее распространенных подхода к моделированию экспрессии генов ‒ основанные на нелинейных уравнениях реакции‒диффузии и термодинамическом равновесии. Последовательно рассмотрены этапы построения таких моделей и приведены примеры их использования для генерации новых знаний.

19. Полулокальное и локальное выравнивание последовательностей (Александр Тискин, University of Warwick)

[Видео] [Слайды]

Вычисление наибольшей общей подпоследовательности (longest common subsequence, LCS) двух строк - одна из классических алгоритмических задач, имеющая широкое применение как в информатике, так и в вычислительной биологии, где она известна как «глобальное выравнивание последовательностей». Во многих приложениях необходимо обобщение этой задачи, которое мы называем вычислением полулокальной LCS (semi-local LCS), или «полулокальным выравниванием». В этом случае требуется вычислить LCS между строкой и всеми подстроками другой строки, и/или между всеми префиксами одной строки и всеми суффиксами другой. Помимо важной роли этой обобщенной задачи в строковых алгоритмах у нее обнаруживаются неожиданные связи с алгеброй полугрупп и вычислительной геометрией, с сетями сравнений (comparison networks), а также практические приложения в вычислительной биологии. Кроме того, задача вычисления полулокальной LCS может использоваться в качестве гибкого и эффективного подхода к (полностью) локальному выравниванию биологических последовательностей.

В лекции представлено эффективное решение задачи вычисления полулокальной LCS и дан обзор основных сопутствующих результатов и приложений. В их числе динамическая поддержка LCS; быстрое вычисление клик в некоторых специальных графах; быстрое сравнение сжатых строк; параллельные вычисления на строках.

20. Анализ семейств молекулярных последовательностей (Сергей Нурк, СПбАУ РАН)

[Видео] [Слайды]

При решении самых разных задач, от поиска регуляторных мотивов до предсказания функций белков, биоинформатикам приходится работать с целыми «семействами» эволюционно связанных нуклеотидных или аминокислотных последовательностей. В лекции рассмотрены различные способы представления таких семейств, применяемые в популярных биоинформатических инструментах и базах данных. Рассказано, как расшифровать PROSITE pattern и проинтерпретировать sequence logo, в чем отличие profile HMM от PSSM, а также как избежать ошибок при их построении и анализе результатов.

21. Эпигеномика, РНК и все такое (Андрей Миронов, ИППИ РАН)

[Видео] [Слайды]

В лекции дан обзор понятия эпигенетики. Рассмотрены уровни структурной организации хроматина, рассказано о различных эпигеномных модификациях: модификациях гистонов, метилировании CpG-мотивов. Обсуждено их влияние на экспрессию генов.
Также рассмотрена роль эпигеномных модификаций в сплайсинге, импринтинге и т.п.

Рассказано о системе XIST (X-inactivation specific transcript), антисмысловых РНК, сплайсинге, РНК-зависимой регуляции.
Также рассмотрены модели для изучения эпигеномных модификаций.

22. Контроль качества данных NGS (Константин Оконечников, Max Planck Institute for Infection Biology)

[Видео] [Слайды]

В лекции описаны погрешности секвенирования, характерные для технологий NGS. Примерами таких ошибок являются ПЦР-амплификация, сиквенс-специфичные ошибки прочтения, неравномерное распределение GC-состава и прочие. Разобраны различные методы оценки этих погрешностей и учета их при анализе. Затронут вопрос практических методов решения и существующих программных инструментов.

23. Контроль качества данных NGS, семинар (Константин Оконечников, Max Planck Institute for Infection Biology)

[Видео] [Слайды]

В ходе семинара участники научились применять навыки программирования для контроля качества данных NGS. Были рассмотрены форматы данных BAM/SAM, библиотеки pysam и pyplot, фундаментальные понятия. В частности, разобраны примеры подсчета GC-состава, оценки частоты дупликаций, распределения длины вставки, расчета покрытия в окнах.

24. Практическое секвенирование РНК (Константин Оконечников, Max Planck Institute for Infection Biology)

[Видео] [Слайды 1] [Слайды 2]

На семинаре разбиралась практическая задача анализа данных РНК-секвенирования.
В формате презентации и практики были обсуждены и продемонстрированы методы: выравнивания ридов, первоначального контроля качества, пайплайны для изучения экспрессии генов DESeq и Cufflinks, нахождение изоформ транскриптов, поиск гибридных генов.

25. Биоинформатические подходы к изучению и лечению рака на примере рака легких (Мария Шутова, ИОГен РАН)

[Видео] [Слайды]

Рак - одно из самых распространенных и опасных заболеваний. Его называют «болезнью генома» за огромный вклад накопленных и новых мутаций в его появление и развитие. При этом известно, что не только состояние генома, но и транскрипционный и даже эпигенетический статус первичных раковых клеток, а также сложный гомеостаз растущей опухоли напрямую влияют на ее свойства и, главное, восприимчивость к терапии. Единственную возможность разобраться в этом клубке взаимозависимых факторов дает биоинформатика. В лекции разобраны основные вопросы, связанные с изучением опухолеобразования, и возможные способы ответить на них с использованием биоинформатических подходов.

26. Новые омики в биологии человека: метаболомика и липидомика (Филипп Хайтович, Сколтех)

[Видео] [Слайды]

Секвенирование человеческого генома, изучение человеческих генетических вариаций, секвенирование метагенома человека, транскриптомный анализ человеческих тканей - все эти биологические методы в приложении к «big data» дали ученым большой объем ценной информации о том, что отличает человека от других животных.

Эта лекция посвящена новым «омикам», позволяющим ответить на вопросы о человеческом организме при изучении мозга и других тканей - метаболомике и липидомике.

27. Геномная сборка: взгляд в завтрашний день (Андрей Пржибельский, СПбАУ РАН)

[Видео] [Слайды]

В последние годы технологии секвенирования нового поколения сделали заметный шаг вперед: появились IonTorrent и Pacific Biosciences, Ilumina создала ряд новых протоколов. Но, как оказывается, всего этого недостаточно для того, чтобы считать проблему сборки геномов решенной. Для того чтобы пройти путь от извлечения ДНК до полностью завершенного генома, как правило, требуются десятки различных специалистов, сотни тысяч долларов и годы работы. Поэтому сегодня эта задача остается актуальной как с точки зрения биотехнологий, так и с точки зрения биоинформатики. В лекции рассмотрены последние прорывы в методах сборки геномов, новейшие типы данных, которые, возможно, позволят вывести эту задачу на новый уровень, и перспективы геномики в ближайшем будущем.

Вместо заключения

  • образование
  • летняя школа
  • Добавить метки


    error: Контент защищен !!