Copy of BioHack / Проекты

Проекты

проекты biohack 2017 предоставлены

список проектов biohack 2017

Задачи
В минимальном виде — научиться собирать таблицу MAF из выдаваемых vcf и сделать минимальный web-сервис, принимающий номер хромосомы, позицию и нуклеотид и выдающий в ответ частоту встречаемости или ""none"". В качестве референса использовать hg19.

Дальше можно улучшать это многими способами. Например, сделать версию под hg38, описать CNV и т.д. и т.п. Можно вдохновляться https://github.com/konradjk/exac_browser и http://exac.broadinstitute.org/.

Требования к участникам
Желательно, чтобы участники понимали, что такое MAF и VCF и умели программировать.

Что известно про человеческие белки?

Илья Корвиго, Андрей Афанасьев | МФТИ

Существует набор качественно проаннотированных белковых замен humsavar, собранный в рамках базы данных UniProt. Эти данные часто используются для обучения автоматических классификаторов вредоносных мутаций. Поскольку все связанные с перечисленными мутациями заболевания должны быть сравнительно хорошо изучены, возникает интерес проверить покрытие соответствующих белков несколькими типами экспериментальной информации.

Задачи
Установить, какую долю всех человеческих белков покрывают варианты из humsavar. Для каждого белка оценить покрытие следующими типами информации
1. Сайт-направленный мутагенез.
2. Белок-белковые взаимодействия.
3. 3D-структуры (хотя бы для одного функционального домена белка)

Требования к участникам
Навыки парсинга баз данных (включая xml-файлы).
Крайне поможет знание BioPython: пакет содержит парсеры для многих баз данных.
Могут пригодиться навыки SQL.

Результаты этого проекта будут использованы в публикациях. В случае успешного выполнения, все участники будут перечислены в качестве соавторов соответствующих работ.

Анализ локомоторного поведения дрозофилы

Геннадий Захаров |Институт физиологии им. И.П. Павлова, EPAM

Метод анализа движения (локомоторного поведения) часто применяется для быстрой проверки экспериментальных животных на наличие нарушений в работе нервной системы. Коммерческие пакеты для анализа локомоции по видеозаписи ориентированы в основном на доклинические исследования и цена их, как правило, слишком высока для фундаментальных лабораторий в России, а открытые программные пакеты для записей, получаемых в лаборатории нейрогенетики ИФ РАН, по разным причинам плохо пригодны.

Участникам проекта предлагается оптимизировать существующее ПО или разработать собственное, которое позволило бы улучшить скорость и точность анализа локомоторного поведения.

Задачи
Разработка программы для анализа видеозаписей, способной выполнять следующие действия:
1. Получать на вход видеозапись локомоторного поведения.
2. Устранять искажения записи, связанные с положением камеры (barrel distortion, …). Параметры для устранения искажений может подобрать экспериментатор, автоматизация их подбора не требуется.
3. Определять положение мух на видеозаписи, строить траекторию движения, возможно определять дополнительные параметры (ориентация мухи).
4. Вычислять по полученной траектории параметры, по которым можно было бы классифицировать движение.

Требования к команде
Любые навыки, связанные с анализом видео и изображений (фильтрация изображений, вычитание фона, object tracking).

ПРЕЗЕНТАЦИЯ

Эволюция кодирующих последовательностей в человеческих популяциях

Илья Корвиго, Андрей Афанасьев | МФТИ

Важным инструментом для предсказания эффектов мутаций является оценка консервативности позиций в геноме. Такой подход, правда, часто приводит к ложно-положительным результатам (когда мутация предсказывается как патогенная). Это связано с тем, что отбор по позиции, идущий в течение десятков и сотен миллионов лет, стремится найти наиболее оптимальное состояние для белка, что не всегда означает, что переход в другие состояния сказывается на функции белка настолько, чтобы вызвать заметные отклонения в фенотипе. Соответственно, с эволюционной точки оценка кратковременных флуктуаций последовательности вокруг локального оптимума может служить куда более показательной мерой для предсказания патогенности мутаций. В рамках этого проекта предлагается использовать популяционные данные для анализа этой проблемы.

Задачи
1. Используя популяционную информацию из базы данных Exac, оценить dn/ds-статистику по каждому человеческому белку по всем популяциям вместе взятым.
2. Используя популяционную информацию из базы данных Exac, оценить dn/ds-статистику по каждому человеческому белку по топ-5 популяций (по представленности в базе) отдельно.
3. Найти белки, консервативность которых сильно разнится между популяциями.

Требования к участникам
Навыки работы с биологическими последовательностями. Базовая сравнительная статистика.

Результаты этого проекта будут использованы в публикациях. В случае успешного выполнения, все участники будут перечислены в качестве соавторов соответствующих работ.

В каких белках мутации предсказываются лучше?

Илья Корвиго, Андрей Афанасьев | МФТИ

На данный момент разработано большое множество автоматических классификаторов патогенности аминокислотных замен. Все они работают с разной точностью и часто дают противоречивые результаты. Мы предлагаем оценить, на каких подмножествах функциональных групп белков (выраженных в виде терминов GO по разметке доменов) разные скоры работают лучше/хуже.

Задачи
1. Используя разметку доменов из pfam, составить разбор белков из базы VariBench по функциональным доменам.
2. Для каждого функционального домена перечислить термины GO.
3. Оценить полноту и точность предсказания эффекта мутаций для скоров Polyphen-2, SIFT, FATHMM, MutationTaster, MetaLR, CADD, Eigen, DANN, DeepEVS. Для этого использовать базу предсказаний dbNSFP 3.2
4. Оценить для каждого скора, в доменах с какими терминами GO скор работает лучше/хуже.

Требования к участникам
Навыки парсинга баз данных (включая xml-файлы). Базовая описательная статистика.

Результаты этого проекта будут использованы в публикациях. В случае успешного выполнения, все участники будут перечислены в качестве соавторов соответствующих работ.

Мобильное приложение, знакомящее с основами биоинформатики

Юлия Кондратенко | Институт биоинформатики

Цель проекта — создать мобильное приложение с одной или несколькими играми, знакомящими пользователя с важными биоинформатическими понятиями — такими, как комплементарность нуклеотидов, выравнивание последовательностей, сборка генома. Пример игры для знакомства с понятием выравнивания – внизу экрана расположен геном, сверху, как в тетрисе, падает рид. Пользователю нужно, перемещая рид вправо и влево, добиться как можно лучшего выравнивания. Чем лучше выравнивание, тем больше очков получает пользователь.

Задачи
Реализовать хотя бы одну игру в виде приложения на платформе Android. Желательно создать систему с несколькими уровнями сложности – например, в случае выравнивания, рид может все больше отличаться от матрицы, и выровнять его становится все сложнее.

Интересно реализовать систему, которая подстраивала бы сложность игры под успехи пользователя. Опционально можно встроить систему достижений — например, когда пользователь набирает определенное число очков, он изучил бактерию, а потом и что-то более сложное.

Требования к участникам
Знание Java и базовых биоинформатических алгоритмов, желателен опыт разработки мобильных приложений.

Чем открытая HGMD отличается от ClinVar?

Илья Корвиго, Андрей Афанасьев | МФТИ

Существует известная платная база патогенных мутаций HGMD, которая, тем не менее, предоставляет открытую версию. Принято считать, что эта база данных содержит больше всего качественных данных об аминокислотных полиморфизмах. Так ли это?

Задачи
1. Построить сопоставление между координатами аминокислотных замен в номенклатуре HGMD и ClinVar.
2. Оценить размеры пересечения, объединения и дополнения HGMD и ClinVar.

Требования к участникам
Навыки парсинга баз данных (включая xml-файлы). Крайне поможет знание BioPython.

Результаты этого проекта будут использованы в публикациях. В случае успешного выполнения, все участники будут перечислены в качестве соавторов соответствующих работ.

Картирование открытой версии HGMD на геном

Илья Корвиго, Андрей Афанасьев | МФТИ

Существует известная платная база патогенных мутаций HGMD, которая, тем не менее, предоставляет открытую версию, которая указывает координаты замен только во внутренней номенклатуре HGMD, затрудняя использование этих данных в геномных проектах. Необходимо перенести все координаты из HGMD на геном.

Задачи
1. Картировать все аминокислотные замены из открытой версии HGMD на геном человека (версия сборки hg19).
2. Картировать все аминокислотные замены из открытой версии HGMD на геном человека (версия сборки hg38).

Требования к участникам
Навыки парсинга баз данных (включая xml-файлы).
Крайне поможет знание BioPython.
Понимание механизмов транскрипции и трансляции.
Поможет опыт работы с Ensemble biomart.

Результаты этого проекта будут использованы в публикациях. В случае успешного выполнения, все участники будут перечислены в качестве соавторов соответствующих работ.

Горизонтальный перенос генов бактериофагами в метагеномах

Елизавета Старикова | ФНКЦ физико-химической медицины

Объект интереса — это бактериофаги. Иногда они переносят функциональные гены от бактерии к бактерии, таким образом вмешиваясь в их метаболизм. Нас интересуют не модельные бактериофаги, а совокупность всех существующих в природе. Самый очевидный способ их обнаружить — использовать метагеномные данные.

Цель исследования — найти последовательности бактериофагов, переносящих "чужеродные" гены, в метагеномных контигах. Существует несколько инструментов для поиска профагов, но у них есть недостатки. Мы попробуем их обнаружить своим способом (либо модифицировать алгоритмы, использующиеся в существующих инструментах).

Задачи
1. Предсказать белок-кодирующие последовательности в метагеномных контигах.
2. Определить фаговые и нефаговые гены с использованием HMM.
3. Выделить регионы с высоким содержанием фаговых генов.
4. Определить функциональные бактериальные гены в составе этих регионов.
5. (Опционально) Поискать в окружении полученных (про-)фагов сайты связывания.

Требования к участникам
Знания в области молекулярной биологии будут крайне полезны.
Умение работать с основными биоинформатическими инструментами.
Способность распарсить файл.
Знание статистики и R (не обязательно виртуозное).

Используются ли одинаковые кодоны в гомоповторах белковых цепей?

Оксана Галзитская | Институт белка РАН

В настоящее время известно восемнадцать наследственных неврологических заболеваний, связанных с
мутациями многократной вставки одного аминокислотного остатка в последовательность белка.
В связи с этим изучение функционального назначения простых аминокислотных мотивов
в последовательности белка представляет важную биологическую задачу. Так наличие длинных, превышающих порог допустимого значения, полиглутаминовых и полиаланиновых повторов в белках связывают с такими болезнями, как болезнь Хантингтона и дистрофия мышц глазного яблока. Болезнь Хантингтона вызывается многократной вставкой кодона CAG, кодирующего глутамин, в гене IT15. В гене дикого типа у разных людей присутствует разное количество CAG повторов, однако, если число повторов превышает 36, развивается болезнь.

Задачи
1. Нужно будет проверить для белков из протеома человека с гомоповторами длиной более 5 аминокислот (по базе данных http://bioinfo.protres.ru/hrap/) какие кодоны используются в каждом случае. Будет ли это один и тот же кодон или чередование разных для данной аминокислоты?
2. Ответить на вопрос: соответствует ли область с гомоповторами в белках местам сплайсинга.

Требования к участникам
Навыки парсинга баз данных (включая xml-файлы).
Знание BioPython.

Результаты этих проектов будут использованы при написании статей, участники проектов войдут в число соавторов.

Задачи
1. Используя опубликованные базы данных (STRING, BIOGRID, PUBMED, UNIPROT и другие), создать протеомную карту взаимодействий для инсулина.
2. Проверить пересечение данных по различным базам данных.

Требования к участникам
Навыки парсинга баз данных (включая xml-файлы).
Знание BioPython.

Результаты этих проектов будут использованы при написании статей, участники проектов войдут в число соавторов.

What's the buzz about или что можно узнать о заболевании вооружившись pubmed и словарем

Оксана Галзитская, Никита Довидченко | Институт белка РАН

Cуществует агрегатор библиографической информации медико-биологической направленности под названием pubmed (www.pubmed.com). Кроме непосредственно ссылок на статью и ее абстракт, сервис предоставляет набор ключевых слов, ассоциированных со статьей (например, термины MeSH), а также cписок химических веществ, упоминаемых в статье. Данные о веществах и описание интересующих терминов можно посмотреть в сервисе UMLS (словарь MeSH один из словарей, на которых построен UMLS).

Участникам нужно собрать данные о болезни Альцгеймера.

Задачи
1. Что находилось в фокусе внимания n лет назад и куда он сместился на данный момент.
2. Какие вещества и почему активнее всего изучались ранее, и каким веществам сейчас уделяется наибольшее внимание.

Требования к участникам
В команде желательно иметь как биологов (чтобы верифицировать полученные данные), так и программистов
(написание оболочки к ncbi api, UMLS api, знание xml/json парсеров).
Навыки написания оболочек под REST API.
Навыки парсинга (xml, json).

Анализ демографической истории по геномным данным

Павел Добрынин | Институт биоинформатики

Демографическая история вида оставляет следы в геноме. Анализируя эти следы, можно пытаться реконструировать различные события и их последствия, которые сформировали геном животного в том виде, в каком мы его наблюдаем сейчас.

Задачи
1. Подготовка популяционных данных для работы.
2. Построение демографических моделей.
3. Сравнение наблюдаемых данных с тем, что предсказывает модель.

Требования к участникам
Знание Python, или желание освоить его на рудиментарном уровне =)

Предскажи их всех!

Николай Панюшев | СПбГУ

Предсказание сайтов посадки транскрипционных факторов в геноме — непростая задача, которую пытаются решать многие биоинформатические лаборатории. Тем не менее, чтобы предсказать, экспрессия каких генов изменится в ответ на транскрипционный фактор, нет необходимости рассматривать все гены организма. Многие гены в норме не транскрибируются в клетках взрослого организма.

Поэтому, чтобы получить данные, об уровне транскрипции конкретного гена, приходится принимать во внимание профиль экспрессии генов в данном типе клеток, знать расположение регуляторных элементов в геноме, где транскрипционные факторы взаимодействуют с ДНК, и т.п. А если интересно, какие гены отвечают на активацию известного транскрипционного фактора в малоизученном типе клеток, для которого имеется ограниченное число экспериментов? Очевидно, экстраполировать эти данные на новый тип клеток.

Участникам проекта предлагается реализовать алгоритм, который позволит использовать данные секвенирования для построения модели и последующего выдвижения биологических гипотез по уровню транскрипции генов.

Задача проекта — разработка программы для анализа данных секвенирования.
1. Получать на вход обработанные NGS-эксперименты в виде текстовых файлов (Chip-seq, RNA-seq, etc.).
2. Выявлять закономерности, влияющие на экспрессию генов в модельном типе клеток.
3. Предсказывать уровни транскрипции в экспериментальных клетках.

Требования к участникам
В команде должны обязательно присутствовать биологи и информатики.
Желательно знакомство с методами машинного обучения.

Интерактом протеоформ человека

Михаил Пятницкий | Институт биомедицинской химии имени В. Н. Ореховича

Международный проект «Протеом человека», о начале которого было объявлено 23 сентября 2010 года в Сиднее, является логичным продолжением проекта «Геном человека». Координатором выполнения российской части проекта «Протеом Человека» является Научно-исследовательский институт биомедицинской химии имени В.Н. Ореховича. Основная цель проекта «Протеом человека» — инвентаризация всех белков человека и выяснение взаимодействий между ними. Одним из результатов выполнения проекта должна стать карта интерактома белков человека.

Целью данного проекта является выявление сходства и различий между интерактомными профилями сплайс-вариантов одного белка. Источником данных для построения интерактомных профилей является протеомный ресурс GPMDB, среди прочего содерщащий результы идентификации белков, полученных методом аффинной очистки (AP-MS). В проекте предполагается использование так называемого метода виртуальной ко-преципитации (ВКП). Метод заключается в выявлении белков, совместно идентифицированных в наборе экспериментов, выполненных методом аффинной очистки в сочетании с масс-спектрометрией. В основе ВКП лежит гипотеза, что взаимодействующие белки должны чаще идентифицироваться совместно в масс-спектрометрических экспериментах, чем не взаимодействующие.

Задачи
1. Из базы данных GPMDB получить список экспериментов, выполненных методом аффинной очистки (AP-MS).
• Убедиться в специфичности экспериментов;
• Проверить, что эксперименты выполнены для белков человека.
2. Для каждого эксперимента получить список белков, детектированных в нем и перечень пептидов, по которым идентифицировали белки. Удалить белки, которые были идентифицированы по критериям, не удовлетворяющим требованиям HUPO (http://www.thehpp.org/guidelines/). Разделить идентифицированные белки на канонические изоформы, сплайс-изоформы и те, где невозможно определить изоформу.
3. Для каждого белка построить его интерактомный профиль: перечень белков, с которыми он был идентифицирован в одних и тех же экспериментах.
4. Выявить случаи, в которых интерактомный профиль канонической и сплайс-изоформы существенно отличаются. Предоставить гипотезу биологического значения этого различия.

Требования/пожелания к участникам
Навык работы с базами данных – формирование запросов в автоматическом режиме.
Владение языком программирования для автоматической обработки текста.
Понимание особенностей дизайна масс-спектрометрических экспериментов, в частности экспериментов с использованием афинной очистки (AP-MS).
Знание строения, структуры белков и методов их идентификации.
Понимание структуры и умение работать с такими ресурсами как UniProt, GPMDB.
Навык статистической обработки данных.

ПРЕЗЕНТАЦИЯ

Программное обеспечение для определения перинатального риска

Анна Малкова | СПбГУ

Для определения риска перинатальных осложнений в акушерской практике используется шкала О. Г. Фроловой и Е. И. Николаевой в модификации В. Е. Радзинского, И. Н. Костина. Это позволяет врачам продумать тактику ведения беременности, дабы избежать серьезных патологий как у матери, так и у ребенка. Для расчета риска необходимо учитывать порядка 50 характеристик пациента, часть из которых постоянные (например, наличие абортов ранее), а часть меняются ежедневно (например, артериальное давление). В данный момент в большинстве государственных клиник эта работа проделывается вручную, на бумаге.

Участникам хакатона предлагается разработать программу, основная задача которой — на базе указанной шкалы высчитывать риск по текущим показателям пациента. Так как часть показателей меняются во время беременности, усовершенствованием программы будет создание функционала для отслеживания динамики состояния женщины. Графическое представление меняющихся параметров позволит наглядно оценить эффективность назначенных методов лечения.

Задачи
Создать программу для определения перинатального риска по вводимым параметрам пациента.
Добавить возможность просмотра истории параметров, измеренных в разные даты, в виде графиков.

Требования к участникам
В команде должен быть минимум один биолог/медик и программист.

Дополнительно
Пример системы расчета перинатального риска (шкала О. Г. Фроловой и Е. И. Николаевой)

Контроль пациентов после выписки

Михаил Папков | Институт биоинформатики

При некоторых типах операций необходимо длительное наблюдение за пациентами после выписки. Поскольку пациенты наносят повторные визиты неохотно (особенно если приехали из другого города), можно проводить опросы о самочувствии автоматически, при надобности уведомляя лечащего врача. Важно удобство системы как для врача, так и для пациента.

Задачи
1. Реализация базы данных пациентов.
2. Создание удобного для врачей фронтенда.
3. Автоматизация опроса (возможны варианты: от телеграм-бота до обзвона роботом с ответами в тональном режиме).

Требования к участникам
Врач или человек из околомедицинской среды, понимающий процесс ведения пациента и желания других врачей;
3-4 программиста, желательно обладающие пониманием проблемы и чувством прекрасного (примерно по одному на задачу).

Дополнительно
Потребность в подобной системе высказали сотрудники НИИ детской онкологии, гематологии и трансплантологии им. Р.М. Горбачевой. Команда практически сформирована, но к предложениям открыта.

Разработка методов оценки качества данных высокопроизводительного секвенирования

Максим Иванов |Атлас Онко Диагностика

Существующие подходы к оценке качества данных высокопроизводительного секвенирования схожи с правилами Вестгарда для контроля качества аналитических тестов – для принятия решения о валидности или не-валидности данных для дальнейшего анализа последовательно исследуются несколько параметров, которые должны удовлетворять заданным критериям.

Учитывая комплексность как самого процесса, так и данных высокопроизводительного секвенирования, аналитические характеристики (чувствительность и специфичность детектирования мутаций) варьируются не только от самой платформы, инструмента и набора реагентов, но и от используемых методов обогащения по целевой ДНК, методов анализа и даже типов самих мутаций.

В рамках проекта предлагается разработка инструментария для оценки качества данных высокопроизводительного секвенирования с ограниченной сферой приложения – целевое секвенирование небольших регионов ДНК с заранее известным спектром интересующих мутаций (к примеру, секвенирование генов EGFR/KRAS или BRCA1/2, CFTR), что позволяет симулировать оценку аналитических характеристик конкретного запуска.

Задачи
Разработка методов и инструментария для оценки качества данных высокопроизводительного секвенирования в клиническом приложении.

Требования к участникам
Linux/bash.
Программирование на среднем/высоком уровне (Python/C++/Java).
Желательно знание принципов анализа данных NGS с целью поиска мутаций (препроцессинг/выравнивание/вариант коллинг/аннотация).

ПРЕЗЕНТАЦИЯ

Анализ уровня экспрессии генов на основании паттернов нуклеосомной фрагментации цДНК

Максим Иванов | Атлас Онко Диагностика

Геном человека состоит из 46 хромосом — длинных линейных отрезков ДНК, плотно и иерархически (в несколько этапов) упакованных с помощью специальных белков в компактные образования. Минимальная единица этой иерархической упаковки — нуклеосома. Значение имеет и тип гистонов, из которых состоят нуклеосомы, и претерпеваемые ими модификации, и место расположения на ДНК.

Если мы проанализируем последовательности коротких фрагментов ДНК в крови и определим, откуда они пришли из генома (картируем по референсному геному человека), то сможем определить ту самую картину нуклеосомной укладки в ткани — источнике ДНК (паттерн нуклеосомной укладки). А поскольку знание паттерна нуклеосомной укладки позволяет судить об уровне экспрессии гена, можно, к примеру, обнаружить признаки аномальной экспрессии генов опухолевых супрессоров или онкогенов, что указывает на развитие опухолевого процесса.

Задачи
Разработка инструментария для оценки уровня экспрессии генов на основании паттернов фрагментации цДНК.

Требования к участникам
Linux/bash.
Программирование на среднем-минимальном уровне/знание пакетов статистической обработки данных (R/matlab/wolfram mathematica).
Крайне желательно знание основ гармонического анализа/обработки сигналов/основ методов машинного обучения.

ПРЕЗЕНТАЦИЯ

Идентификация онкогенных белков в качестве мишеней для ковалентно связывающихся пептидов

Сергей Измайлов | Лаборатория биомолекулярного ЯМР, СПбГУ

Работа является продолжением проводимых в нашей лаборатории исследований в области онкосупрессорных пептидов (см. Tyuryaeva, Lyublinskaya, Podkorytov & Skrynnikov Sci. Rep. 7, 40217 (2017)). Мы намерены исследовать пептиды, ингибирующие взаимодействия онкогенных белков. На их основе планируем создать более эффективные пептиды, образующие ковалентную связь с мишенью на интерфейсе взаимодействия. Для исследования комплексов белок-пептид будут использованы методы компьютерного моделирования (биоинформатика, Молекулярная Динамика), эксперименты in vitro (ЯМР, масс‐спектрометрия и др.) и клеточные эксперименты (клеточные культуры, проточная цитофлуорометрия).

Задачи
На данный момент задача состоит в поиске онкогенных мишеней – белков, имеющих аминокислоту цистеин, располагающуюся на интерфейсе связывания с пептидом.

Для решения задачи необходимо совместно использовать сразу несколько баз данных: PDB – для структурного анализа, и KEGG/UNIPROT/PUBMED и др. – для определения функций и взаимодействий белка.

Требования к участникам
Знание скриптового языка программирования, желательно Python.
Опыт работы с упомянутыми базами данных и знания в области молекулярной биологии будут полезны.

Задачи
Создание алгоритма, способного к быстрому анализу ключевых локусов в аминокислотных последовательностях гемагглютинина у "нечеловеческих" штаммов вируса гриппа с целью выявления и предотвращения новых эпидемий и избежания адаптаций существующих штаммов вируса гриппа к человеку (сценарий Испанки 1918).

Требования к участникам
Обязательное умение работать с биоинформатическими базами данных.
Java/Python mid.
Знания в области вирусологии/эпидемиологии очень приветствуются.

Обратимые пайплайны

Олег Шпынов | JetBrains Biolabs

Современные биологические проекты невозможны без обработки данных на компьютере. Процесс вычисления или Pipeline - это пошаговый метод обработки, при котором результаты работы предыдущего шага используются в последующем. Самыми известными инструментами для построения биоинформатических пайплайнов являются Galaxy, DNANexus и Genestack. Однако, все они являются однонаправленными, то есть чтобы получить из конечного результата интересующие экспериментатора свойства исходных данных, зачастую требуется построение обратного вычисления. Мы предлагаем концепцию обратимых пайплайнов, которые могут серьезно упростить анализ результатов биологических экспериментов.

Задачи
Систематизировать основные шаги часто используемых пайплайнов, оценить возможность получения обратимых результатов.
Разработать библиотеку для работы с обратимыми пайплайнами и проверить на реальных эпигенетических проектах.

Требования к участникам
Понимание основ эпигенетики, типов экспериментов.
Опыт обработки данных, знание Python, BEDTools.

Анализ акустических шумов форсированного выдоха людей с обструктивными заболеваниями легких

Николай Потапов | СПбГЭТУ «ЛЭТИ»

Запись сигнала шумов форсированного выдоха, которая снимается с пациента страдающего хронической обструктивной болезнью легких, позволяет получить достаточно информации для диагностики данного заболевания. На данный момент известны главные параметры для диагностики, но точность этих параметров невелика и для нахождения требует ручной проверки и обработки.

Участникам проекта предлагается разработать метод, который позволил бы улучшить точность анализируемых параметров и сократил бы количество ручной работы при обработке сигналов.

Задачи
Необходимо разработать программу для анализа аудиозаписей, способную выполнять следующие действия:
1. Получать на вход аудиозаписи в формате wav;
2. Реализовать загрузку аудиозаписи в формате wav;
3. Определить параметр акустической продолжительности шумов форсированного выдоха;
4. Внедрить в программу опросник CCQ для ХОБЛ.

Требования к участникам
Знания языка Java, умение работать с аудиозаписями, разбираться в фильтрах для обработки сигналов, умение работать с Google.
Знание языков R, Python, Matlab приветствуется, но не обязательно.

Визуализация результатов single-cell RNA-seq для больших объемов данных

Дмитрий Адамьян | Genestack

Цель проекта - разработать методы обработки и визуализации больших объемов данных single-cell RNA-seq (до миллиона отдельных клеток), пригодные для интерактивного анализа. Источником данных будут публичные данные компании 10x Genomics.

Задачи
1. Разработать структуры данных и алгоритмы, позволяющие проводить интерактивный анализ данных single-cell RNA-seq: выявление клеточных популяций, анализ дифференциальной экспрессии генов, выявление наиболее значимых различий в экспрессии.
2. Разработать пользовательский интерфейс интерактивного анализа single-cell RNA-seq данных.

Требования к участникам
Желательно, чтобы в команде были как специалисты по обработке и хранению данных, так и по построению пользовательских интерфейсов.
Языки программирования: Python или Java/Scala/Kotlin для backend, JavaScript - для frontend.
Желательно базовое знакомство с основами статистики и методами машинного обучения.

Интерактивный анализ большого объема данных RNA-seq

Дмитрий Адамьян | Genestack

Целью проекта является разработка прототипа системы анализа и визуализации большого объема данных RNA-seq. Система должна обеспечивать возможность интерактивной визуализации результатов многих экспериментов. В качестве исходных данных будут использованы данные проекта EMBL-EBI Expression Atlas.

Задачи
1. Спроектировать хранилище данных, позволяющее выполнять интерактивные запросы для сотен тысяч samples (предполагается использование СУБД HP Vertica, но возможны другие решения).
2. Разработать прототип графического интерфейса поиска и аналитики.
3. Импортировать данные (возможно часть) в хранилище данных.
4. Реализовать веб-приложение демонстрирующее возможности системы.

Требования к участникам
В команде должны быть как backend разработчики (Java/Scala/Kotlin), так и frontend разработчики (JavaScript). Желательно участие хотя бы одного специалиста с биологическим образованием.

Использование геномных координат целевых районов для контроля правильности картирования/выравнивания прочтений NGS при формировании библиотек методом мультиплексной ПЦР

Кристина Карандашева | Медико-генетический научный центр

При анализе результатов NGS существует необходимость отличать истинный генетический полиморфизм от ошибок секвенирования и ошибок картирования: в диагностическом поиске их присутствие затрудняет выявление существующих вариантов, способствует возникновению «ошибочных» вариантов и искажает соотношение частот референсного и альтернативного аллелей. При использовании технологии Ion AmpiSeq представляется возможным использование геномных координат таргетных районов и последовательности (и длины) используемых праймеров, что позволяет «побороться» с ошибками выравнивания.

Задачи
1. Предложить алгоритм вычисления и исключения неверно картированных прочтений и его программную реализацию (из исходного .bam получается .bam без неправильно картированных прочтений).
2. Побороться с ошибками секвенирования возникающими на «трудных» (CG-богатых и гомополинуклеотидных) районах генома.

Требования к участникам
Владение языками программирования Python и R, базовые знания статистики.

Предсказание лекарственной устойчивости M.tuberculosis по генотипу

Константин Чукреев | ЦНИИ Эпидемиологии

Разработка эффективного генотипического теста на устойчивость M.Tuberculosis к препаратам 1 и 2 линии - важная задача оптимизации лечения. За последние годы появилось несколько работ, в которых использованы списки мутаций, вызывающих лекарственную устойчивость, для достаточно точного предсказания фенотипов изолятов. При этом задача все еще остается не до конца решенной: каждый список хорошо работает на данных, предоставляемых авторами, но на других данных результаты получаются хуже. Мы предлагаем на основе имеющихся списков мутаций от разных авторов и изолятов туберкулеза с данными по фенотипическому тесту в открытом доступе составить новый список мутаций, который будет эффективно работать на всех доступных данных.

Задачи
1. Проанализировать предоставленные словари и данные.
2. Разработать новый биологически интерпретируемый алгоритм предсказания устойчивости на основе разных подходов (машинное обучение, филогенетические методы, линейные смешанные модели).
3. Оптимизировать полученный алгоритм на всех предоставленных данных.

Требования к участникам
Базовые знания в программировании, знакомство со статистикой и методами машинного обучения, основы филогенетического анализа приветствуется.

Распознавание и перевод медицинских документов

Дмитрий Борисевич | Genotek

Медицинская документация обычно передается на бумаге и её оцифровка и приведение к стандартам - это огромная проблема. Для сравнения документов с Европейскими и Американскими данными необходимо ещё делать нетривиальный перевод медицинских терминов, который часто напрямую вообще невозможен из-за несовместимости понятий.

Цель проекта — создать прототип, способный оцифровывать медицинские документы (направления, заключения, etc.), выявлять в них корректно медицинские термины и как они относятся к пациенту.

Задачи
Программа минимум — собрать вместе сервисы распознавания, перевода и базы медицинских терминов, чтобы сделать автоматический тул для обработки печатных заключений.

Программа максимум определяется командой, включая: продвинутый парсинг текста, определение отношения мед. терминов к пациенту, распознавание рукописного текста врачей, рекомендательная система диагнозов на основе направительных документов.

Требования к участникам
Программирование на любом подходящем языке позволит выполнить минимальные планы, опыт в ML, распознавании и знание медицинской терминологии помогут сделать больше, чем самый простой тул.

Микросервисы в облаке для биоинформатики

Дмитрий Борисевич | Genotek

Есть много инструментов для биоинформатиков. Чтобы их запустить, надо немало помучиться с их установкой и настройкой. Есть сервис Galaxy, который умеет запускать много инструментов, но он не имеет параллельность и облако, и вообще не умеет много нужных обработок.

Цель проекта — сделать обертку, которая позволяет в облаке запускать любой биоинформатический софт и решать нужную задачу.

Задачи
Программа минимум — сделать сервис, который может обернуть любой Linux'овый инструмент в веб-страницу для запуска.

Программа максимум — создание пакетов для решения задач врачей и биологов, а не биоинформатиков, и решение технических задач: автогенерация страниц и документации, обертку частей кода, настройка масштабируемости, безопасность.

Требования к участникам
Программирования на популярном языке будет достаточно для решения задачи минимум.
Для задачи максимум пригодятся: знание биоинформатики, опыт общения или работы биологом в лаборатории или врачом, для технических: опыт облачной и веб-разработки, знать микросервисы.

Предсказание доминантного эффекта мутаций в неохарактеризованных генах

Юрий Барбитов | Институт биоинформатики

Различные вариации в определенных генах у человека могут приводить к наследственным заболеваниям. При этом некоторые заболевания наследуются доминантно (то есть, достаточно одной мутированной копии гена для развития болезни) или рецессивно (необходимо повреждение обеих копий). Проект направлен на построение максимально эффективной модели, предсказывающей доминантное/рецессивное поведение мутаций в генах, которые слабо изучены с клинической точки зрения.

Задачи
1. Собрать литературу о том, какие черты характерны для доминантных/рецессивных мутаций.
2. Составить выборку известных генов, мутации в которых имеют доминантное или рецессивное поведение.
3. Собрать максимальное число данных о генах из выборки (их экспрессия, метилирование, число известных вариаций в гене и т.д.).
4. Обучить модель, предсказывающую доминатность/рецессивность поведения замен.
5. Найти оптимальное число и вид параметров, дающих максимальную эффективность предсказания.

Требования к участникам
В команду будет желательно найти биологов, умеющих работать с биологической и медицинской литературой (навыки программирования приветствуются, но не обязательны). Также потребуется человек с математическим/информатическим бэкграундом, понимающий в различных классификаторах и методах машинного обучения.

Визуализация результатов RNA-seq с использованием MetaCyc

Александр Ткаченко | Институт биоинформатики, СПбГУ

В данном проекте предполагается создать пайплайн, который позволит аннотировать и визуализировать данные о дифференциальной экспрессии в экспериментах по транскриптомному секвенированию с использованием базы MetaCyc, содержащей информацию о метаболических путях различных организмов.

Задачи
1. Проаннотировать данные RNAseq, отобрать данные, которые можно использовать для построения метаболических путей.
2. Подсчитать дифференциальную экспрессию генов.
3. Написать скрипт, который позволит соотнести данные о диффэкспрессии и метаболических путях
4. Сделать красивую легкоинтерпретируемую визуализацию.
5. Собрать всё это в пайплайн.

Требования к участникам
Знание Python, R, умение работать в Linux.

Лабораторный журнал для биоинформатики

Александр Ткаченко | Институт биоинформатики, СПбГУ

Существует довольно много продуктов с прицелом на биологию, которые предназначены для ведения электронного лабораторного журнала. В данном проекте предлагается создать похожее приложение с функционалом, применимым для биоинформатических задач.

Задачи
Возможный функционал, который можно было бы реализовать:
1. Сохранение выполняемых команд, описаний форматов данных на каждом этапе анализа, верстка отчетов для воспроизводимости результатов.
2. Коллаборация с коллегами (возможность распределения задач, чат)
3. Извещение о выполняемых работах на сервере, возможность запуска задач при помощи мобильного приложения.

Требования к участникам
В зависимости от выполняемых задач — от Python/Linux/R до создания мобильных приложений. Количество человек также зависит от того, сколько задач планируется выполнить (примерно по 2 человека на задачу).

Исследование связанных состояний молекул воды в интерфейсах биомакромолекул

Алексей Швецов | Петербургский институт ядерной физики им. Б.П. Константинова, НИЦ «Курчатовский Институт»

Как известно, большинство процессов в живых организмах происходит в водном окружении. Вода оказывает существенное влияние на различные аспекты функционирования биомакромолекул (в том числе на процесс их сворачивания — фолдинг).

Целью данного проекта будет поиск в траекториях молекулярной динамики таких молекул воды, которые образуют две и более водородных связей с биомакромолекулярными комплексами (например, такие молекулы могут находиться в интерфейсе белок-нуклеиновая кислота), а также анализ поведения таких молекул воды.

Задачи
1. Используя данные из траекторий молекулярной динамики, найти такие молекулы воды, которые образуют две и более водородные связи с биомакромолекулярным комплексом.
2. Оценить время жизни молекул воды в связанном состоянии найденных в первом пункте.
3. Определить аминокислотные остатки или нуклеотиды, которые вовлечены в связывание молекул воды из первого пункта.

Требования к участникам
Желательны базовые знания структурной биологии.
Умение программировать на языках Python и C++.

Определение смены регуляции генов

Оксана Глущенко | ФНКЦ физико-химической медицины

Задача данного проекта в создании утилиты или пайплайна для анализа нуклеотидных различий upstream-областей генов, у которых предположительно изменялась регуляция в ходе микроэволюции (появились сайты связывания с транскрипционными факторами, изменились регуляторные участки). Сравнение последовательностей межгенных регионов будет производиться для многих штаммов внутри одного вида, например, E.coli. В качестве критерия, для начала, возьмем факт значительного различия в расстояниях, посчитанных по генам от расстояний, рассчитанных по межгенным участкам (upstream область). Для уточнения и подтверждения изменения регуляции попробуем найти известные сайты связывания транскрипционных факторов в сильно изменившихся областях. А в основе будут лежать построенные нами группы гомологии.

Задачи
1. Создание утилиты или пайплайна.
2. Анализ нуклеотидных различий upstream-областей генов.
3. Анализ полученных результатов.

Требования к участникам
Программист/биоинформатик: R, Python, Java или другие.
Биолог: в данном проекте необходимо будет отвечать за биологическую интерпретацию полученных результатов, нужно разбираться в процессе транскрипции прокариотов, много знать о разных ферментах, о транскрипционных факторах и прочем.

База H3 петель антител

Татьяна Малыгина | Институт биоинформатики

Тяжелая цепь антитела состоит из консервативных участков, которые формируют жесткий каркас, и гипервариабельных и гиперподвижных частей - H1, H2, H3 петель. Среди них самая длинная и самая разнообразно представленная - H3.

Хочется получить базу структур H3 петель, которые в дальнейшем можно будет использовать при моделировании структур антител in silico. Кроме самой базы, необходимо реализовать интерфейс доступа к ней и механизм поиска петель по входной последовательности аминокислот.
База должна быть применима для моделирования тяжелых цепей классических антител и, в идеале, для VHH антител.

Задачи
1. Написать скрипт, который будет выполнять следующую последовательность действий:
- загружать PDB-файлы со структурами антител из Protein Data Bank;
- для каждой из них выявлять тяжелую цепь, с помощью одной из общепринятых схем разметки определять границы CDR и находить H3;
- вырезать соответствующий фрагмент структуры и добавлять его в базу.
2. Предполагается реализация web-интерфейса для доступа к базе.
На входе: последовательность VH или VHH антитела или фрагмент в разметке Chothia, на выходе - список файлов с примерной структурой (структурами).
Важно, чтобы возвращаемая петля имела ту же длину, что и петля, аминокислотная последовательность которой передается на вход. Если петли возвращаются в виде упорядоченного списка, то в начале списка должны быть структуры, аминокислотная последовательность которых наиболее похожа на ту, которая пришла на вход.
3*. Поскольку H3-петли в VHH более разнообразны по сравнению с классическими антителами, предлагается использовать информацию об их похожести на PDZ-домены в белках и дополнить базу фрагментами PDZ-доменов.
*- задача, которая скорее всего точно не впишется во временные рамки хакатона и поэтому является дополнительной =)

Требования к участникам
Python

Вопросы?

Если у вас остались вопросы — пишите нам:
[email protected]