Проекты
проекты biohack 2020
Траснкрипты ретротранспозонов растений: идентификация и закономерности организации

Киров Илья | ФГБНУ ВНИИСБ

Геномы преобладающего большинства эукариот в значительной степени (у некоторых видов более 60%) состоят из мобильных элементов, ДНК транспозонов и ретротранспозонов. Долгое время считалось, что большая часть из них утратила способность перемещаться по геному. Однако исследования 2018 года, проведённые на человеке, показали, что в клетке содержится тысячи РНК молекул, принадлежащих ретротранспозонам. Более того, эти РНК могут играть важную функциональную роль для самой клетки. Это побудило в 2019 году ввести новое понятие в биологии, ретротранскриптом, описывающее всю совокупность РНК ретротранспозонов в клетке. Первые исследования показывают огромный функциональный потенциал этих РНК.
Масштаб этого явления только сейчас осознаётся, благодаря последним работам, выполненным на животных, человеке и дрозофиле. Данные о составе и масштабах ретротранскриптома у растений практически отсутствуют. Между тем, за последние несколько лет появились базы данных, где собраны сиквенсы транскриптов тысяч видов растений, полученных как на основе NGS данных, так и длинных ридов (PacBio и Nanopore (отдельные виды)). Однако, современные биоинформатические методы детекции ретротранспозонов расчитаны на геномные данные. В тоже время транскипты ретротранспозонов имеют свою специфику, требующую разработки отдельного подхода. А данные Nanopore ещё и содержат большое число ошибок. Цель проекта: Разработка пайплайна для поиска экспрессирующихся ретротранспозонов растений, используя недавно опубликованные данные собранных транскриптомов 1KP (тысяча транскриптомов растений) проекта, данные Iso-seq и нанопорового секвенирования. Данный паплайн должен принимать фаста файл транскриптов и выдавать фаста файл предполагаемых транскриптов ретротранспзонов и таблицу с различными характеристиками, включая длину транкрипта, наиболее вероятную рамку считывания, координаты главных кодируемых доменов (GAG, обратная транскриптаза, интеграза, РНКаза Н), число схожих транскриптов во входном файле (результат кластеризации) и наличие LTR.

Задачи
1. Получить данные из баз данных, среди которых 1KP проект (http://www.onekp.com/) и PISO (http://cbi.hzau.edu.cn/piso/index.html), и, возможно, данные nanopore (если успеем до этого получить).
2. Написать python скрипт для запуска поиска (BLAST или HMMer) схожести к известным (RexDB база данных) доменам ретротранспозонов и парсинга результатов
3. Написать python скрипт для идентификации LTR у транскриптов
4. Написать python скрипт для поиска ORF, кодирующей домены ретротранспозонов
5. Написать python скрипт для запуска кластеризации сиквенсов (cd-hit или vsearch) и подсчёта числа схожих сиквенсов для транскриптов ретротранспозонов.
6. Объединение всех скриптов в пайплайн

Требования к участникам

1. Понимание, что такое ретротранспозоны и какие они кодируют белки
2. Знание python 3
3. Желательно знать docker или conda
4. Желательно знать R (может и не пригодится)
Salmonella's crystal shoe: functional annotation of genomic differences in bacterial strain sets

Маловичко Юрий, Шиков Антон | ФГБНУ ВНИИСХМ

Пангеномика - это молодая, но очень динамично развивающаяся область биоинформатики, направленная на применение системного подхода к анализу общности близкородственных организмов. Существующие инструменты для пангеномного анализа оперируют информацией на уровне отдельных генов. Данный подход хорошо справляется с выявлением предельно общих сходств, однако игнорирует имеющиеся различия и обладает низким разрешением. Кроме того, представленные на данный момент решения не учитывают функциональные аспекты индивидуальных различий и полагаются на малоэффективные алгоритмы выравнивания и кластеризации.
В настоящем проекте мы предлагаем участникам разработать собственный инструмент для пангеномного анализа, учитывающий межгеномные различия и оперирующий не только структурной, но и функциональной аннотацией. Для апробации реализованного алгоритма мы предлагаем набор геномных сиквенсов штаммов Salmonella enterica - одного из важнейших патогенов человека и сельскохозяйственных животных.
Целью проекта является разработка алгоритма для осуществления функциональной аннотации геномных сходств и различий между родственными бактериальными таксонами.

Задачи
1. Поиск оптимального размера кластеров близкородственных геномов для дальнейшего функционального анализа;
2. Адаптация алгоритма MashMap с целью выявления потенциальных ортологов в пределах анализируемых генов;
3. Разработка графовой имплементации эффективного алгоритма выявления кластеров ортологичных генов;
4. Поиск и статистическая обработка имеющихся функциональных различий между кластерами;
5. Апробация предложенного пайплайна на геномных данных штаммов Salmonella enterica.

Требования к участникам

В идеале команде понадобятся два-четыре программиста/математика для реализации алгоритма и один биолог для интерпретации результатов тестового запуска на выборке геномов сальмонелл. От всех участников ожидается уверенное владение любым скриптовым языком (например, Python), командной строкой Linux и основными методами статистического анализа данных; для программистов желателен опыт разработки алгоритмов, а для биолога - работы с геномными данными.
Скрытые источники эпидемий

Антонец Кирилл, Потапова Надежда | ВНИИСХМ, МГУ им. Ломоносова

2055 год. Из-за сокращения лесов и роста городов большинство диких животных было вынужденно приспособиться к обитанию на свалках, в парках и подвалах в пределах городов. В условиях ограниченной территории многократно увеличилось число контактов людей с некогда экзотическими представителями фауны. Сложившаяся ситуация создает опасность возникновения новых опасных эпидемий за счет попадания прежде неизвестных вариантов вирусов в человеческий организм. Целью данного исследования является выявление потенциальных очагов возникновения новых эпидемий.
Задачи
-Оценить влияние отбора на вариабельность белков Spike у коронавирусов для разных групп животных
-Оценить влияние отбора на вариабельность рецепторов белков Spike у человека и других животных
-Отобрать наиболее вероятные пары, способные к взаимодействию
-Выделить наиболее вероятные очаги возникновения новых инфекций

Требования к участникам

-Базовые знания биоинформатики, умение работать с геномными данными
-Базовые знания по биологии
-Навыки исследования эволюции белков (важно -- построение филогенетических деревьев)
-Базовые знания методов предсказания взаимодействия белков
Анализ митохондрий по изображениям флуоресцентной микроскопии

Попков Василий |МГУ им. Ломоносова

Митохондрии обеспечивают клетку энергией и выполняют другие регуляторные и синтетические функции. Также они играют ключевую роль в ряде патологий, например, в ишемии почек или мозга (инсульт). Во время ишемического повреждения митохондрии повреждаются в первую очередь, а затем наносят сильное вторичное повреждение. Это можно сравнить с тем, что на электростанции происходят мелкие поломки, а после возобновления притока горючих материалов, происходят крупные взрывы и загрязнение окружающей среды. Защита митохондрий уменьшает повреждение всего органа.
Для исследования лекарств и молекулярных механизмов повреждения необходимо уметь оценивать устойчивость отдельных митохондрий к повреждению. Это можно сделать на живых клеточных культурах с помощью флуоресцентного зонда, окрашивающего "работающие" митохондрии и выходящего из "отключившихся". На микроскопе можно снять видео, по ходу которого митохондрии будут гаснуть в разные моменты времени. Когда митохондрии гаснет – это момент открытия митохондриальной поры и сброса трансмембранного потенциала из-за повреждения от облучения клеток из-за самого процесса съемки. Пример подобного видео по ссылке: https://drive.google.com/file/d/1xJkITmoCUfw5NC7fCk1In9VStzQVYQis .
Время, за которое митохондрии гаснут – важная характеристика устойчивости к повреждению. Распределение устойчивости митохондрий внутри одной клетки, а также в множестве клеток, позволит делать выводы об устойчивости разных типов клеток к повреждению и об эффекте лекарств на устойчивость митохондрий.

Задачи
1. Сегментировать отдельные клетки на флуоресцентных изображениях.
2. Сегментировать отдельные митохондрии на видео, учтя изменение формы и положения митохондрий по ходу видео.
3. Получить ряд морфологических характеристик митохондрий вроде площади, удлиненности итд.
4. Получить и проанализировать изменения флуоресценции (~определить момент "погасания" митохондрии).
5. Проанализировать движение митохондрии за время видео.
6. Получить таблицу с характеристиками каждой митохондрии.
7. Визуализировать данные.

Требования к участникам

Желателен опыт работы с изображениями и распознанием объектов. В идеале – умение довести решение до готового пакета для публикации. Наличие биологического бэкграунда НЕ обязательно.
Статистические особенности биологии микроРНК

Осьмак Герман, Пётр Цуринов | НМИЦ кардиологии, JetBrains Research

МикроРНК – высоко-консервативные малые некодирующие РНК (18-25 нуклеотидов), участвующие в сиквенс-специфической регуляции экспрессии генов на пост-транскрипционном уровне. Известно, что одна микроРНК может регулировать множество мРНК-мишеней. С другой стороны, одна мРНК может быть мишенью многих микроРНК. Иными словами, регуляторные эффекты микроРНК характеризуются вырожденностью и плейотропностью. Таким образом, имеется пространство для проявления стохастических эффектов.

Современные высокопроизводительные методы исследований позволили накопить огромный массив данных как о микроРНК, так и о их мишенях. С ростом объема информации, а также скорости её генерации, естественно появление не только ложно-положительных результатов, но и вполне закономерных, которые, однако, в силу отсутствия у исследователей общей картины воспринимаются ими как новые и интересные.

В настоящем проекте предлагается исследовать доступные базы данных, такие как MirTarBase, String, miRPathDB, Reactome и другие на предмет выявления особенностей, характерных для микроРНК. Например, известно, что гены-мишени микроРНК чаще встречаются среди генов сигнальных путей передачи внеклеточных сигналов, чем можно было ожидать при равновероятном распределении мишеней среди всех транскриптов. При этом их распределение по сигнальным путям неравномерно и возрастает от лигандов к транскрипционным факторам: среди лигандов в среднем обнаружено 9.1% генов-мишеней, среди рецепторов 18.8%, среди посредников передачи сигнала 31.2%, а среди транскрипционных факторов 50% [Cui et al., 2007].

Задачи
1) Распарсить базы данных
2) Посчитать сводные статистики по числу мишеней у микроРНК
3) Построить сети генов-мишеней микроРНК, оценить их характеристики. Сравнить их с характеристиками всей сети белок-белковых взаимодействий или других сетей.
4) Провести Enrichment-анализ генов-мишей отдельных микроРНК или их наборов.

Требования к участникам

Большинство членов команды должны иметь базовые знания в молекулярной биологии, а также знать Python или R. Приветствуются базовые представления о графах и анализе сетей; опыт работы в NetworkX/Igraph.
Предсказание генов-мишеней и сайтов посадки микроРНК

Осьмак Герман, Пётр Цуринов | НМИЦ кардиологии, JetBrains Research

МикроРНК - малые регуляторные РНК, участвующие в тонкой настройке экспрессии генов на уровне транскрипции/трансляции, посредством сиквенс-специфического связывания с их мРНК. Занимая позицию позитивистов, грубо, можно утверждать, что знание - это возможность давать предсказания о мире с заданной точностью. Чем выше точность предсказания, тем больше мы знаем о мире. Предложен ряд решений для предсказания мишеней и сайтов посадки микроРНК: MiRanda, Mirbase, Targetscan и пр.. Однако последующее сравнение этих предсказаний с экспериментальными данными, полученными методом CLASH (crosslinking ligation and sequencing of hybrids), продемонстрировало насколько глубока бездна нашего непонимания биологии микроРНК-мРНК взаимодействий. Точность предсказаний составила непревзойденную величину в 3.5% [PMID: 29989587].

После появления массива экспериментальных данных открылось поле деятельности для разработки ML решений. Так, в работе [PMID: 27207945] предложили тул TarPmiR, обеспечивающий точность в 74.2% - больше 3.5%, но хочется лучше.

В настоящем проекте предлагается попытаться улучшить этот результат и, возможно, глубже понять принципы функционирования микроРНК. Одна из сложностей при решении поставленной проблемы - это формирование множества последовательностей без сайтов связывания (негативной группы). Возможный путь её решения - использование некоторых сведений из биологии микроРНК, а именно характеристик узлов в сетях взаимодействия их генов-мишеней, как дополнительных фич для классификации и формирования положительных/негативных групп. Так, известно, что мРНК-хабы, -ботлнеки и -узлы, с ними связанные, чаще регулируются микроРНК и имеют больше сайтов посадки, в то время как периферийные мРНК-узлы регулируются реже / имеют малое число сайтов посадки. Также, есть наборы генов, обедненные мишенями микроРНК, например, гены, кодирующие лиганды рецепторов трансдукции внеклеточных сигналов [PMID: 22365741].

Задачи
1) Разобраться в CLASH-данных [PMID: 23622248]
2) Сформировать группы нуклеотидных последовательностей, репрезентирующие сайты посадки микроРНК (позитивная группа) и противоположную негативную группу.
3) Сгенерировать фичи, обучить устойчивый классификатор, сделать выводы.

Требования/пожелания к участникам
Понимание работ [PMID: 22365741][PMID: 27207945], подходов и инструментов, которые в них используются.
Опыт работы с библиотеками Scikit-learn, NetworkX.
Достаточно базовых знаний в ML, однако необходимо уверенное их применение.
Работа преимущественно на Python 3.
Система рекомендации для назначения лекарственных препаратов

Степанова Ксения, Данилов Лаврентий | EPAM

Большое количество людей принимает на постоянной основе несколько лекарственных средств. При назначении новых лекарственных средств необходимо учитывать их совместимость, чтобы избежать изменения фармакокинетики, которое может привести к уменьшению положительных, так и к появлению отрицательных эффектов. В связи с этим, для врачей, которые должны принимать решения оперативно, либо врачей, которые назначают лекарственные средства для больных с отягощенным анамнезом, было бы полезно ипользовать систему, которая поможет проверить то решение, которое принял врач и минимизировать количество ошибок. Финальная цель проекта - разработать систему с web-интерфейсом для проведения анализа совместимости лекарственных средств.

Задачи
1. Система должна принимать на вход:
- данные пациента (возраст, пол, вес, возможные заболевания).
- принимаемые пациентом препараты (возможно, с учётом их дозировки и срока приема)
- потенциально назначаемые препараты (с учетом их дозировки)
2. Система должна выводить:
- если нет ограничений -- "разрешение" на прием лекарства и предполагаемую дозировку
- если есть ограничения -- предупреждение о возможных конфликтах (выведение пары лекарств, которые будут несовместимы)
3. В системе должна присуствовать возможность добавлять в базу возможные конфликтные пары лекарственных препаратов.
4. (Optional) Так как проект предполагает наличие достаточно большой базы данных, то встает вопрос о её наполнении. Для этого можно использовать следующие подходы:
- Data mining инструкций лекарств на сайтах производителя
- Распознование текста инструкции и извлечение из неё информации о возможных несовместимостях лекарственных средств.

Требования/пожелания к участникам
Хочется, что бы люди умели рабоатть с базами данных (SQL и python) + основы web-разработки что бы сделать web-приложение.
Раскрытие тайн медико-генетической базы данных ClinVar

Василий Раменский | НМИЦ Профилактической медицины Минздрава РФ, ФББ МГУ им. Ломоносова

Медико-генетическая База ClinVar представляет собой открытый источник данных о связи мутаций с генетическими болезнями человека и является одним из наиболее важных и быстро развивающихся международных ресурсов для развития «точной» медицины. ClinVar курируется Национальным институтом здоровья США и пополняется медицинскими генетиками всего мира. В настоящее время база содержит более миллиона записей о мутациях, значительная часть которых загружена независимо различными группами. Записи ClinVar описывают заболевания, гены, мутации ДНК в этих генах и клиническую значимость этих мутаций, то есть предполагаемую степень их болезнетворности. База активно используется в научных исследованию по поиску механизмов развития заболеваний и при клинической интерпретации результатов секвенирования индивидуальных геномов. Особый интерес представляют собой варианты неопределенной клинической значимости, роль которых в этиологии заболеваний остается пока что неизвестной.

Каждая загружаемая в базу мутация, как правило, сопровождается текстом с описанием источника мутации, ее эффекта, взаимодействия с другими мутациями и прочих признаков, на основе которых оценивается ее клиническая значимость. Эта информация представляет собой достаточно типовые тексты на естественном языке объемом от одного до десятка развернутых предложений. При масштабном анализе базы дополнительная информация, содержащаяся в описаниях, обычно не используется, а существующие системы поиска в ClinVar достаточно примитивны. Разработка системы поиска важна как для исследовательских проектов, так и для использования в генетических исследованиях пациентов.

Задачи
1. Использовать text mining для установления характерной структуры текстов описаний.
2. Преобразовать эти тексты в развернутый набор признаков замены
2. Создать систему поиска, позволяющую отбирать группы мутаций с определенными свойствами.

Требования к участникам
Идеально: 1 человек с опытом работы в мед.генетике, 1 или 2 человека с навыками программирования, в частности, работы с регулярными выражениями. Предполагается знание английского языка.
Клубок нитей в лабиринте рекомбинации

Потапова Надежда | МГУ им. М.В. Ломоносова

Поиск рекомбинации в современном научном мире -- та ещё запутанная задача! В ходе совершенно разных молекулярных процессов все живые организмы и даже вирусы могут обмениваться с представителями своего (а иногда и не своего) вида фрагментами генома. В широком смысле всё это можно назвать термином "рекомбинация". Важная задача -- уловить обмен и таким образом узнать прошлое видов, а также предсказать их будущее, например, возможность вирусов или бактерий получить такую композицию фрагментов внутри гена, либо такое сочетание генов внутри генома, что они перестанут поддаваться воздействию известных лекарств. Но обмен фрагментами происходит по своим, рекомбинации известным правилам, и даже Ариадне, которая вывела Тесея из ужасного лабиринта с Минотавром, это было бы не по силам.

Но мы смелые и не ищем лёгких путей, поэтому в рамках проекта нужно написать программу для поиска участков, в которых произошла рекомбинация.

Нужно быть подготовленными -- до нас было немало попыток, некоторые из них увенчались выходом из лабиринта рекомбинации аж до публикации статей и цитирования (!), но при пристальном рассмотрении, программы либо морально и физически устаревшие, либо узкоспециализированные, либо просто не открываются по ссылке. Поэтому предстоит прочитать статьи про другие программы и понять, что же можно взять себе на заметку.

Как говорится, дорогу и лабиринт рекомбинации осилит идущий и программирующий!
Задачи
- определить алгоритм, который будет реализован для поиска рекомбинации
- выбрать формат данных, с которыми будет работать алгоритм
- определить характеристики, которые будут нужны для выявления рекомбинации
- найти тестовые варианты данных (вирусы, бактерии, популяционные данные для эукариот) из опубликованных статей
- реализовать алгоритм
- протестировать его на своём сгенерированном датасете
- протестировать его на настоящих популяционных данных
- сравнить результаты по качеству выявления рекомбинации
- сравнить с другими аналогами (если получит их найти вообще)
- визуализировать результаты

Требования к участникам
Биологический бэкграунд не обязателен, потому что задача алгоритмическая. Важно умение программировать на одном из компилируемых языков программирование, опыт работы с графами и в разработке алгоритмов.
Deep Learning for Chemogenomics

Адамьян Дмитрий | EPAM Systems

Поиск новых лекарств в современной фармацевтической промышленности требует больших затрат на экспериментальное тестирование огромного количества веществ. Фармацевтические компании стремятся ускорить поиск и сократить расходы при помощи вычислительных предсказаний активностей веществ, in-silico screening. Одним из направлений в этой области является вычислительная хемогеномика - предсказание активностей веществ на основе их структурных характеристик и последовательностей сразу многих белков-мишеней. Эта область на стыке хемоинформатики и биоинформатики. Имеются открытые наборы экспериментальных данных и в литературе существует опыт применения как традиционных методов машинного обучения, так и современных подходов глубокого обучения[1]. Задача этого проекта - опробовать современные методы машинного обучения в применении к некоторым задачам вычислительной хемогеномики.

Задачи
* Сформировать набор данных для обучения и тестирования моделей на основе открытой базы данных ExcapeDB[2] и ресурса Protein Data Bank[3]
* Выбрать метрики и способ оценки точности моделей
* Реализовать базовую версию алгоритма обучения моделей и протестировать ее на имеющихся данных
* Итеративно улучшать алгоритм

Требования к участникам
* Обязательное требование - владение языком Python
* Участники должны быть знакомы с методами машинного обучения и на практике владеть одним из наиболее распространенных фреймворков для deep learning, например Keras или PyTorch
* Необходимо понимание основ Recurrent Neural Networks и методов понижения размерностей
* Желательно знакомство с методами хемоинформатики и основными инструментами, например с пакетом RDKit
Предсказание оптимальной конфигурации и связывания в комплексах Т-клеточный рецептор:антиген: MHC на основе анализа карт контактирующих остатков в 3D структурах

Mikhail Shugay | Skolkovo Institute of Science and Technology

Т-клеточный рецептор (ТКР) используется Т-лимфоцитами для распознавания и уничтожения зараженных и злокачественных клеток организма. ТКР распознает присутствие чужеродных или мутантных белков путем связывания с главным комплексом гистосовместимости (MHC), представляющим потенциальные антигены в виде коротких пептидов. Предсказание специфичности того или иного ТКР к определенному антигену по их первичной аминокислотной последовательности является одной из ключевых задач современной иммунологии, открывает небывалые возможности в области разработки вакцин, иммунотерапии опухолей и лечения аутоиммунных заболеваний.
В данный момент существует достаточно большой набор комплексов ТКР:антиген:МНС, для которых известны кристаллические структуры, однако ввиду невероятного разнообразия возможных вариантов ТКР и антигенов, для предсказания специфичности требуется задействовать методы структурного моделирования и машинного обучения. В рамках данного проекта предлагается разработать и имплементировать алгоритм для оценки оптимальности конформации в комплексе ТКР:антиген:МНС и предсказать распознавание антигена рецептором. Основные задачи будут связаны с разработкой классификатора карт расстояний между атомами ТКР и антигена, которые представляют из себя "отпечаток" (изображение) распознающей части ТКР на антигене. Таким образом, задачи проекта будут включать в себя обработку и сравнение этих карт для реальных (нативных) и контрольных (модельных) структур комплексов ТКР:антиген:МНС.
Разработанные методы в перспективе позволят проводить оценку качества докинга и выбирать оптимальную структуру ТКР для определенного антигена, что с практической точки зрения означает возможность проводить быстрый полномасштабный скрининг пар ТКР-антиген для различных задач прикладной иммунологии.

Задачи
1) Имплементировать алгоритм для предобработки и стандартизации карт расстояний между аминокислотными остатками антигена и регионов CDR3 альфа и бета цепей ТКР
2) Разработать метод предсказания комплексов ТКР:антиген:МНС с оптимальным (нативной) ориентацией по анализам карт расстояний и контактов CDR3:антиген
3) Разработать метод классификации, позволяющий отличить реально существующие (связывающиеся) структуры ТКР:антиген:МНС от контрольных (случайных) структур используя карты расстояний и контактов CDR3:антиген
4) Интерпретация разработанных алгоритмов, тестирование алгоритма на независимых наборах данных.

Требования к участникам
Уверенное владение python или R
Опыт работы с популярными библиотеками машинного обучения
Опыт решения задач Image Classification с применением Convolutional Neural Networks
либо
Опыт работы с белковыми структурами
Подземные грызуны и их подземные замены

Бондарева Ольга | Зоологический Институт РАН, Институт биоинформатики

Адаптации к подземному образу жизни - сложный молекулярный процесс. Чаще всего при изучении адаптаций ищут признаки параллельной эволюции, т.е. те, которые есть у всех взятых в анализ грызунов. В нашем проекте мы пойдем с другой стороны и будем искать разнообразие вариантов адаптаций, которых нет у наземных грызунов.

Задачи
Для проекта участники получат уже очищенные и готовые к работе vcf файлы с результатами SNP-calling на референс подземных и наземных грызунов. Участникам предстоит найти фрагменты с
- максимальной плотностью замен у подземных грызунов. Поиск начнется с доменов, но участки можно сократить
- минимальной достоверной плотностью замен
- оценка влияния этих замен на биохимический свойства белка и влияние на биохимические пути, в которые они вовлечены
Отдельной задачей будет построение дерева по заменам, которые разделяют в отдельные кластеры наземных и подземных грызунов и анализ замен, которые позволяют делать такое разделение.

Требования к участникам
1-2 биолога
1 информатик, понимающий в машинное обучение и кластеризацию

Моделирование нервной системы Caenorhabditis elegans

Пономарев Андрей | Sunbay BV

OpenWorm — международный проект по созданию компьютерной модели на клеточном уровне одного из наиболее полно изученных современной биологией микроорганизмов — червя Caenorhabditis elegans.
Конечной целью проекта является полная модель, которая включает все клетки C. elegans (чуть менее тысячи). На первой стадии будет моделироваться передвижение червя, для чего симулируется работа 302 нервных клеток и 95 мышечных.
Участникам предлагается создать модель и симуляцию спонтанной активности нервных клеток, используя существующие наработки проекта OpenWorm.

Задачи
Разработать модель нейронной деятельности
Запустить симуляцию модели
Сравнить симулированную вольт-амперную характеристику с цифровой из доступной литературы
В зависимости от результатов сравнения принять модель или продолжить оптимизациюв

Требования к участникам

Клеточный биолог / нейробиолог
Зоолог беспозвоночных
Биоинформатик
Python разработчик
Извлечение сжатых блоков из VCF.gz с помощью tabix из S3 Bucket, используя AWS Lambda для последующего GWAS анализа

Пономарев Андрей | Sunbay BV

Tabix - это первый универсальный инструмент, который индексирует отсортированные по позициям файлы в форматах VCF, GFF, BED, PSL, SAM и SQL и быстро извлекает запрашиваемые области. Tabix включают в себя несколько вариантов поиска, сжатие данных и прямой доступ по FTP / HTTP. Tabix поставляется в виде инструмента командной строки, а также как библиотека на C с интерфейсами на Java, Perl и Python.
Но время не стоит на месте и появляются новые задачи. Так, в ходе крупномасштабного проекта кафедры ботаники Университета Британской Колумбии была собрана фенотипическая информация и проведено полногеномное секвенирование 1500 растений трех видов рода Helianthus, предварительно посаженных и выращенных в контролируемых условиях. Геном подсолнечника довольно большой и сложный. Он содержит от 3,5 до 3,6 миллиардов оснований, что делает его немного больше человеческого генома. В связи с этим, полученный объем данных секвенирования был запредельным для локального анализа, поэтому для хранения был выбрано хранилище Amazon S3.

Последующий анализ содержит следующие этапы:
1. Использование набора утилит GATK для получения Genomic VCF (gVCF)
2. Разбиение gVCF на отрезки с окном по 1 мегабазе и импорт их в формат GenomicsDB
3. Запуск GenotypeGVCFs (joint calling) для полученных отрезков с результирующим VCF для каждого окна
4. Объединение полученных VCF в хромосомы
5. Вменение (imputation) и выполнение полногеномного поиска ассоциаций (GWAS)

Используемое программное обеспечение имеет возможность работы со сжатыми данными. Таким образом, модифицированная версия tabix для извлечения сжатых блоков из VCF.gz поможет сэкономить огромное количество дискового пространства и даже позволит частично проводить анализ на локальном сервере.

Задачи
- Модифицировать tabix, реализовав возможность возвращать сжатые блоки данных
- Добавить возможность работать с удаленными данными через интерфейс S3
- Реализовать lambda-функцию для доступа к данным
- Подготовить данные для проведения GWAS

Требования к участникам

- Разработчик на C для модификации tabix
- Разработчик Node.js/Python/Java/Go/C# для создания AWS lambda-функции
- Биоинформатик для дизайна GWAS
Горизонтальный перенос генов в вагинальной микробиоте

Старикова Елизавета | ФНКЦ ФХМ

Вагинальная микробиота представляет собой относительно закрытое микробное сообщество, в котором, как правило, доминирует один из видов лактобактерий, поддерживая кислотную среду, необходимую для нормального функционирования женского организма. Мы предполагаем, что в такой экологической нише создаются благоприятные условия для обмена генами между разными видами бактерий, в том числе между лактобактериями и патогенными (или условно-патогенными) микроорганизмам. Мы думаем, что таким образом может в том числе происходить распространение токсинов и генов устойчивости к антибиотикам. Цели проекта -- выявить гены, являющиеся результатом горизонтального переноса между вагинальными лактобактериями и другими микроорганизмами, и попытаться понять, каким именно способом они были перенесены.

Задачи
- Выбрать бактерий-кандидатов, с которыми у лактобактерий мог происходить обмен генами
- Определить гены, подозрительно похожие у далёких видов и подозрительно различающиеся у близких видов
- Определить, какие из них могли быть перенесены Tn-транспозонами
- Проанализировать геномный контекст оставшихся генов для определения путей переноса

Требования к участникам

Понадобятся:
- биоинформатики с уверенными навыками работы с инструментами командной строки Linux
- человек, который знаком с Python (но не обязательно)
- биолог, знакомый с микробиологией, который поможет найти ответ на вопрос: зачем именно эти гены бактериям понадобилось переносить
Интерактивный сайт, показывающий прогресс в лечении рака

Гаранина Ирина | Parexel

Самый частый вопрос который задают обычные люди про рак - это почему еще не изобрели лекарство рака или когда же его изобретут. Для специалистов в этой области известно, что существует множество эффективных лекарств для лечения рака и прогресс в этой области очевиден. Но как этот прогресс увидеть всем остальным?

Каждый год проводятся клинические исследования новых препаратов и комбинаций уже существующих лекарств для лечения рака. На данный момент в базе данных всех клинических исследований clinicaltrials.gov можно найти порядка 9 тысяч исследований лекарств от рака, для которых уже доступны результаты. Данные по этим исследованиям находятся в открытом доступе. Но для обычных людей и даже врачей сложно работать с этой информацией. Данные по исследованиям не структурированы и невозможно увидеть этот самый прогресс.

Цель проекта состоит в том, чтобы использовать данные с clinicaltrials.gov и других открытых источников и создать интерактивный сайт, который в реальном времени показывал бы статистику по эффективности лекарств для каждого вида рака. Этот ресурс был бы полезен как врачам, так и пациентам.

Задачи
1. Настроить быструю передачу данных с clinicaltrials.gov с помощью API и обновление данных в реальном времени.
2. Написать программу для парсинга полученных данных и записи их в локальную базу данных.
3. Написать программу для классификации исследований по видам опухоли, типу исследований, конечной точке и другим важным параметрам.
4. Выбрать подходящие конечные точки клинических исследований, по которым можно было бы сравнивать различные исследования и виды опухолей.
5. Создать внешнюю часть сайта.

Требования к участникам
1. Программирование на Python/R/Java Script
2. Опыт работы с базами данных, API
3. Программирование внешней части сайта, Java Script, D3.js или подобная библиотека для визуализации данных
4. Понимание основ клинических исследований, особенно в онкологии
Спасти гусеницу Павлиноглазку

Антонец Кирилл | ВНИИСХМ

Маленькая гусеница Павлиноглазка медленно ползла по сочному листу. Чтобы превратиться в большую и красивую бабочку, ей надо активно питаться. Но вокруг ее подстерегает масса опасностей. Одна из них - это болезнетворные бактерии, в частности бактерии вида Bacillus thuringiensis. Надо отметить, что бактерий рода Bacillus существует великое множество, и далеко не все они опасны для Павлиноглазки. Даже не все серотипы B. thuringiensis представляют для нее опастность. Из-за быстрой дивергенции видов последовательности многих классических молекулярных маркеров очень похожи и не позволяют отличить один вид от другого. В то же время из-за высокой пластичности генома очень тяжело выделить один ген, уникальный для вида B. thuringiensis, тем более для опасных для Павлиноглазки серотипов. Наиболее точным методом определения вида является полногенномное секвенирование, однако оно остается слишком дорогостоящим для проверки всех бактерий Bacillus, которые можно выделить с листа, из почвы или с любой другой поверхности. Поэтому целью работы является создание набора для мультиплексного ПЦР для проверки принадлежности бактерии к виду B. thuringiensis и определения ее серотипа. Найдем всех опасных для гусеницы Павлиноглазки бактерий, поможем ей выжить!
Задачи
- Посторить пангеном бактерий рода Bacillus
- Вычленить для него последовательности, уникальные для B. thuringiensis
- Отобрать последовательности, уникальные для каждого серотипа B. thuringiensis
- Подобрать праймеры к каждой из выбранных последовательностей

Требования к участникам
-Базовые знания биоинформатики и работы с геномными данными
-Навыки работы с пангеномами
-Знание ПЦР и подбора праймеров
GenX

Кирилл Петренко| GenX Global Limited

На западе доступ к данным регулируется такими актами, законами и регламентами как Health Insurance Portability and Accountability Act (HIPAA) и EU General Data Protection Regulation (GDPR). В России – федеральным законом № 152-ФЗ «О персональных данных». Данная инициатива, прежде всего, нацелена на сохранность личных данных, но, в то же время, ограничивает исследования.

Федеративное обучение – это метод машинного обучения, который обучает алгоритм на нескольких децентрализованных периферийных устройствах или серверах, содержащих локальные выборки данных, без обмена данными между узлами. Данных подход позволит объединить данные для исследования, соблюдая при этом требования к стандартам конфиденциальности персональной информации между различными юрисдикциями.

Технология Intel Software Guard Extensions (SGX) предоставляет возможность приложению создавать анклавы — области в виртуальном адресном пространстве, защищенные от чтения и записи извне этой области другими процессами, включая ядро операционной системы. А также производить удаленную аттестацию между анклавами, гарантирующую подлинность удаленного приложения. Что создает инструментарий для организации multi-party confidential computing.

Ранее были произведены тематические исследования с применением комбинированных подходов:
– Федеративное обучение и дифференциальная приватность
– SGX и гомоморфное шифрование
– SGX и гибридное шифрование

Мы хотим показать, что использование платформы GenX делает возможным использование SGX для биоинформатических задач при анализе распределенных данных.

Задачи
Цели и задачи, основываясь на данных Medical Information Mart for Intensive Care (MIMIC III) для оценки продолжительности госпитализации и смертности:
– Применить методы машинного обучения на объединенной локальной выборке
– Применить федеративный метод машинного обучения на распределенной выборке по N узлам с поддержкой SGX
– Оценить производительность локального и федеративного классификаторов используя F-меру

Требования к участникам
Системынй програмист;
Биоинформатик;
Инженер безопасности;
Python-разработчик машинного обучения;
Разработка алгоритма для моделирования 1H ЯМР спектров произвольной частоты

Конанов Дмитрий | ФНКЦ ФХМ ФМБА России

Качество оценки метаболического состава биологических образцов зависит от ряда факторов: правильной пробоподготовки, выбора оборудования и методов и, разумеется, компьютерной обработки. Наиболее быстрым и воспроизводимым (но далеко не самым чувствительным!) методом в метаболомике заслуженно считается метод 1H ЯМР. Однако расшифровка полученных ЯМР спектров многокомпонентных образцов – это сложная техническая задача, занимающая значительно больше времени, чем снятие сигнала с образца. К настоящему моменту разработано несколько алгоритмов, позволяющих «фитить» спектры автоматически, при наличии базы эталонных спектров чистых веществ. Неприятность в том, что эти базы очень разнородны, как следствие, софт зачастую оказывается намертво привязан к определенной частоте прибора, так как нет возможности использовать другую базу. Так, например, метод квантификации ASICS по умолчанию использует базу, отснятую на 600МГц приборе, а в нашем центре стоит прибор на 500МГц. Задача перевода спектра из одной частоты в другую в общем виде не решена. Но если спектры были отнесены (т.е. заранее вручную определено происхождение каждого пика в спектре), задача внезапно становится решаемой. Удивительно, но не удалось найти программного обеспечения, позволяющего по некоторой разметке отнесений и заданном графе связности атомов восстановить с высокой точностью исходный спектр. Разработка такого алгоритма полуэмпирического моделирования спектров и предлагается как проект. Во-первых, такое ПО сильно поможет нашему центру, поскольку так сложилось, что на 500МГц качественных открытых библиотек нет вовсе. Во-вторых, отнесенные спектры по ряду причин проще фитить, поэтому можно будет попытаться улучшить существующие алгоритмы квантификации.

Задачи
1) Автоматизация предобработки сырых спектров (baseline/phase correction).
2) Разработка способа описания отнесенного спектра, с учетом связности атомов в молекулах метаболитов.
3) Разработка алгоритма симуляции спектра индивидуального вещества по заданному отнесению, с учетом second-order эффектов.
4) Аккуратное создание библиотеки основных метаболитов с помощью разработанного алгоритма.
5) Валидация алгоритма путем сравнения с существующими методами на их родных библиотеках и с ручной квантификацией на нескольких спектрах с нашего прибора.

Требования к участникам
1) Уверенное владение Python 3, в идеале опыт работы с pandas, scipy, matplotlib
2) Хотя бы остаточные знания школьной химии и тригонометрии :)
3) Большим плюсом будет понимание основ метода ЯМР, знакомство с библиотекой nmrglue, знание методов оптимизации, представление о графах
Репертуар противоопухолевого иммунитета

Котлов Никита, Плотникова Ольга | BostonGene

Иммунная система человека состоит из множества видов клеток, которые общаются друг с другом через рецептор-лигандные взаимодействия, а также за счет цитокинов и хемокинов. Иммунная система принимает активное участие в борьбе с опухолевыми клетками за счет механизмов адаптивного и врожденного иммунитета. Цитотоксические T лимфоциты способны распознавать мутантные пептиды, презентируемые на поверхности опухолевых клеток. Активный иммунный ответ происходит только при преобладании активирующих сигналов над ингибирующими. Опухоли в свою очередь экспонируют на поверхности ингибирующие молекулы (лиганды, например PDL1) и меняют цитокиновый фон в своем окружении, чтобы супрессировать иммунный ответ. Роль B лимфоцитов в противоопухолевом ответе долгое время считалась противоречивой, но и они принимают активное участие в противоопухолевом ответе (PMID:31988391).
Иммунотерапия - один из современных подходов к лечению онкологических заболеваний - настраивает иммунную систему пациента так, чтобы она боролась с раковыми клетками эффективнее. Самые известные препараты (чекпоинт ингибиторы) - это моноклональные антитела, которые препятствуют взаимодействию между рецептором и лигандом на опухоли и иммунной клетке (PDL1-PD1) или между разными типами иммунных клеток (PDL1-PD1, CTLA4-CD80 и другие). Блокировка ингибиторных чекпоинтов (рецепторов или их лигандов) приводит к активации цитотоксических иммунных клеток (обычно роль идет про T-клетки).
Далеко не все пациенты отвечают на иммунотерапию, в лучшем случае можно выделить 15% популяцию пациентов (% ответа еще зависит от вида опухоли). Обычно ответ на терапию ассоциируют с экспрессией соответствующей блокируемой молекулы, присутствием цитотоксических и ингибиторных типов иммунных клеток в микроокружении опухоли и мутационной нагрузкой.

В начале 2020 года вышло сразу несколько статей про роль B лимфоцитов в противоопухолевом иммунитете и иммунотерапии в разных опухолях. Показано, что формирование третичных лимфатических структур и высокая инфильтрация B клетками - это хороший предиктивный фактор ответа на чекпоинт ингибиторы (PMIDs: 31942075, 31942077).
Из данных секвенирования РНК можно получать информацию о репертуарах T и B лимфоцитов (TCR, BCR), например с помощью программы MIXCR (PMID: 29020005), а также можно оценивать присутствие разных видов клеток в микроокружении опухоли.
Цель проекта: исследовать данные репертуаров BCR, TCR и клеточного состава около 1000 образцов пациентов с меланомой (в том числе образцы до лечения иммунотерапией, а также в динамике) для того, чтобы понять, какие свойства репертуаров и типы иммунных клеток являются прогностическими. А также выяснить какие свойства влияют на ответ пациентов на иммунотерапию, и как репертуары T и B клеток меняются во время лечения.

Задачи
1) Научиться работать с репертуарами B и T лимфоцитов, полученными из данных секвенирования РНК.
2) Придумать способы визуализации репертуаров, клональности, изотипов B и T клеток в статике и динамике.
3) Оценить прогностическую силу разных параметров репертуаров и процентов клеток в меланоме.
4) Оценить как параметры репертуаров и проценты клеток связаны с ответом на иммунотерапии в меланоме.
5) Проанализировать как меняются репертуары в процессе лечения иммунотерапиями.

Требования к участникам
Необходимы:
* Продвинутое знание иммунологии
* Продвинутый навык программирования на Python/R
* Продвинутый навык анализа и визуализации данных
* Навык статистики
Будет плюсом
* Знание онкологии, онкоиммунологии
* Знание биологии меланомы
* Знание механихмов иммунотерапий
Машинное обучение для предсказания антимикробных пептидов

Галзитская Оксана | Институт Белка РАН


Полученные из естественных источников антимикробные пептиды (АМП) одно из перспективных направлений для решения проблемы бактериальной устойчивости к антибиотикам. Скрининг гигантского количества новых пептидов на способность быть АМП – трудоемкая и дорогая задача. Поэтому применение современных методов машинного обучения для сокращения кандидатов выглядит заманчивым решением проблемы.
Целью проекта является разработка и обучение классификатора пептидов, способного достаточно точно предсказать, обладает ли новая пептидная последовательность антимикробными свойствами, а если обладает – к какому классу АМП этот пептид относится. Участникам проекта предлагается использовать заранее размеченные данные из открытых баз данных АМП (DRAMP, CAMP, APD).

Задачи
- Обучение различных классификаторов (Native Bayes, HMM, различные RNN подходы)
- Сравнение классификаторов между собой
- Сравнение лучшего классификатора с уже существующими

Требования к участникам
• Понимание методов машинного обучения
• Навык использования библиотек для машинного обучения
Популяционная транскриптомика преэклампсии

Бабовская Анастасия | НИИ Медицинской генетики Томского НИМЦ

Понимание закономерностей изменения экспрессии генов, как на уровне отдельных индивидов в популяциях человека, так и на межпопуляционном уровне, предоставит важную информацию о молекулярной основе фенотипического разнообразия, необходимую для интерпретации моделей изменения экспрессии генов при патологии. Особый интерес представляют гены, дифференциально экспрессирующиеся между популяциями, так как они могут рассматриваться в качестве наиболее вероятных локусов восприимчивости к болезням, распространенность которых варьирует в зависимости от этнической принадлежности. Согласно современным представлениям, основная причина развития преэклампсии это нарушение этапов формирования плаценты. Пусковым механизмом является неполноценная инвазия трофобласта в спиральные артерии эндометрия. Данные события в децидуальной ткани включают целый каскад патогенетических механизмов, приводящий к развитию эндотелиальной дисфункции. В настоящее время одним из наиболее интересных объектов исследования является децидуальная клетка, так как она выступает связующим звеном между остальными клеточными популяциями в децидуальной ткани. Несомненной актуальностью обладает также характеристика внутри- и межпопуляционной вариабельности транскриптома децидуальных клеток и исследование ее роли в генетической архитектуре преэклампсии.

Задачи
1. Поиск дифференциально экспрессирующихся генов децидуальных клеток при преэклампсии и физиологической беременности.
2. Выявление сигналов отбора в транскриптоме децидуальных клеток.
3. Поиск паралогов и ортологов ДЭГ, построение филогенетического древа
4. Разработка алгоритма анализа обогащенности биологических путей, связанных с популяционной специфичностью ПЭ, сигналами действия отбора.

Требования к участникам
-Умение работать с геномными данными
-Навыки исследования эволюции белков, построение филогенетических деревьев, поиск паралогов и ортологов
Разработка алгоритма для быстрой кластеризации пангеномных ДНК последовательностей

Гурьев Виктор | University of Groningen


Большинство генетических исследований человека используют референсный геном, который в свою очередь не является полностью репрезентативным, так как бОльшая его часть основана на сборке геномов нескольких индивидов европейского происхождения. В подтверждение вышесказанного стоит упомянуть недавние исследования геномов африканцев, китайцев и голландцев [1,2,3], в которых было найдено множество фрагментов ДНК, не включенных в референс. Таким образом, референсный геном не отражает межпопуляционные различия. Добавляя последовательности специфичные для различных популяций в референсный геном, можно расширить его утилитарность и в итоге создать человеческий пангеном.
Для создания пангенома важной задачей является создание уникального набора ДНК последовательностей (так называемого non-redundant), где гомологичные участки, найденные в геномах разных индивидуумов, объединены. Для этой задачи в настоящее время существует несколько пакетов программ с разными алгоритмами. Одной из наиболее применяемых программ является CD-HIT [4]. Данный алгоритм позволяет кластеризовать аминокислотные или нуклеотидные последовательности, используя фильтр для коротких слов. Сперва алгоритм сортирует последовательности в убывающем согласно длине порядке. Первая последовательность рассматривается как репрезентатив первого кластера, последующие последовательности будут сравниваться с ней. Далее степень идентичности двух последовательностей сравнивается с пороговой, которая задается пользователем. Если показатель выше порогового, последовательность удаляется, в противном случае она добавляется как репрезентатив нового кластера.
Несмотря на то, что данная программа является относительно быстрой, она не позволяет объединять большие массивы последовательностей (например основанные на сотнях или тысячах геномов) в приемлемые сроки. Альтернативные программы, такие как Uclast являются коммерческими решениями, что ограничивает их использование.
В связи с этим, мы предлагаем разработать алгоритм кластеризации пангеномых нуклеотидных последовательностей более производительный, чем CD-HIT и его аналоги.

1. Sherman, Rachel M., et al. "Assembly of a pan-genome from deep sequencing of 910 humans of African descent." Nature genetics 51.1 (2019): 30-35.
2. Duan, Zhongqu, et al. "HUPAN: a pan-genome analysis pipeline for human genomes." Genome biology 20.1 (2019): 149.
3. Hehir-Kwa, Jayne Y., et al. "A high-quality human reference panel reveals the complexity and distribution of genomic structural variants." Nature communications 7.1 (2016): 1-10.
4. Li, Weizhong, and Adam Godzik. "Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences." Bioinformatics 22.13 (2006): 1658-1659.

Задачи
Создать программу, способную эффективно кластеризовать пангеномные последовательности ДНК.
Сравнить производительность этой программы с уже известными альтернативами (например с CD-HIT).
Опробовать программу на реальных пангеномных данных и провести анализ чувствительности и специфичности нового алгоритма.

Требования к участникам
Базовые знания в биологии геномов. Интерес к разработке новых алгоритмов. Нестандартный подход к решению алгоритмических задач.
Aging trajectories

Шпынов Олег | JetBrains Research

Старение - это биологический процесс постепенной деградации систем живого организма и последствия этого процесса. В статьях Global metabolic profiling to model biological processes of aging in twins [PMID: 31746094] и Undulating changes in human plasma proteome profiles across the lifespan. [PMID: 31806903] были показаны значительные изменения метаболизма в процессе старения. В данном проекте мы попытаемся описать и охарактеризовать траектории развития отдельных подсистем (pathways) с использованием данных из статьей, баз данных Reactome и пытливых умов.
Задачи
1. Прочитать статьи
2. Научиться работать с данными Somascan и базой данной Reactome
3. Сформировать набор pathways, для которых имеются данные метаболитов
4. Применить методы понижения размерности PCA + UMAP
5. Визуализировать траектории развития с возрастом
6. Классифицировать траектории и описать с точки зрения биологии

Требования к участникам
Для информатика:
1. Владение языком Python
2. Умение анализировать и визуализировать многомерные данные

Для биолога:
1. Быть знакомым с базой данных Reactome
2. Приветствуются знания в области биологии развития и старения
3. Прочитать статью The Hallmarks of Aging [PMID: 23746838]
Hypometer

Шпынов Олег | JetBrains Research

С помощью методов машинного обучения попробуем разобраться в научных публикациях, какие факторы влияют больше всего на популярность работ, какие области сейчас наиболее востребованы. В статье Can Scientific Impact Be Predicted (https://arxiv.org/pdf/1606.05905.pdf) авторам удалось добиться довольно хорошей точности предсказания цитируемости статьи в будущем. Мы же попробуем перенести эти результаты на базу биомедицинских текстов PubMed (https://www.ncbi.nlm.nih.gov/pubmed/) с помощью наработок сервиса Pubtrends (http://bit.ly/pubtrends). В результате сделаем веб сервис для hype-скоринга статей.

Задачи
1. Прочитать статью
2. Научиться работать с данными PubMed
3. Реализовать и оценить алгоритм машинного обучения для предсказания цитирований
4. Выбрать биологическую предметную область и найти самые недо- и пере-оцененные работы.
5. А что было бы если бы не было авторов?
6. Реализовать веб сервис для представления результатов

Требования к участникам
Для информатика:
1. Владение языком Python и Jupyter notebook
2. Умение анализировать и визуализировать данные
3. Желателен опыт работы c Bokeh и Flask

Для биолога:
1. Умение работать с научной литературой
2. Опыт работы с Google Scholar и PubMed
3. Желание разбираться в новых областях
Система помощи в принятии решений при травмах различной локализации

Фетисов Даниил | МГМСУ им. А.И. Евдокимова

Цель проекта - создание инструмента, позволяющего при входных данных в виде снимка потенциального перелома и дополнительной информации в виде истории болезни пациента, с достаточно высокой точностью определить наличие и характер травмы, а также вероятные сроки восстановления с учётом риска возможных осложнений.

Этот инструмент позволит ставить диагнозы с более высокой точностью, сократить человеческий фактор и снизить вероятность врачебной ошибки. Также пониженная нагрузка на врачей позволяет медицинским учреждениям помогать большему числу пациентов, что вместе с адекватной оценкой длительности и сложности реабилитации позволит сократить расходы на медицинский персонал.

Задачи
- Поиск баз данных рентгенограмм переломов и сопутствующей информации о пациентах.
-Разработка и обучение нейросети, определяющей наличие повреждения, его характер и локализацию.
-Проведение анализа факторов, влияющих на сроки реабилитации и риски осложнений
-Структурирование алгоритма расчёта предполагаемого времени и затрат на восстановление пациента
-Построение финансовой модели функционирования лечебно-профилактического учреждения с учетом разработанной системы
-Оценка результатов работы алгоритма

Требования к участникам
-Владение Python
-Навыки работы с нейронными сетями
-Базовые знание анатомии, травматологии и реабилитации
Gene delivery assistant

Глинин Тимофей, Ахмедиев Дмитрий | СПбГУ


Генная терапия является одной из самых быстроразвивающихся областей медицины, потенциал которой только начинает раскрываться в полном масштабе.

Более трех тысяч геннотерапевтических препаратов находятся на стадии клинических испытаний, однако масштаб применения данного подхода значительно шире и может быть использован для лечения патологий любых типов тканей и клеток. Одной из сложностей первичных этапов разработки генотерапевтических лекарств является разработка эффективного и направленного способа доставки терапевтических молекул (ДНК или РНК) в клетки-мишени. Поскольку основной способ проникновения генотерапевтической молекулы в клетки - это лиганд-опосредованный эндоцитоз, то важной задачей является подбор рецептора, строго специфичного для клеток таргетного органа (или ткани), выбор лиганда к этому рецептору и модификация им генотерапевтической конструкции. Сейчас выбор рецептора осуществляется вручную и занимает много времени, а подбор лиганда требует синтеза и лабораторного тестирования перебором большого количества молекул-кандидатов, так как существующие программы недостаточно хорошо предсказывают лиганды, приводящие к эффективному и специфичному внутриклеточному захвату.
Наша цель: разработать систему в форме web-приложения для оптимизации процесса поиска подходящего средства генотерапевтической доставки в нужную ткань. Разработка носителя требует выбора нескольких параметров, в частности, подбора лигандов для направленной доставки в таргетную ткань/орган и выбора типа вектора (вирусного или невирусного носителя). Данное web-приложение после выбора таргетной ткани и желаемых свойств терапевтического воздействия позволит осуществлять автоматизированный поиск рецепторов, специфичных для этой ткани и подбор структуры лиганда, максимизирующего эффективность доставки, а также будет предоставлять рекомендации относительно типа вирусного (или невирусного) носителя, позволяющего добиться необходимых свойств.

Задачи
1. Подбор релевантных баз данных: базы рецепторов, специфичных для различных тканей; базы данных лигандов, специфичных для различных рецепторов и позволяющих осуществлять лиганд-опосредованный эндоцитоз.
2. Разработка интерфейса взаимодействия с пользователем, поиск по базам → автоматический подбор лиганда к специфическому рецептору в таргетной ткани.
3.Тонкая настройка лиганд-рецепторного взаимодействия: предсказание структуры лиганда, которая будет максимально специфична рецепторам в таргетной ткани.
4.Объединить все этапы в рамках одного веб-приложения.

Требования к участникам
Технические навыки
- python 3
- опыт работы с API популярных биоинформатических баз
- библиотека biopython
- нам нужен человек знакомый (хотя бы на базовом уровне) с web-разработкой
- RDKit
- методы машинного обучения (scikit-learn), нейронные сети (keras)

Биологические навыки
- знания в биологии взаимодействия белков, вирусологии
- поиск и работа c биологическими базами данных, например Gene ontology, базы NCBI
- знания в области генной терапии
Определение видового и подвидового состава микробных сообществ из данных секвенирования длинных ампликонов рДНК

Барбитов Юрий | Институт биоинформатики


Проект посвящен поиску оптимального метода для максимально аккуратной таксономической идентификации бактерий в различных местообитаниях (в первую очередь, в теле человека). На данный момент наиболее широко распространен метод секвенирования коротких (300-400 п.н.) ампликонов 16S рДНК. Однако, такой метод не позволяет точно идентифицировать бактерий на уровне ниже рода, что важно как в научных, так и в медицинских применениях. В последние годы были предложены и другие методы, предполагающие секвенирование более длинных фрагментов (всего гена 16S или rrn-оперона 16-23S вместе). В то же время, вычислительные методы для работы с такими большими ампликонами пока плохо отработаны. В проекте команде будет предложено разработать новый вычислительный метод для анализа данных секвенирования региона 16-23S.
Задачи
1. Ознакомиться с предложенными на настоящий момент методами анализа 16-23S библиотек.
2. Составить максимально полную референсную базу данных, содержащую последовательности региона 16-23S у различных микроорганизмов.
3. Разработать собственный алгоритм оценки видового состава сообщества из данных секвенирования 16-23S региона.
4. Протестировать разработанный алгоритм на реальных данных, оценить эффективность видовой классификации по сравнению с традиционными методами.

Требования к участникам
Базовые навыки программирования (любой язык), как минимум один участник с пониманием алгоритмов и статистических методов, крайне желательно умение работать в командной строке от всех участников
Дифференциация СЭМ-микрофотографий спор миксомицетов рода Diderma методами машинного обучения.

Голубева Анна | БИН РАН

Споры - это одноклеточные, переносимые по воздуху пропагулы различных организмов (от растений и грибов до протистов), обычно размером 5-50 мкм, сферические и эллипсоидные, а их поверхность покрыта различными орнаментами, состоящими из бородавок, шипов, гребней и других их комбинаций.
Этот ландшафт спор часто варьируются между видами. Для грибов и плесневых грибов орнаментация спор является одним из наиболее характерных признаков дифференциации видов.

Дифференциация ландшафта спор до сих пор является областью квалифицированных таксономистов, необходимо хорошо разбираться в предметной области, чтобы запоминать и различать разнообразие таких ландшафтов. На данный момент отсутствует хороший количественный подход к описанию этих орнаментов, поэтому в описаниях видов обычно можно найти лишь изображения спор, часто с помощью сканирующей электронной микроскопии (СЭМ), но не более. Количественный подход позволил бы использовать параметры, описывающие орнаментацию спор, во всех видах анализа, таких как многомерная статистика, числовая таксономия, идентификация с машинным управлением и т.д. Таким образом, поставлена задача разработать метод автоматического количественного анализа паттернов орнаментации спор из SEM-микрофотографий, выполненных с сушкой в критической точке.

В этой области уже был применены шаги с помощью бесплатного программного обеспечения ImageJ (Национальный институт здравоохранения США), которое позволяет гибко автоматизировать пакетную обработку цифровых изображений с использованием сценариев. Но был предложен подход визуального распознавания снимков при помощи нейронных сетей. На данный момент была достигнута точность распознавания в 75%.

Принцип работы программного обеспечения:
Пользователь загружает в веб-сервис папку с фотографиями (чаще tiff формата), внутри конвертер переводит серию фотографий в формат base64 и отправляет POST-запросом в уже обученную нейронную сеть, а ответом приходит json с присвоенными классами распознанным изображениям спор и некоторая другая аналитика вроде степени уверенности нейронной сети в своем распознавании.

Для развертки сервиса уже есть:
скрипт
снэпшот
веб-интерфейс
обученная нейронная сеть
конвертер в формат base64

Задачи
1) Возможное улучшение качества распознавания микрофотографий спор
2) Сравнение полученных результатов с предыдущей стратегией дифференциации
3) Написать сервис, который связал бы веб-интерфейс, конвертер микрофотографий в формат base64 и нейронную сеть
3) Пакетная обработка серии микрофотографий и вывод аналитики в файл

Требования к участникам
Разработчики с хорошими знаниями в веб-разработке, JS, Python, анализу данных.
Integrative cluster predictor for breast cancer

Валиев Иван | BostonGene

Рак молочной железы - второй по распространённости вид рака. Помимо того, что он очень распространённый, он ещё и очень гетерогенный: некоторые разновидности (HER2+ по классификации PAM50) фатальны, если не назначить соответствующие препараты. А некоторые особо редкие разновидности (к примеру, аденокистозный рак) крайне индолентны и практические не метастазируют.
Это безобразие надо как-то классифицировать. Ныне главенствуют 2 классификации: PAM50, основанная на экспрессиях (Perou et al., 2000; Parker et al., 2009; Harbeck et al., 2019) и классификация по маркерам иммуногистохимии (Harbeck et al., 2019).
В 2012 году была представлена очень интересная классификация IntClust (Curtis et al., 2012). Разделившая рак молочной железы аж на 10 интегральных кластеров. И в большинстве случаев они обладали своими специфическими характеристиками.
В 2014 году эта классификация была ещё раз воспроизведена, теперь уже на когорте размером в 7500 пациентов (Raza Ali et al., 2014).
Но этого мало. Хотелось бы какой-то платформонезависимый инструмент, который бы на входе брал экспрессии RNA-Seq или микрочипа и на выходе давал класс опухоли.
Цель данного проекта - построить платформонезависимую модель, которая по данным экспрессий (RNA-Seq или чип) классифицирует опухоль по IntClust.

Curtis, C. et al. (2012) 'The genomic and transcriptomic architecture of 2,000 breast tumours reveals novel subgroups', Nature, 486(7403), pp. 346–352.
Harbeck, N. et al. (2019) 'Breast cancer', Nature Reviews Disease Primers. Nature Publishing Group, 5(1), pp. 1–31.
Parker, J. S. et al. (2009) 'Supervised risk predictor of breast cancer based on intrinsic subtypes', Journal of clinical oncology: official journal of the American Society of Clinical Oncology, 27(8), pp. 1160–1167.
Perou, C. M. et al. (2000) 'Molecular portraits of human breast tumours', Nature, 406(6797), pp. 747–752.
Raza Ali, H. et al. (2014) 'Genome-driven integrated classification of breast cancer validated in over 7,500 samples', Genome biology. BioMed Central, 15(8), pp. 1–14.

Задачи проекта
1. Построить черновую предсказательную модель для IntClust (какой угодно алгоритм, какие угодно гиперпараметры - лишь бы работало; тренировочными данными будут 2000 образцов когорты METABRIC; если повезёт - 9500).
2. Выбрать подходящие алгоритм/гиперпараметры
3. Выбрать фичи (модель в идеале должна быть платформонезависимой, так что брать на вход все 20000 генов не прокатит)
4. Опробовать полученную модель на внешних датасетах. Надо будет напустить на них модель и проверить, что характеристики кластеров METABRIC похожи на кластеры, предсказанные во внешних. Или посмотреть на новые характеристики, если там будет что-то новое (например, метилирование или протеом).

Требования к участникам

Понимание онкологии, канцерогенеза и рака молочной железы. Хотя бы у одного человека.
Умение парсить табличные данные (преимуществом будет умение творить подлинную чёрную магию в pandas).
Хотя бы один человек с твёрдым пониманием экосистемы scikit-learn (train-test split, cross-validation, feature selection и lightGBM не должны быть пустым звуком)
Мультиомиксные классификации для опухолей

Валиев Иван | BostonGene

Задача разделения опухолей на классы очень старая, но важная. В первую очередь из-за прогноза пациента и вероятности ответа опухоли на тот или иной вид терапии.
Классифицировать раньше пытались по-разному: по размерам опухоли/метастазам в лимфоузлы/отдалённым метастазам (TNM классификация), по гистологическому строению (см. классификации ВОЗ), в некоторых случаях - по окрашиваемости на гистологических слайдах (иммуногистохимия). С внедрением NGS стали повсеместны попытки расклассифицировать, основываясь на данных экспрессий (чиповых/RNA-Seq) и мутаций (экзомное секвенирование). Типичный пример - статьи TCGA (Paez et al., 2014) (Ciriello et al., 2015).
То, что нас интересует именно в этом проекте - мультиомиксные классификации (Misra et al., 2019). Это когда несколько омиксов (транскриптомика, геномика, протеомика, данные метилирования ДНК и так далее) пытаются объединить в некоторое новое пространство признаков, и потом уже в нём вводить разделение на классы.
Это достаточно… творческий проект. Цель - применить несколько выбранных алгоритмов мультиомиксной кластеризации (Wang et al., 2014),(Mo et al., 2013) к доступным опухолевым когортам и посмотреть, можем ли мы из получаемых классов узнать об опухолях что-то новое.

Ciriello, G. et al. (2015) 'Comprehensive Molecular Portraits of Invasive Lobular Breast Cancer', Cell, 163(2), pp. 506–519.
Misra, B. B. et al. (2019) 'Integrated omics: tools, advances and future approaches', Journal of molecular endocrinology. Bioscientifica Ltd, 62(1), pp. R21–R45.
Mo, Q. et al. (2013) 'Pattern discovery and cancer gene identification in integrated cancer genomic data', Proceedings of the National Academy of Sciences of the United States of America, 110(11), pp. 4245–4250.
Paez, J. G. et al. (2014) 'Comprehensive molecular profiling of lung adenocarcinoma', Nature. Nature Publishing Group, 511(7511), pp. 543–550.
Wang, B. et al. (2014) 'Similarity network fusion for aggregating data types on a genomic scale', Nature methods. Nature Publishing Group, 11(3), pp. 333–337

Задачи проекта
Выбрать алгоритм кластеризации.
- Предобработать данные (не всем алгоритмам следует давать на вход все данные подряд)
- Выполнить кластеризацию на какой-нибудь крупной и/или интересной когорте (как минимум на руках будет TCGA)
- Соотнести кластеры с дополнительными внешними данными (другие классификации; клинические данные датасета; другие омиксы, не включённые в кластеризацию)
- Если остаётся время/силы - повторить предыдущие пункты с другим алгоритмом

Требования к участникам

Достаточный технический бэкграунд, чтобы понимать, как работает(ют) алгоритм(ы) кластеризации - хотя бы 1 человек
Знание онкологии/канцерогенеза - хотя бы у одного человека. Чтобы было проще интерпретировать получаемые кластеры образцов.
Знание python/pandas или аналогов на уровне, достаточном для быстрого парсинга табличных данных (их будет много) - желательно всем.
Экспертная система для подбора антигипертензивной терапии для врача-терапевта

Котвицкая Екатерина, Смирнов Владимир | МГМСУ им. А.И. Евдокимова

Гипертоническая болезнь - полиэтиологическое заболевание, и для его лечения применяется большое количество групп препаратов с разными механизмами действия.
У разных пациентов различный механизм возникновения артериальной гипертензии.
Лечение должно быть в первую очередь патогенетическим.
Также существует большое количество сопутствующих патологий, которые можно корректировать, назначая ту или иную группу препаратов. Некоторые препараты наоборот не следует назначать при определенных сопутствующих состояниях.. Выбор препарата представляет сложность. Предлагается разработать систему поддержки принятия решений для назначения терапии в виде экспертной системы на правилах, веб-сервиса, соответствующего стандартам HL7, и интерфейса для демонстрации его работы.

Задачи проекта
* проектирование системы, определение формата входных/выходных данных
* база правил для назначения препаратов
* расчет рекомендаций по правилам
* обработка входных данных
* реализация и развертывание веб-сервиса
* реализация веб-интерфейса (фронтенда)
Re-Move

Агабалаев Давид | The Smith company

Использование машинного обучения для трансформации входящего сигнала с нейроинтерфейса\ контролера в корректный сигнал управления (для людей с различными физиологическими и психологическими отклонениями не способными из за этого полноценно использовать различные девайсы\приложения)

Задачи проекта
Написание прототипа\ рабочего образца нейросети для решения задачи конвертирования некоретного входного сигнала в сигнал управления

Требования к участникам

-Опыт программирования в любом языке (Желательно с опытом программирования нейросетей)
-Знания в области биологии (предпочтительно нейробиологии, биохимии, физиологии и биомедицины)
Аллостерическая регуляция ферментов через молекулы воды

Залевский Артур | ИБХ РАН

Аллостерическая регуляция - тонкий способ управления активностью фермента. Связываясь не в активном центре, а других областях белка, лиганды могут существенно изменять каталитическую активность или субстратную специфичность. Частным случаем таких лигандов являются ионы металлов, например натрия или кальция. Однако, так как связывание лиганда нередко происходит в весьма удаленных областях, должна существовать какая-то система передачи сигнала к активному центру фермента. Удивительным образом, одной из таких сред передачи сигнала может быть вода [https://www.ncbi.nlm.nih.gov/pubmed/15152000].
В рамках проекта мы попытаемся обнаружить и верифицировать случаи аллостерической регуляции, основанной на передаче сигнала связывания катиона к активному центру фермента через сетку молекул воды.

Задачи проекта
1. Разработать алгоритм, трассирующий аллостерический сигнал от сайта связывания иона к активному центру (на примере тромбина)
2. Собрать из нескольких источников информацию о каталитических центрах фементов
3. Провести сканирование банка данных PDB (~160 тысяч записей) на наличие ферментов имеющих систему аллостерической регуляции
4. Классифицировать результаты (структурные/эволюционные/биологические особенности)
5* С помощью методов молекулярного моделирования верифицировать влияние катионов на функциональное состояние каталитических центров

Требования к участникам

Навыки программирования на Python и базовое пространственное мышление.
Вопросы
Если у вас остались вопросы — пишите нам: info@biohack.ru