На этой странице будут находиться материалы для курса «Анализ транскриптомных данных», который читается в осеннем семестре 2022/2023 учебного года в Московском государственном университете на базе Факультета биоинженерии и биоинформатики. Курс разработан и читается при поддержке фонда «Интеллект».
Курс доступен всем желающим. Более того, в конце курса каждый желающий может получить сертификат (или зачёт, если это студент ФББ МГУ), если выполнит для этого условия (см. ниже). Для того, чтобы записаться на курс, необходимо заполнить Google-форму и вступить в Telegram-чат.
Занятия проходят по пятницам с 15:35 до 18:55 по московскому времени (GMT +3). Подключиться к занятиям можно при помощи Zoom. Также доступны онлайн YouTube-трансляции (следите за обновлениями на странице Teach-in).
-
Лекция: Технологии секвенирования следующего поколения (NGS). Экспериментальные подходы к секвенированию РНК тканей (bulk RNA-Seq). Сходства и различия с микрочиповыми технологиями. Основные базы данных (SRA, GEO). Презентация
Семинар: Базовая работа с прочтениями. SRA-Toolkit, SRA-Explorer, FastQC, MultiQC. Jupyter-notebook
Запись: https://www.youtube.com/watch?v=KxkTMlaPp9s -
Лекция: Выравнивания (STAR, HISAT2) и псевдовыравнивания (kallisto, Salmon). EM-алгоритм для оценки представленности транскриптов (RSEM). Презентация
Семинар: «препарирование» EM-алгоритма и его реализация на Python. Jupyter-notebook
Запись: https://www.youtube.com/watch?v=LKukq5G8w-M -
Лекция: Основные распределения, встречающиеся в омиксных данных. Методы нормализации в bulk RNA-Seq: от RPKM и TPM до RLE и TMM. Контроль за дисперсией в данных. Презентация
Семинар: Статистические подходы к определению максимально правдоподобных распределений данных. Jupyter-notebook
Запись: https://www.youtube.com/watch?v=6-Ul5Ir-FW4 -
Лекция: Дифференциальная экспрессия, параметрические и непараметрические тесты. Линейные модели и обобщённые линейные модели (GLM). Работа с экспрессиями на уровне транскриптов. tximport и Sleuth
Семинар: Написание собственного алгоритма определения дифференциально экспрессированных генов. Работа с пакетами DESeq2 и edgeR -
Лекция: Системный анализ bulk RNA-Seq: анализ обогащённости (GO Enrichment Analysis), Gene Set Enrichment Analysis (GSEA и ssGSEA). Работа с экспрессионными данными на уровне генных сигнатур. Понятие деконволюции bulk RNA-Seq
Семинар: Практическая работа с экспрессионными данными на уровне генных сигнатур. Сравнение различных подходов к определению клеточного состава bulk RNA-Seq (signature-based vs. deconvolution) -
Лекция: Понятие и необходимость scRNA-Seq. Методы подготовки библиотек scRNA-Seq. Сравнение различных подходов для подготовок библиотек для scRNA-Seq. Batch effect в данных scRNA-Seq
Семинар: Работа с базами данных scRNA-Seq. Дискуссия на тему правильного выбора стратегии подготовки библиотек. Основы работы с библиотеками scanpy и Seurat -
Лекция: Выравнивания и псевдовыравнивания в scRNA-Seq. Контроль качества клеток в scRNA-Seq. Определение и устранение пустых клеток и дублетов. Очистка от примешавшейя РНК (DecontX)
Семинар: Собственная реализация алгоритма поиска пустых капель -
Лекция: Процессинг данных scRNA-Seq: сходства и различия с bulk RNA-Seq. SCTransform, LogNorm, pagoda2 и прочие способы контроля за дисперсией данных
Семинар: Собственная реализация алгоритма SCTransform -
Лекция: Проклятие размерности. Feature selection при помощи регуляризаций. Методы feature selection, принятые в scRNA-Seq: выделение высоко-вариабельных генов и подходы к этому выделению. Методы снижения размерности: PCA, t-SNE, UMAP, ForceAtlas2. Графовое представление данных
Семинар: Работа с различными методами снижения размерности в scanpy -
Лекция: Подходы к устранению батч-эффекта в scRNA-Seq: Harmony, bbkNN, Scanorama, MNN, conos. Анализ методом канонических корреляций (CCA)
Семинар: Сравнение подходов для устранения батч-эффектов в данных scRNA-Seq -
Лекция: Использование вариационных аутоэнкодеров для процессинга scRNA-Seq. scVI-tools
Семинар: Препарирование scVI, написание собственного вариационного аутоэнкодера на PyTorch и Pyro -
Лекция: Подходы к кластеризации данных. Иерархическая кластеризация, K-Means, графовые алгоритмы кластеризации (Louvain, Leiden, SNN). Понятие стабильности кластера, бутстрэп
Семинар: Реализация алгоритма оценки стабильности кластеров -
Лекция: Определение траекторий дифференцировки клеток в scRNA-Seq: Monocle2, Monocle3, иные подходы. Обобщённые аддитивные модели (GAM) и их использование для определения генов, которые меняют свою экспрессию по ходу дифференцировки клеток. RNA velocity
Семинар: Написание собственного алгоритма определения генов, которые меняют свою экспрессию по ходу псевдо-времени -
Лекция: Определение типов клеток в scRNA-Seq: автоматическое и мануальное. Поиск взаимодействий между различными типами клеток, CellPhoneDB
Семинар: Написание алгоритма автоматического определения типов клеток. Сравнение существующих алгоритмов -
Лекция: Мультимодальные омики одиночных клеток. Подходы для анализа мультимодальных омик одиночных клеток: MOFA, WNN, totalVI, multiVI. CLR-transformation в омиксных данных. Работа с омиксными данными как с композиционными данными
Семинар: Воркшоп по анализу мультимодальных омиксных данных
Критерием успешного освоения курса (зачёт для студентов МГУ или сертификат для свободных слушателей) является выполнение одного из двух условий:
- выполнение двенадцати и более домашних заданий как минимум на «удовлетворительно»,
- выполнение двух проектных заданий, которые даются в середине и конце курса.
Формат отчёта по курсу — ссылка на GitHub-репозиторий с выполненными заданиями (форма для обратной связи будет выложена позднее). Проверяться будут только те работы, которые хотя бы формально могут претендовать на зачёт (т.е. репозитории с 11 и менее домашними заданиями или всего одним проектом проверяться не будут в принципе).