Skip to content

Latest commit

 

History

History
63 lines (44 loc) · 11 KB

README.md

File metadata and controls

63 lines (44 loc) · 11 KB

Курс «Анализ транскриптомных данных»

На этой странице будут находиться материалы для курса «Анализ транскриптомных данных», который читается в осеннем семестре 2022/2023 учебного года в Московском государственном университете на базе Факультета биоинженерии и биоинформатики. Курс разработан и читается при поддержке фонда «Интеллект».

Запись на курс

Курс доступен всем желающим. Более того, в конце курса каждый желающий может получить сертификат (или зачёт, если это студент ФББ МГУ), если выполнит для этого условия (см. ниже). Для того, чтобы записаться на курс, необходимо заполнить Google-форму и вступить в Telegram-чат.

Занятия проходят по пятницам с 15:35 до 18:55 по московскому времени (GMT +3). Подключиться к занятиям можно при помощи Zoom. Также доступны онлайн YouTube-трансляции (следите за обновлениями на странице Teach-in).

Программа курса

  1. Лекция: Технологии секвенирования следующего поколения (NGS). Экспериментальные подходы к секвенированию РНК тканей (bulk RNA-Seq). Сходства и различия с микрочиповыми технологиями. Основные базы данных (SRA, GEO). Презентация
    Семинар: Базовая работа с прочтениями. SRA-Toolkit, SRA-Explorer, FastQC, MultiQC. Jupyter-notebook
    Запись: https://www.youtube.com/watch?v=KxkTMlaPp9s

  2. Лекция: Выравнивания (STAR, HISAT2) и псевдовыравнивания (kallisto, Salmon). EM-алгоритм для оценки представленности транскриптов (RSEM). Презентация
    Семинар: «препарирование» EM-алгоритма и его реализация на Python. Jupyter-notebook
    Запись: https://www.youtube.com/watch?v=LKukq5G8w-M

  3. Лекция: Основные распределения, встречающиеся в омиксных данных. Методы нормализации в bulk RNA-Seq: от RPKM и TPM до RLE и TMM. Контроль за дисперсией в данных. Презентация
    Семинар: Статистические подходы к определению максимально правдоподобных распределений данных. Jupyter-notebook
    Запись: https://www.youtube.com/watch?v=6-Ul5Ir-FW4

  4. Лекция: Дифференциальная экспрессия, параметрические и непараметрические тесты. Линейные модели и обобщённые линейные модели (GLM). Работа с экспрессиями на уровне транскриптов. tximport и Sleuth
    Семинар: Написание собственного алгоритма определения дифференциально экспрессированных генов. Работа с пакетами DESeq2 и edgeR

  5. Лекция: Системный анализ bulk RNA-Seq: анализ обогащённости (GO Enrichment Analysis), Gene Set Enrichment Analysis (GSEA и ssGSEA). Работа с экспрессионными данными на уровне генных сигнатур. Понятие деконволюции bulk RNA-Seq
    Семинар: Практическая работа с экспрессионными данными на уровне генных сигнатур. Сравнение различных подходов к определению клеточного состава bulk RNA-Seq (signature-based vs. deconvolution)

  6. Лекция: Понятие и необходимость scRNA-Seq. Методы подготовки библиотек scRNA-Seq. Сравнение различных подходов для подготовок библиотек для scRNA-Seq. Batch effect в данных scRNA-Seq
    Семинар: Работа с базами данных scRNA-Seq. Дискуссия на тему правильного выбора стратегии подготовки библиотек. Основы работы с библиотеками scanpy и Seurat

  7. Лекция: Выравнивания и псевдовыравнивания в scRNA-Seq. Контроль качества клеток в scRNA-Seq. Определение и устранение пустых клеток и дублетов. Очистка от примешавшейя РНК (DecontX)
    Семинар: Собственная реализация алгоритма поиска пустых капель

  8. Лекция: Процессинг данных scRNA-Seq: сходства и различия с bulk RNA-Seq. SCTransform, LogNorm, pagoda2 и прочие способы контроля за дисперсией данных
    Семинар: Собственная реализация алгоритма SCTransform

  9. Лекция: Проклятие размерности. Feature selection при помощи регуляризаций. Методы feature selection, принятые в scRNA-Seq: выделение высоко-вариабельных генов и подходы к этому выделению. Методы снижения размерности: PCA, t-SNE, UMAP, ForceAtlas2. Графовое представление данных
    Семинар: Работа с различными методами снижения размерности в scanpy

  10. Лекция: Подходы к устранению батч-эффекта в scRNA-Seq: Harmony, bbkNN, Scanorama, MNN, conos. Анализ методом канонических корреляций (CCA)
    Семинар: Сравнение подходов для устранения батч-эффектов в данных scRNA-Seq

  11. Лекция: Использование вариационных аутоэнкодеров для процессинга scRNA-Seq. scVI-tools
    Семинар: Препарирование scVI, написание собственного вариационного аутоэнкодера на PyTorch и Pyro

  12. Лекция: Подходы к кластеризации данных. Иерархическая кластеризация, K-Means, графовые алгоритмы кластеризации (Louvain, Leiden, SNN). Понятие стабильности кластера, бутстрэп
    Семинар: Реализация алгоритма оценки стабильности кластеров

  13. Лекция: Определение траекторий дифференцировки клеток в scRNA-Seq: Monocle2, Monocle3, иные подходы. Обобщённые аддитивные модели (GAM) и их использование для определения генов, которые меняют свою экспрессию по ходу дифференцировки клеток. RNA velocity
    Семинар: Написание собственного алгоритма определения генов, которые меняют свою экспрессию по ходу псевдо-времени

  14. Лекция: Определение типов клеток в scRNA-Seq: автоматическое и мануальное. Поиск взаимодействий между различными типами клеток, CellPhoneDB
    Семинар: Написание алгоритма автоматического определения типов клеток. Сравнение существующих алгоритмов

  15. Лекция: Мультимодальные омики одиночных клеток. Подходы для анализа мультимодальных омик одиночных клеток: MOFA, WNN, totalVI, multiVI. CLR-transformation в омиксных данных. Работа с омиксными данными как с композиционными данными
    Семинар: Воркшоп по анализу мультимодальных омиксных данных

Условия зачёта

Критерием успешного освоения курса (зачёт для студентов МГУ или сертификат для свободных слушателей) является выполнение одного из двух условий:

  1. выполнение двенадцати и более домашних заданий как минимум на «удовлетворительно»,
  2. выполнение двух проектных заданий, которые даются в середине и конце курса.

Формат отчёта по курсу — ссылка на GitHub-репозиторий с выполненными заданиями (форма для обратной связи будет выложена позднее). Проверяться будут только те работы, которые хотя бы формально могут претендовать на зачёт (т.е. репозитории с 11 и менее домашними заданиями или всего одним проектом проверяться не будут в принципе).