Решил законспектировать кое-какие лекции по матстату, которые рассказываю в ранхе и на курсере. Буду их понемногу обновлять и дополнять. Буду писать про всё. И про простые вещи и про какие-то продвинутые штуки, используемые сейчас в АБ-тестировании. Возможно, когда-нибудь эти посиделки можно будет собрать в полноценную книгу.
- Каждый делать не больше 10-15 страниц, если материала накапливается больше, дробить на несколько частей
- Больше идей и описания того, как что-то придумать, меньше описания алгоритмов
- Повторить одну и ту же концепцию три раза подряд разными словами - не зазорно
- Больше всратых цитат и уместных отсылок, не упарываться без причины
- Возможно, имеет смысл оформить всё в виде jupyter book.
- Альтернатива это quarto
Какая структура посиделок правильная, я пока не придумал. Думаю, что придёт само, когда буду писать.
- Описательные статистики. Задача про игру престолов. Места, где используются статистики и какие возникают проблемы.
- Дядя Фёдор и доверительный интервал. Выводим характеристики для среднего.
- Как рождаются распределения: от монетки до более сложных моделей. Пуассона, нормальное, экспоненциальное, квантильное преобразование, распределения из физики
- Сходимости случайных величин
- ЦПТ и ЗБЧ
- Несмещённость, состоятельность, эффективность. Разложение ошибки на смещение и разброс.
- Выборки: с повторением и без повторения. Метрика плохих показов. Её коррекция. Метрики классификации и их коррекция.
- Мощь средних: вся статисткиа через средние, сюда же обобщённый метод моментов
- Точное и асимптотическое: пара примеров критериев, чёткие предпосылки когда где что используем. Тут написать про то что нормальность средних для t-статистики полная чушь (её почему-то активно продвигают в ODS).
- Ошибки 1 и 2 рода. Мощность критерия.
- Непараметрические критерии
- Бутстрап. Бутстрап для корректировки смещения.
Туманное будущее
- Стратифицированные выборки: вывод характеристик для среднего.
- АБ-тесты, метрики, повышение их чувствительности, способы сбить дисперсию, про всякие доли, бустрап продуктовых метрик и тп
- Метод максимального правдоподобия. EM-алгоритм.
- Энтропия, дивергенция. Примеры использования: обучение дерева, TSNE, UMAP, связь с правдоподобием. Снова про EM-алгоритм. Про ELBO. Про информационные критерии и их состоятельную оценку - ???
- Средиземье и крайнеземье: статистика максимумов и финансовые рынки. Моделируем толстые хвосты.
- Немного про байесовский подход.