Skip to content

pugovka91/PythonDataAnalysis2023

Repository files navigation

PythonDataAnalysis2023

Ориентировочная программа курса

  • Установка и настройка окружения, импорт библиотек.
  • Знакомство с основными структурами данных: список, множество, кортеж, словарь, базовые методы работы с ними. Основы работы со строками.
  • Библиотеки NumPy и SciPy для работы с векторами и матрицами.
  • Преобразование табличных данных, селекция таблиц, библиотека Pandas, объекты Pandas.Series и Pandas.DataFrame. Анализ и исследования данных одной таблицы (работа с единым датафреймом) Работа с несколькими таблицами, операции merge, join, различные типы join’ов. Основы sql-синтаксиса, библиотека pandasql
  • Исследовательский анализ данных (EDA) и визуализация при помощи Pandas
  • Работа с библиотеками для визуализации данных matplotlib и seaborn. Интерактивная визуализация с помощью plotly
  • Основные вероятностные распределения. Нормальное распределение. Центральная предельная теорема и визуализация ее утверждения методами Python. Доверительные интервалы.
  • Сравнение двух средних, t-критерий Стьюдента. Проверка распределения на нормальность.
  • Методы градиентного спуска и стохастического градиентного спуска в задачах машинного обучения. Реализация градиентного спуска для задачи бинарной классификации. Визуализация метода для двумерного случая.
  • Задачи линейной, логистической регрессии, базовые модели sklearn. Функции потерь и метрики качества. Решающие деревья. Случайный лес. Градиентный бустинг. Современные реализации градиентного бустинга: XGBoost, LightGBM, Catboost.
  • Методы кластеризации: метод K-средних, иерархическая кластеризация, DBSCAN. Метрики качества кластеризации. Методы понижения размерности: Метод Главных Компонент (Principal Component Analysis), tSNE, UMAP

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published