- Установка и настройка окружения, импорт библиотек.
- Знакомство с основными структурами данных: список, множество, кортеж, словарь, базовые методы работы с ними. Основы работы со строками.
- Библиотеки NumPy и SciPy для работы с векторами и матрицами.
- Преобразование табличных данных, селекция таблиц, библиотека Pandas, объекты Pandas.Series и Pandas.DataFrame. Анализ и исследования данных одной таблицы (работа с единым датафреймом) Работа с несколькими таблицами, операции merge, join, различные типы join’ов. Основы sql-синтаксиса, библиотека pandasql
- Исследовательский анализ данных (EDA) и визуализация при помощи Pandas
- Работа с библиотеками для визуализации данных matplotlib и seaborn. Интерактивная визуализация с помощью plotly
- Основные вероятностные распределения. Нормальное распределение. Центральная предельная теорема и визуализация ее утверждения методами Python. Доверительные интервалы.
- Сравнение двух средних, t-критерий Стьюдента. Проверка распределения на нормальность.
- Методы градиентного спуска и стохастического градиентного спуска в задачах машинного обучения. Реализация градиентного спуска для задачи бинарной классификации. Визуализация метода для двумерного случая.
- Задачи линейной, логистической регрессии, базовые модели sklearn. Функции потерь и метрики качества. Решающие деревья. Случайный лес. Градиентный бустинг. Современные реализации градиентного бустинга: XGBoost, LightGBM, Catboost.
- Методы кластеризации: метод K-средних, иерархическая кластеризация, DBSCAN. Метрики качества кластеризации. Методы понижения размерности: Метод Главных Компонент (Principal Component Analysis), tSNE, UMAP
-
Notifications
You must be signed in to change notification settings - Fork 0
pugovka91/PythonDataAnalysis2023
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
No description, website, or topics provided.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published