Мои решения заданий для курса "Введение в машинное обучение" на Coursera

Задание 1

Решение тут

Задачи:

Какое количество мужчин и женщин ехало на корабле? В качестве ответа приведите два числа через пробел.
Какой части пассажиров удалось выжить? Посчитайте долю выживших пассажиров. Ответ приведите в процентах (число в интервале от 0 до 100, знак процента не нужен), округлив до двух знаков.
Какую долю пассажиры первого класса составляли среди всех пассажиров? Ответ приведите в процентах (число в интервале от 0 до 100, знак процента не нужен), округлив до двух знаков.
Какого возраста были пассажиры? Посчитайте среднее и медиану возраста пассажиров. Посчитайте среднее и медиану возраста пассажиров. В качестве ответа приведите два числа через пробел.
Коррелируют ли число братьев/сестер с числом родителей/детей? Посчитайте корреляцию Пирсона между признаками SibSp и Parch.
Какое самое популярное женское имя на корабле? Извлеките из полного имени пассажира (колонка Name) его личное имя (First Name). Это задание — типичный пример того, с чем сталкивается специалист по анализу данных. Данные очень разнородные и шумные, но из них требуется извлечь необходимую информацию. Попробуйте вручную разобрать несколько значений столбца Name и выработать правило для извлечения имен, а также разделения их на женские и мужские.

Задание 2

Решение тут

План выполнения:

Загрузите выборку из файла titanic.csv с помощью пакета Pandas.
Оставьте в выборке четыре признака: класс пассажира (Pclass), цену билета (Fare), возраст пассажира (Age) и его пол (Sex).
Обратите внимание, что признак Sex имеет строковые значения.
Выделите целевую переменную — она записана в столбце Survived.
В данных есть пропущенные значения — например, для некоторых пассажиров неизвестен их возраст. Такие записи при чтении их в pandas принимают значение nan. Найдите все объекты, у которых есть пропущенные признаки, и удалите их из выборки.
бучите решающее дерево с параметром random_state=241 и остальными параметрами по умолчанию (речь идет о параметрах конструктора DecisionTreeСlassifier).
Вычислите важности признаков и найдите два признака с наибольшей важностью. Их названия будут ответами для данной задачи (в качестве ответа укажите названия признаков через запятую или пробел, порядок не важен).

Задание 3

Решение тут

Задачи:

Загрузите выборку Wine по адресу https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data (файл также приложен к этому заданию)
Извлеките из данных признаки и классы. Класс записан в первом столбце (три варианта), признаки — в столбцах со второго по последний. Более подробно о сути признаков можно прочитать по адресу https://archive.ics.uci.edu/ml/datasets/Wine (см. также файл wine.names, приложенный к заданию)
Оценку качества необходимо провести методом кросс-валидации по 5 блокам (5-fold). Создайте генератор разбиений, который перемешивает выборку перед формированием блоков (shuffle=True). Для воспроизводимости результата, создавайте генератор KFold с фиксированным параметром random_state=42. В качестве меры качества используйте долю верных ответов (accuracy). 4 .Найдите точность классификации на кросс-валидации для метода k ближайших соседей (sklearn.neighbors.KNeighborsClassifier), при k от 1 до 50. При каком k получилось оптимальное качество? Чему оно равно (число в интервале от 0 до 1)? Данные результаты и будут ответами на вопросы 1 и 2.
Произведите масштабирование признаков с помощью функции sklearn.preprocessing.scale. Снова найдите оптимальное k на кросс-валидации.
Какое значение k получилось оптимальным после приведения признаков к одному масштабу? Приведите ответы на вопросы 3 и 4. Помогло ли масштабирование признаков?

Задание 4

Решение тут

Задачи:

Загрузите выборку Boston с помощью функции sklearn.datasets.load_boston(). Результатом вызова данной функции является объект, у которого признаки записаны в поле data, а целевой вектор — в поле target.
Приведите признаки в выборке к одному масштабу при помощи функции sklearn.preprocessing.scale.
Переберите разные варианты параметра метрики p по сетке от 1 до 10 с таким шагом, чтобы всего было протестировано 200 вариантов (используйте функцию numpy.linspace). Используйте KNeighborsRegressor с n_neighbors=5 и weights='distance' — данный параметр добавляет в алгоритм веса, зависящие от расстояния до ближайших соседей. В качестве метрики качества используйте среднеквадратичную ошибку (параметр scoring='mean_squared_error' у cross_val_score; при использовании библиотеки scikit-learn версии 0.18.1 и выше необходимо указывать scoring='neg_mean_squared_error'). Качество оценивайте, как и в предыдущем задании, с помощью кросс-валидации по 5 блокам с random_state = 42, не забудьте включить перемешивание выборки (shuffle=True).
Определите, при каком p качество на кросс-валидации оказалось оптимальным. Обратите внимание, что cross_val_score возвращает массив показателей качества по блокам; необходимо максимизировать среднее этих показателей. Это значение параметра и будет ответом на задачу.

Задание 5

Решение тут

Задачи:

Загрузите обучающую и тестовую выборки из файлов perceptron-train.csv и perceptron-test.csv. Целевая переменная записана в первом столбце, признаки — во втором и третьем.
Обучите персептрон со стандартными параметрами и random_state=241.
Подсчитайте качество (долю правильно классифицированных объектов, accuracy) полученного классификатора на тестовой выборке.
Нормализуйте обучающую и тестовую выборку с помощью класса StandardScaler.
Обучите персептрон на новой выборке. Найдите долю правильных ответов на тестовой выборке.
Найдите разность между качеством на тестовой выборке после нормализации и качеством до нее. Это число и будет ответом на задание.

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
assignments		assignments
final		final
.gitignore		.gitignore
Pipfile		Pipfile
README.md		README.md
SVC_classificator.ipynb		SVC_classificator.ipynb
bostonMinkowski.ipynb		bostonMinkowski.ipynb
gradient_descent.ipynb		gradient_descent.ipynb
gradientboost.ipynb		gradientboost.ipynb
k_mean_classterisation.ipynb		k_mean_classterisation.ipynb
linear_classificator.ipynb		linear_classificator.ipynb
metrics.ipynb		metrics.ipynb
pca_found_index.ipynb		pca_found_index.ipynb
random_forest.ipynb		random_forest.ipynb
salary_pred.ipynb		salary_pred.ipynb
text_analys.ipynb		text_analys.ipynb
titanic_analysis.ipynb		titanic_analysis.ipynb
titanic_prediction_trees.ipynb		titanic_prediction_trees.ipynb
wine_KNN.ipynb		wine_KNN.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Мои решения заданий для курса "Введение в машинное обучение" на Coursera

Задание 1

Решение тут

Задачи:

Задание 2

Решение тут

План выполнения:

Задание 3

Решение тут

Задачи:

Задание 4

Решение тут

Задачи:

Задание 5

Решение тут

Задачи:

Тексты остальных заданий в процессе добавления...

About

Releases

Packages

Languages

yummyKnight/CourseraYandexDSML

Folders and files

Latest commit

History

Repository files navigation

Мои решения заданий для курса "Введение в машинное обучение" на Coursera

Задание 1

Решение тут

Задачи:

Задание 2

Решение тут

План выполнения:

Задание 3

Решение тут

Задачи:

Задание 4

Решение тут

Задачи:

Задание 5

Решение тут

Задачи:

Тексты остальных заданий в процессе добавления...

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages