Репозиторий создан для выполнения работ по машинному обучению. Выполнение работ предполагает применение алгоритмов задачи классификации и линейной регрессии к выбранному датасету.
Для выполнения работ выбран датасет Real/Fake Job Description Prediction.
Этот датасет содержит 18 тысяч описаний должностей, из которых около 800 - поддельные. Данные состоят из текстовой информации и метаинформации о вакансиях. Набор данных можно использовать для создания моделей классификации, которые могут изучить мошеннические описания должностных обязанностей.
Необходимо создать модель классификации, которая использует функции текстовых данных и мета-функции и предсказывает, какие описания вакансий являются мошенническими или настоящими. Также необходимо определить ключевые черты / особенности (слова, сущности, фразы) описания должностных обязанностей, которые являются мошенническими по своему характеру.