emco

Представлен датасет, отражающий работу самосвалов за 11 месяцев 2022 года со следующими данными:

дата смены
самосвал
средний вес в кузове автомобиля БелаЗ 75306 (г.п. 220т) за смену
пройденное расстояние суммарно за смену
средняя скорость за смену
стандартное отклонение перепада высот за смену
потраченный объем топлива за смену

Поставленные задачи:

выявить взаимосвязь технологических параметров (взаимное влияние и влияние на расход топлива);
дать предложение по диапазонам параметров, при которых расход топлива минимальный (при этом нет ухудшения скорости (снижения), вес в кузове не менее 220 т., ср. перепад высот и пройденное расстояние - без существенных изменений, поскольку параметры нерегулируемые).

Проведен первичный анализ данных (EDA).

Команда df.describe() генерирует описательную статистику для всех числовых столбцов: число непропущенных значений, среднее, стандартное отклонение, минимум, 25 и 75 процентили, медиану и максимум. Результат:

необычные/аномальные данные не обнаружены;
имеются пропуски данных.

Проанализируем пропуски данных. Общее количество пропусков равно 5 881.

На рисунке по оси x указаны строки датасета, белые линии на нем отражают пропущенные значения. Общее количество пропусков - примерно 17% от общего количества данных в датасете. ! принято решение на текущем этапе удалить пропуски.

Для каждого атрибута данных проведем анализ. Базовым методом проверки данных на нормальность распределения является гистограмма плотности распределения: Полученные гистограммы визуально соответсвуют признаку нормального распределения, кроме того, во всех наблюдаемых выборках значения среднего, медианы и моды близки что позволяет предположить нормальное распределение выборок.

Построим boxplot для наших данных:
Видно, что за пределами +- 1,5 межквартильных размаха у данных есть выбросы, т.е. слишком маленькие или слишком большие значения данных, которые сильно выбиваются из генеральной совокупности данных.

Посмотрим на корреляцию данных:

Очевидна взаимосвязь между расходом топлива и пройденным расстоянием, также довольно значительно на расход топлива влияет перепад высот. Другие признаки взаимосвязи выражены очень слабо, что может указывать на нелинейную связь между показателями.

Проверим некоторые гипотезы относительно средних значений:

Н0 - не существует различий в расходе топлива в зависимости от смены

Н1 - существуют различия в расходе топлива в зависимости от смены
Н0 - не существует различий в расходе топлива в зависимости от времени года

Н1 - существуют различия в расходе топлива в зависимости от времени года
Н0 - не существует различий в расходе топлива в зависимости от самосвала

Н1 - существуют различия в расходе топлива в зависимости от самосвала

Проверим данные гипотезы с помощью построения графиков, проверки распределений на нормальность, а также используя t-критерий Стьюдента. Принимаем уровень значимости (p-значение равным 0,05 или 5%).

Гипотеза 1 - смены. Проверим как распределены средние наших выборок: Средние двух выборок примерно равны и находятся в доверительных интервалах друг друга. Таким образом, мы не можем отвергнуть нулевую гипотезу о том, что не существует различий в расходе топлива в зависимости от смены. Кроме того, распределение данных соответствует нормальному: Итак, принимаем гипотезу о том, что разницы в расходе топлива посменно не существует.

Гипотеза 2 - месяцы. Рандомно выбраны месяц 3 и 4. Распределение средних выборок: Средние двух выборок примерно равны и находятся в доверительных интервалах друг друга. Тем не менее, средний расход топлива в марте выше, чем в апреле. Можно предположить, что в связи с более низкими температурами расход топлива может возрастать, однако разница не критична. Не можем отвергнуть нулевую гипотезу о том, что не существует различий в расходе топлива в зависимости от месяца. Распределение данных: Для апреля месяца распределение не похоже на нормальное, что связано с выбросами в данных - несколько точек показывают небольшой расход топлива (менее 1000 л), что сильно отклоняется от среднего этой выборки (1572 л). Тем не менее, данные распределены похожим образом, поэтому принимаем гипотезу о том, что не существует разницы в расходе топлива в зависимости от месяца.

Гипотеза 3 - самосвалы. Рандомно выбраны самосвалы с номерами 1036 и 1499. Распределение средних выборок: Средние двух выборок примерно равны и находятся в доверительных интервалах друг друга. Cредний расход топлива для самосвала 1036 выше, чем для 1499. Данные выборок отличаются на 50 л. Не можем отвергнуть нулевую гипотезу о том, что не существует различий в расходе топлива в зависимости от самосвала. Распределение данных: Для обоих выборок данные распределяются похожим образом и соответствует нормальному.Таким образом, мы не отвергаем нулевую гипотезу о том, что не существует разницы в расходе топлива в зависимости от самосвала. Тем не менее, можно провести более подробный анализ данных по всем самосвалам и провести дополнительное ТО для тех, у которых среднее значение превышает среднее по общей выборке (т.е. 1551 л.).

Для всех сформулированных гипотез p-значение превышает 5%, таким образом, принимаем утверждения о том, что различия в расходе топлива не зависят от смены, конкретного самосвала и месяца работы.

Сформулируем и проверим гипотезы о различиях в расходе топлива в зависимости от веса груза и скорости движения. разброс скоростей - от 15 до 24,98 км/ч, среднее = 19,401 разброс весов - от 190 до 249,56 т, среднее = 221,681 нам нужно понять, при каких параметрах значение расхода топлива меньше. при этом, нужно, чтобы снижение скорости не было фатальным, а груз был не менее чем 220 т. рассмотрим наши три параметра более подробно: На выборке в 100 значений посмотрим на графики рассеивания: Не вижу четкой линейной связи между параметрами, тем не менее, попробуем провести регрессионный анализ: показатели скорости и веса в качестве переменных-предикторов (независимые переменные) и расход топлива в качестве переменной ответа. Коэффициент детерминации (R-squared) равен 0.001, что означает, что около 0,1% изменчивости расхода топлива могут быть объяснены изменениями в рассматриваемых параметрах. F-статистика имеет значение 0,66, а вероятность (Prob (F-statistic)) больше 0.05, что указывает на НЕ значимость модели. В целом модель указывает, на наличие сильной мультиколлинеарности параметров или других численных проблем.

При этом, при проведении аналогичного анализа данных для взаимодействия между параметрами - расход топлива-расстояние-перепад высот мы видим наличие прямой линейной связи. изменение перепада высот и пройденного расстояния объясняют более 80% изменений параметра Расход топлива.

Дальнейшие цели исследования:

выяснить какая связь между параметрами расход топлива-вес, расход топлива-скорость;
стандартизировать данные для анализа (сейчас выборки нерелевантны, поскольку в каждой из выборок большой разброс значений по параметрам дистанция и перепад высот);
провести анализ взаимосвязи;
сделать выводы и дать рекомендации;
обработать пропуски данных - найти подходящий способ заполнения.

Name		Name	Last commit message	Last commit date
Latest commit History 45 Commits
.ipynb_checkpoints		.ipynb_checkpoints
images		images
.gitignore		.gitignore
EDA.ipynb		EDA.ipynb
README.md		README.md
db.xlsx		db.xlsx
draft.ipynb		draft.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

emco

Поставленные задачи:

Проведен первичный анализ данных (EDA).

Проверим некоторые гипотезы относительно средних значений:

Дальнейшие цели исследования:

About

Releases

Packages

Languages

AnyaMankova/emco

Folders and files

Latest commit

History

Repository files navigation

emco

Поставленные задачи:

Проведен первичный анализ данных (EDA).

Проверим некоторые гипотезы относительно средних значений:

Дальнейшие цели исследования:

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages