Меня зовут, Утробин Михаил!
Я эксперт по машинному обучению. Обучаю нейронные сети по задачам: CV, NLP, Audio, GAN.
Telegram: @utrobinmv
Список моих проектов:
Название проекта: RAG система поиска по документам | Продолжительность: Февраль-Март 2024 |
---|---|
Роль | ML Engineer |
Аннотация проекта | Система поиска по документам |
Заказчик | ТМХ, Россия |
Инструменты | PyTorch, Python, LLM, sentence-embbedings |
Обязанности | * Разработка пайплайна RAG * Работа с файлами, разделение файлов * Работа с векторной базой данных * Обработка запроса формирование выборки релевантных документов * Формирование ответа на запрос с помощью LLM * Разработка простейшего чат бота |
Название проекта: Text to Speech | Продолжительность: Сентябрь 2023 - Январь 2024 |
---|---|
Роль | ML Engineer |
Аннотация проекта | Обучение модели синтеза речи для русского языка |
Заказчик | huggingface |
Инструменты | PyTorch, Python, transformers, VITS, Text to Speech, Расстановка ударений |
Обязанности | * Подготовка датасета * Сбор датасета * Подготовка данных, приведение чисел в строковый вид, расстановка ударений * Доработка модели, для возможности тренировки * Доработка пайплайна обучения модели * Обучение модели * Тестирование результатов модели |
Результаты | Модель доступная по ссылке: https://huggingface.co/joefox/tts_vits_ru_hf |
Название проекта: Суммаризация текстов | Продолжительность: Декабрь 2023 - Январь 2024 |
---|---|
Роль | ML Engineer |
Аннотация проекта | Разработка уникальной модели управляемой суммаризации текста со встроенной функцией перевода Summary |
Заказчик | huggingface |
Инструменты | PyTorch, Python, transformers, t5 |
Обязанности | * Подготовка датасета * Нормализация данных * Обучение модели T5 по задаче суммаризации текста * Проведение тестового сравнения с другими моделями суммаризации |
Результаты | Модель доступная по ссылке: https://huggingface.co/utrobinmv/t5_summary_en_ru_zh_base_2048 |
Название проекта: Машинный перевод для русского, китайского, английского языков | Продолжительность: Июнь 2023 - Декабрь 2023 |
---|---|
Роль | ML Engineer |
Аннотация проекта | Разработка SOTA модели в задаче машинного перевода |
Заказчик | huggingface |
Инструменты | PyTorch, Python, transformers, t5 |
Обязанности | * Подготовка датасета * Нормализация данных * Обучние токенизатора * Обучение модели T5 с ноля до SOTA результатов в задаче машинного перевода * Проведение тестового сравнения с другими моделями машинного перевода |
Результаты | Публикация: https://habr.com/ru/articles/791522/ Модель доступная по ссылке: https://huggingface.co/utrobinmv/t5_translate_en_ru_zh_large_1024 Сравнение с другими моделями: https://huggingface.co/spaces/utrobinmv/TREX_benchmark_en_ru_zh |
Название проекта: Выделение признаков товаров, сопоставление товаров | Продолжительность: Январь 2023 - Декабрь 2023 |
---|---|
Роль | Data science |
Аннотация проекта | Поиск аналогов товаров на различных площадках |
Заказчик | ОМК, Россия |
Инструменты | PyTorch, Python, sklearn, regex expression, transformers |
Обязанности | * Подготовка датасета * Генерация признаков * Выделение признаков, характеристик, параметров * Сопоставление товаров согласно признакам |
Название проекта: wakeup word, keyword-spotting | Продолжительность: Декабрь 2022 |
---|---|
Роль | ML Engineer |
Аннотация проекта | Классификация аудио команд из аудиопотока, более 400 команд |
Заказчик | РЖД (Российские железные дороги), Россия |
Инструменты | PyTorch, Python, NeMo, Text to Speech, Расстановка ударений, kenlm, optuna, Speech to Text |
Обязанности | * Подготовка датасета * Генерация примеров аудио команд (TTS) * Аугументация текстовых данных * Подготовка данных, приведение чисел в строковый вид, расстановка ударений * Обучение языковой модели * Подбор гиперпараметров |
Название проекта: Benchmark ASR | Продолжительность: Ноябрь 2022 г. – Декабрь 2022 |
---|---|
Роль | ML Engineer |
Аннотация проекта | ASR, Сравнение моделей на способнойсть распознавать зашумленную речь на русском и английском языке. |
Заказчик | habr, Россия |
Инструменты | PyTorch, Python, NeMo, Huggingface, datasets, transformers, vosk, whisper, wav2vec2 |
Обязанности | * Подготовка датасета, аугументация аудио данных * Создание бенчмарка * Тестирование различных моделей и подходов * Оценка качества и производительности моделей и подходов |
Название проекта: Семантический поиск текста | Продолжительность: Октябрь 2022 г. – Ноябрь 2022 |
---|---|
Роль | ML Engineer |
Аннотация проекта | Семантический поиск. Поиск похожего текста по смыслу по подстроке запроса, в большом корпусе текстов |
Заказчик | lad, Россия |
Инструменты | PyTorch, NLP, Python, Transformers, BERT, T5, Roberta, Sbert, Fastext, ELMo, LaBSE, RuBert, bpemb, navec, word2vec, glove |
Обязанности | * Разработка решения * Выбор оптимального архитектуры решения * Тестирование различных моделей и подходов |
Название проекта: Ай Трекер | Продолжительность: декабрь 2021 г. – Сентябрь 2022 |
---|---|
Роль | ML Engineer |
Аннотация проекта | АйТрекер, Определения направления взгляда в монитор по обычной вебкамере |
Заказчик | lad, Россия |
Инструменты | PyTorch, Python, CV Детекция, CV поиск ключевых точек, CV регрессия, ONNX |
Обязанности | * Разработка решения * Подготовка данных * Обучение моделей * Сбор нескольких моделей в единый процесс * Упаковка решения в onnx архитектуру |
Название проекта: Детектор морганий | Продолжительность: июль 2022 г. – Август 2022 г. |
---|---|
Роль | ML Engineer |
Аннотация проекта | Детекция момента моргания человека в реальном времени по видеопотоку |
Заказчик | lad, Россия |
Инструменты | PyTorch, Python, Computer Vision, ONNX |
Обязанности | * Сбор данных * Подготовка данных * Обучение моделей * Упаковка решения в onnx архитектуру |
Название проекта: Машинный перевод en-ru | Продолжительность: июль 2022 г. – Август 2022 г. |
---|---|
Роль | ML Engineer |
Аннотация проекта | Обучение модели машинного перевода с Английского языка на Русский язык |
Заказчик | Argos Open Tech |
Инструменты | PyTorch, Python, Transformers, OpenNMT-py, ONNX |
Обязанности | * Подготовка данных * Обучение модели * Оценка качества модели |
Название проекта: Поиск обуви по картинке | Продолжительность: февраль 2022 г. – март 2022 г. |
---|---|
Роль | ML Engineer |
Аннотация проекта | Поисковый движок с функциональностью “поиска по картинке” |
Заказчик | Kari, Россия |
Инструменты | PyTorch, Python, CV Детекция, CV сегментация, CV классификация, CV эмбединги |
Обязанности | * Разработка микросервиса * Сбор данных * Разметка данных * Обучение моделей машинного обучения * Сборка отдельных модулей в единый пайплайн микросервиса |
Название проекта: Генерации поисковых тегов для сайта Wildberries | Продолжительность: ноябрь 2021 г. – ноябрь 2021 г. |
---|---|
Роль | ML Engineer |
Аннотация проекта | Генерации поисковых тегов для сайта Wildberries. Поиск сопутствующих товаров. Чехлов к телефонам, Сумок к нотбукам и т.д. |
Заказчик | Wildberries, Россия |
Инструменты | PyTorch, Python, fasttext, faiss, docker |
Обязанности | * Работа с большими данными * Формирование текстовых эмбедингов, выстраивание запросов в иерархию классов * Оптимизация работы алгоритмов, Обеспечение быстрого поиска по большим данным * Построение системы персонализация выдачи * Разработка решения |
Название проекта: Определение опасных ситуаций на производстве | Продолжительность: сентябрь 2021 г. – октябрь 2021 г. |
---|---|
Роль | ML Engineer |
Аннотация проекта | Определение опасных ситуаций на производстве |
Заказчик | Евраз, Россия |
Инструменты | PyTorch, Python, YOLOv4, PoseNet |
Обязанности | * Проверка разметки данных * Обучение модели YOLOv4 по детектированию * Применение моделей по определению позы человека * Классификация на наличие касок |
Название проекта: Матчинг товаров | Продолжительность: март 2021 г. – сентябрь 2021 г. |
---|---|
Роль | ML Engineer |
Аннотация проекта | Разработка система матчинга каталогов товаров |
Заказчик | Толедо, Россия |
Инструменты | PyTorch, sklearn, fasttext, LSTM, pandas |
Обязанности | * Подготовка данных * Разработка оптимального решения * Обучение нейросети на базе LSTM архитектур * поиск оптимальной модели * Разработка модуля решения отвечающего непосредственно за матчинг |
Название проекта: Рекомендательная система | Продолжительность: февраль 2021 г. – март 2021 г. |
---|---|
Роль | ML Engineer |
Аннотация проекта | Разработка рекомендательной системы тендерных закупок |
Заказчик | Росэлторг, Россия |
Инструменты | sklearn, jupyter notebook, fasttext, tfidf, pandas |
Обязанности | * очистка данных * поиск оптимальной модели * разработка решения * работа с большими объемами данных |
Название проекта: Детектирование пластиковых карт на фото | Продолжительность: ноябрь 2020 г. – март 2021 г. |
---|---|
Роль | ML Engineer |
Аннотация проекта | Плюшки, Детектирование пластиковых карт в приложении плюшки |
Заказчик | lad, Россия |
Инструменты | Docker, OpenCV, Tensorflow |
Обязанности | * Разработка микросервиса * Реализация алгоритмов компьютерного зрения, классификация, детекция ключевых точек * Обучение нейросети на базе сверточных архитектур * Распознавание текста на картинке |
Название проекта: CV классификация фотографий со спутника | Продолжительность: октябрь 2020 года - ноябрь 2020 года |
---|---|
Роль | ML Engineer |
Аннотация проекта | Диагностировать засеянность сельскохозяйственных территорий Пермского края |
Заказчик | Министерство информационного развития и связи Пермского края, Россия |
Инструменты | Numpy, Sklearn, OpenCV, PostgreSQL |
Обязанности | * Скачивание снимков через фреймворк * Построение разметки участков * Разработка классификационной модели |