Проект стартовал

Разработка моделей машинного обучения для прогнозирования закупочных цен

Направления деятельности

  • Нефть
  • Добыча полезных ископаемых

Приём откликов

до 15 октября 2020

Сроки работы

2 месяца 15 дней

В чем суть проекта?

Требуется разработать модели машинного обучения для прогнозирования закупочных цен на сырьевые продукты.

Расскажите о задаче подробнее

Закупочные цены на сырье прогнозируются с помощью математических и статистических методов и подходов, которые требуют анализа большого количества данных и объемных расчетов. Для повышения точности прогноза в компании «Газпром нефть» разрабатываются модели на основе алгоритмов машинного обучения. Необходимо изучить передовые математические подходы к построению прогнозных моделей, а затем протестировать и выбрать наиболее подходящие по точности прогноза модели регрессии. Кроме того, нужно подготовить инфраструктуру для обучения и использования математических моделей (включая механизмы предобработки данных) и интегрировать ее с веб-сервисом прогнозной аналитики.

Понадобится ли команда?

Да, проект рассчитан на то, что им будут заниматься два специалиста по обработке и анализу данных (аналитики данных).

Что предстоит сделать?

● Специалисту по обработке и анализу данных, занимающемуся подготовкой данных и системой тестирования математических моделей, предстоит: 1. На базе фреймворка Snakemake построить конвейеры для преобразования данных. 2. Настроить среду тестирования моделей. 3. Оптимизировать операции предобработки данных (например, удалив неэффективные и повторяющиеся стадии предобработки). 4. Внедрить новые методы предсказания объемов и общих объемов. 5. Подготовить код моделей для использования в составе продуктивной системы — веб-сервиса прогнозной аналитики. 6. Обновить имеющуюся аналитическую записку с учетом разработанных и внедренных методов и операций. ● Специалисту по обработке и анализу данных, занимающемуся разработкой прогнозных моделей, предстоит: 1. Рассчитать «уверенность» модели. 2. Изучить актуальные научные статьи по теме байесовской регрессии. 3. Построить модель байесовской регрессии, включая ядро. 4. Предложить и протестировать нескольких новых методов нормализации паттерна цены. 5. Протестировать разработанные модели прогнозирования цен на суточный период (в режиме эмуляции, на исторических данных). 6. Протестировать разработанные модели прогнозирования цен на месячный период (в режиме эмуляции, на исторических данных). 7. Настроить предсказание конечной цены сессии. 8. Настроить предсказание средневзвешенной цены сессии. 9. Настроить в новой модели учет данных для отражения прогнозов в реальном времени. 10. Обновить имеющуюся аналитическую записку с учетом разработанных и протестированных прогнозных моделей.

Что представляет собой результат работы?

1. Исходный код на языке Python, включающий в себя алгоритмы предобработки данных и математические модели / модели машинного обучения. 2. Структура базы данных для хранения и обработки данных для моделей на языке SQL (диалект SQLite). 3. Модели машинного обучения и необходимые для их работы программные компоненты, прошедшие тестирование и готовые к интеграции в веб-сервис прогнозной аналитики.

По каким критериям будут оценивать результат?

1. Тестирование алгоритмов предобработки данных и прогнозных моделей прошло успешно, код работает без ошибок. 2. Выбранные и согласованные с лидером проекта алгоритмы обработки данных, метрики качества моделей и сами математические модели позволяют получить более высокую точность прогнозирования закупочной цены на сырье по сравнению с текущим решением. 3. Прогнозы, выдаваемые моделями, стабильны во времени.

Что можно получить за этот проект?

Проект предусматривает денежное вознаграждение в размере 475 200 рублей после выплаты налогов, в том числе: ● 189 200 рублей специалисту, отвечающему за подготовку данных и системой тестирования математических моделей; ● 286 000 рублей специалисту, занимающемуся разработкой прогнозных моделей.

На какую помощь можно рассчитывать?

1. Лидер проекта предоставит: а) исходный код и описание имеющихся моделей и алгоритмов обработки данных; б) техническую документацию по имеющемуся программному решению; в) технический проект на разрабатываемую систему прогнозной аналитики. 2. Лидер проекта организует взаимодействие с другими участниками проекта со своей стороны и готов давать комментарии и пояснения по ходу выполнения работ.