до 23 апреля 2020
2 месяца 9 дней
50 000 ₽
Выбрать оптимальный алгоритм сегментации одномерных сигналов и разработать на его основе библиотеку Python.
В процессе бурения на нефтяных скважинах с некоторой периодичностью измеряются различные параметры. Каждый замер представляет собой одномерный сигнал по глубине (каротажную кривую) для одного из свойств пласта. Эксперты-геофизики разделяют всю каротажную кривую на участки типичной формы (сегментируют ее). Количество таких типичных форм конечно. Необходимо автоматизировать процесс сегментации, используя алгоритмы машинного обучения.
Вам предстоит: 1. Проанализировать предоставленный Заказчиком датасет измерений скважин, при необходимости провести очистку данных от пропусков, выбросов и некорректных значений. 2. Согласовать с Заказчиком целевые метрики оценки качества сегментации. 3. Используя Jupyter Notebook, провести и запротоколировать эксперименты с различными алгоритмами машинного обучения (как классическими, так и на основе нейронных сетей), подобрать оптимальный алгоритм машинного обучения и подготовить отчет о результатах исследования по форме, предоставленной Заказчиком. 4. Согласовать результаты эксперимента и отчет с Заказчиком. При этом Заказчик оценивает качество сегментации предложенным алгоритмом на собственной тестовой выборке. 5. Оформить и документировать код выбранного алгоритма и функций подготовки данных в Jupyter Notebook. 6. Передать Заказчику отчет о проведенном исследовании и исходный код исследования и оптимального алгоритма в формате Jupyter Notebook. 7. По ходу проведения работы – еженедельно предоставлять Заказчику мини-презентацию с отчетом о ходе и статусе работ.
1. Код исследования с комментариями о ходе исследований. 2. Отчет об исследовании по форме, предоставленной Заказчиком. 3. Исходный код алгоритма сегментации и функций подготовки данных, документированный в соответствии с требованиями PEP 257.
1. Протокол и результаты эксперимента — файл Jupyter Notebook (.ipynb). 2. Исходный код алгоритма сегментации и функций подготовки данных — файл Jupyter Notebook (.ipynb). 3. Отчет в электронном виде — файл MS Word (.doc/.docx).
Цель проекта считается достигнутой, если Заказчик подтвердит, что качество работы выбранного алгоритма сегментации и скорость работы библиотеки отвечают требованиям его задачи.
Нет, проект рассчитан на то, что им будет заниматься один человек — Data Scientist с хорошим знанием Python.