до 29 апреля 2020
1 месяц 12 дней
50 000 ₽
Выбрать оптимальный алгоритм заполнения пробелов одномерных сигналов и разработать на его основе библиотеку Python.
В процессе бурения на нефтяных скважинах с некоторой периодичностью измеряются различные параметры. Каждый замер представляет собой одномерный сигнал по глубине (каротажную кривую) для одного из свойств скважины. Эксперты-геофизики разделяют всю каротажную кривую на участки типичной формы (сегментируют ее). Количество таких типичных форм конечно. Из-за особенностей технологического процесса в сигналах возникают пробелы, усложняющие интерпретацию данных. Предполагается, что есть возможность устранить эти пробелы за счет алгоритма машинного обучения.
Вам предстоит: 1. Проанализировать предоставленный Заказчиком датасет измерений скважин. 2. Согласовать с Заказчиком целевые метрики оценки качества сигнала. 3. Используя Jupyter Notebook, провести и запротоколировать эксперименты с различными алгоритмами машинного обучения (как классическими, так и на основе нейронных сетей), подобрать оптимальный алгоритм машинного обучения и подготовить отчет о результатах исследования по форме, предоставленной Заказчиком. 4. Согласовать результаты эксперимента и отчет с Заказчиком. При этом Заказчик оценивает качество устранения пробелов предложенным алгоритмом на собственной тестовой выборке. 5. Оформить и документировать код выбранного алгоритма и функций подготовки данных в Jupyter Notebook. 6. Передать Заказчику отчет о проведенном исследовании и исходный код исследования и оптимального алгоритма в формате Jupyter Notebook.
1) Код исследования с комментариями о ходе исследований. 2) Отчет об исследовании по форме, предоставленной Заказчиком. 3) Исходный код алгоритма сегментации и функций подготовки данных, документированный в соответствии с требованиями PEP 257.
1) Протокол и результаты эксперимента — файл Jupyter Notebook (.ipynb). 2) Исходный код алгоритма сегментации и функций подготовки данных — файл Jupyter Notebook (.ipynb). 3) Отчет в электронном виде — файл MS Word (.doc/.docx).
Цель проекта считается достигнутой, если Заказчик подтвердит, что качество работы выбранного алгоритма устранения пробелов и скорость работы библиотеки отвечают требованиям его задачи.
Нет, проект рассчитан на то, что им будет заниматься один человек — Data Scientist с хорошим знанием Python.