Проект стартовал

Разработка моделей машинного обучения для оценки параметров породы

Направления деятельности

  • Нефть
  • Добыча полезных ископаемых
  • Лаборатория

Приём откликов

до 08 октября 2020

Сроки работы

3 месяца

В чем суть проекта?

Требуется разработать модели машинного обучения для сегментирования областей и классификации состава и характеристик образцов породы для использования в рекомендательной системе — цифровом двойнике.

Расскажите о задаче подробнее

Для изучения свойств и параметров кернов (цилиндрических образцов породы из нефтяных скважин) компания «Газпром нефть» использует большое количество лабораторных методов исследований, среди которых важное место занимает визуальное исследование образцов. Обычно керн разрезается и через склад поступает в лабораторию, где эксперт проводит визуальный и инструментальный анализ различных участков, заполняя специальный документ. Затем этот документ анализируется, и по результатам анализа делаются выводы о возможных корректировках режима использования соответствующей скважины. Процесс исследования занимает много времени, а результаты и подходы к нему у разных экспертов могут различаться. Чтобы систематизировать процесс анализа керна и обработки информации, «Газпром нефть НТЦ» разработал рекомендательную систему класса «цифровой двойник». В ней используются алгоритмы машинного обучения, позволяющие по полученным в разных диапазонах изображениям осуществлять сегментацию границ керна и классификацию его параметров, например, «разрушенности». В рамках проекта необходимо разработать новые алгоритмы машинного обучения как на основе классических алгоритмов сегментации, так и на основе нейронных сетей, дающих лучшую точность. После этого необходимо интегрировать их в уже имеющийся веб-сервис в составе цифрового двойника лаборатории.

Понадобится ли команда?

Да, проект рассчитан на то, что им будут заниматься три эксперта: два специалиста по обработке и анализу данных и один инженер по машинному обучению.

Что предстоит сделать?

● Специалисту по обработке и анализу данных, занимающемуся подготовкой данных, алгоритмов и архитектур, предстоит: 1. Провести разведочный анализ имеющегося датасета, используя предоставленную лидером проекта экспертную разметку различий между разрушенными и неразрушенными областями. 2. Сформировать алгоритмическое описание параметра «разрушенный» для сегмента керна. 3. Определить характеристики, позволяющие отличить разрушенные области. 4. Подготовить список метрик для валидации задачи сегментации и сопоставить их с бизнес-метрикой. 5. Разработать алгоритмы оценки качества по утвержденным метрикам. 6. Подготовить перечень нейросетевых архитектур, подходящих для семантической сегментации. 7. Подготовить список подходящих функций потерь для сетевых архитектур. 8. Сформировать список гиперпараметров, влияющих на качество целевого решения. ● Специалисту по обработке и анализу данных, занимающемуся семантической сегментацией на базе нейросетей, предстоит: 1. Подготовить и настроить среду в контейнере Docker для обучения нейронных сетей (включая драйверы CUDA и необходимые библиотеки). 2. Реализовать предложенные нейросетевые архитектуры в коде, провести обучение на имеющемся датасете и проверить результаты на тестовой выборке. 3. Отобрать лучшую архитектуру или архитектуры при наборе гиперпараметров по умолчанию. 4. Подобрать гиперпараметры нейросетевых моделей для оптимизации решения. ● Инженеру по машинному обучению предстоит: 1. Реализовать алгоритм формирования обучающей выборки для алгоритма оптимизации гиперпараметров. 2. Реализовать алгоритм оптимизации гиперпараметров для классических алгоритмов машинного обучения на базе экспертной разметки разрушенности. 3. Исследовать возможность адаптации набора алгоритмов сегментации к особенностям поставленной задачи. 4. Отобрать алгоритм сегментации, показавший оптимальный результат. 5. Разработать и валидировать алгоритм определения разрушенных областей на выделенных сегментах. 6. Доработать алгоритм определения разрушенных областей для работы с полученным алгоритмом сегментации. 7. Выбрать оптимальный алгоритм сегментации на основе классических алгоритмов и нейронных сетей, доработать итоговый алгоритм на основе полученных результатов исследований по данным. 8. Интегрировать отобранные алгоритмы в pipeline существующего сервиса классификации и сегментации изображений.

Что представляет собой результат работы?

1. Итоговый датасет для обучения и тестирования разрабатываемых моделей машинного обучения. 2. Программный комплекс отражающий ход и результаты проведенных исследований, промежуточные результаты и выводы, с исходными кодами в Jupyter Notebook (.ipynb), 3. Программный комплекс позволяющий воспроизвести результаты проведенных исследований, включающий в себя скрипты на Python и необходимые для работы программные компоненты. 4. Модели машинного обучения и необходимые для их работы программные компоненты, интегрированные в веб-сервис цифрового двойника лаборатории.

По каким критериям будут оценивать результат?

1. Выбранные и согласованные с лидером проекта алгоритмы обработки данных, архитектуры и метрики качества моделей позволяют получить точность классификации выше, чем текущее решение. 2. Машинный способ разметки позволяет получить суммарную оценку по дата-сету не ниже чем у эксперта, размечающего вручную. Оценка качества разметки будет производится путем визуального анализа качества разметки одинаковых пар фото с экспертным и машинным выделением.

Что можно получить за этот проект?

Проект предусматривает денежное вознаграждение в размере 1 074 000 рублей после выплаты налогов, в том числе: ● 320 000 рублей каждому специалисту по обработке и анализу данных; ● 434 000 рублей инженеру по машинному обучению.

На какую помощь можно рассчитывать?

1. Лидер проекта предоставит: а) доступ к имеющемуся размеченному датасету изображений кернов (более 8500 изображений, включая УФ/ИК-снимки); б) нормативные документы и правила распознавания сегментов керна; в) описания имеющихся алгоритмов сегментации и классификации; г) удаленный доступ к тестовой среде для проведения исследований и обучения моделей; д) документацию и описание форматов взаимодействия систем цифрового двойника лаборатории. 2. Лидер проекта организует взаимодействие с другими участниками проекта со своей стороны и готов давать комментарии и пояснения по ходу выполнения работ.