Проект завершен

Анализ и корректировка данных для модели машинного обучения

Сферы деятельности

  • Аналитика
  • Машинное обучение
  • Big data

Приём откликов

до 14 сентября 2022

Сроки работы

1 месяц

Бюджет

50 000 ₽

В чем суть проекта?

Необходимо подготовить данные для обучения модели машинного обучения, проанализировать результаты ее работы, уточнить значения отдельных параметров и сделать выводы о существующих тенденциях в ошибках предсказания.

Каковы предпосылки проекта?

Компания «Газпром нефть» развивает корпоративную поисковую систему, которая позволяет сотрудникам в процессе закупок находить подробные сведения о необходимых материалах и оборудовании. Для упрощения поиска используется модуль машинного обучения: лежащая в его основе модель дает возможность формулировать поисковые запросы более простым языком и получать детальные результаты поиска.

Лидер проекта ищет стажера-аналитика, который сможет подготовить данные для оптимизации работы модели машинного обучения: собрать данные для разметки и последующего дообучения модели, описать значения отдельных параметров, используемых для поиска, выявить ошибки предсказания и сделать выводы о существующих тенденциях в этих ошибках.

Что представляет собой результат работы?

  1. Набор из 15-20 файлов в формате *.xlsx с расшифровкой аббревиатур и сокращений в маркировке материалов и оборудования.
  2. Набор из 16 файлов в формате *.xlsx с примерами ошибок предсказания для разных классов материалов (от 50 до 150 примеров в каждом).
  3. Таблица в формате *.xlsx с описанием тенденций ошибок для отдельных параметров описания материалов.

По каким критериям будут оценивать результат?

1. При расшифровке аббревиатур и сокращений:

- для файлов объемом более 500 строк расшифровано не менее 250 аббревиатур и сокращений;

- для файлов объемом менее 500 строк расшифровано не менее 50 % аббревиатур и сокращений;

- при невозможности расшифровки аббревиатур и сокращений в достаточном объеме предоставлено обоснование со ссылкой на недостающие источники информации для расшифровки.

2. Примеры ошибок предсказания для разных классов материалов отражают как можно более разнообразные тенденции ошибок.

3. Таблица с описанием тенденций ошибок содержит развернутое описание тенденций по согласованному с лидером проекта образцу.

Что можно получить за этот проект?

Проект предусматривает вознаграждение в размере 50 000 рублей после всех вычетов для физлиц (налоговая ставка 13%) или 54 023 рублей после всех вычетов для самозанятых / ИП (налоговая ставка 6%). Окончательную сумму вознаграждения вы определите с лидером проекта с учетом вашей квалификации по результатам выполнения тестового задания и прохождения технического интервью.

Планируется продолжение сотрудничества по итогам реализации проекта.

Выбрать роль