Проект завершен

Создание программного комплекса для определения аналогов запорно-регулирующей арматуры

Направления деятельности

  • Закупки
  • МТО
  • ИТ

Приём откликов

до 30 октября 2019

Сроки работы

2 дня

В чем суть проекта?

Задача представлена совместно компаниями Газпром нефть и КРОК Для ускорения в дальнейшем автоматизированного подбора аналогов необходимо научиться из неструктурированных данных выделять смысловые численные и текстовые характеристики путем парсинга текстовых данных

Расскажите о задаче подробнее

Описания материалов и оборудования представляет собой большой массив неструктурированных данных с наименованиями и описанием характеристик материально-технических ресурсов, которые закупает компания Необходимо провести текстовый парсинг данных: разбить неструктурированные данные текстовых описаний по параметрам запорно-регулирующей арматуры для того, чтобы стало возможным проводить автоматический подбор аналогов. Особое внимание необходимо обратить на возможное разнообразие наименований характеристик для разных записей. При составлении совокупного перечня технических характеристик для класса данное разнообразие необходимо проанализировать и выбрать для каждой характеристики наиболее общепринятое наименование (установить набор синонимов). Целесообразно придерживаться унифицированного наименования характеристики не только внутри каждого класса, но и для составления перечней характеристик для классов похожей продукции

Что предстоит сделать?

Разработка решения будет проводиться в формате хакатона — 2-дневного соревнования разработчиков. В течение 2 дней (16–17 ноября) каждая команда, допущенная к участию в хакатоне, должна будет самостоятельно провести парсинг предложенных текстовых данных и извлечь значения требуемых параметров. В процессе парсинга можно использовать любую дополнительную информацию, к которой удастся получить доступ (справочники, веб-сайты производителей и т. п.) Для отборочного этапа вам нужно будет представить свое описание предполагаемого решения, а в ходе самого хакатона — воплотить решение в программном коде, продемонстрировать его работу на тестовых данных и защитить результат

Каким должен быть результат работы?

1) Для отборочного этапа: описание предполагаемого решения задачи в свободной форме. Вы можете описать, к примеру, какие шаги планируете реализовать, какие вопросы задать автору задачи, какие технологии использовать, в каком виде продемонстрировать результат 2) По итогам хакатона: таблица Excel, которая содержит входные данные и результаты парсинга, распределенные по столбцам, каждый из которых соответствует одному параметру

В каком формате нужно представить результат?

Таблица в формате MS Excel

По каким критериям будут оценивать результат?

1) Полнота парсинга не менее 70%. Под полнотой понимается доля текстовых записей (за исключением «мусора» — текста, не содержащего необходимой технической информации о МТР), которые алгоритм распознал и разбил на параметры, даже если не все параметры были распознаны верно или полностью 2) Точность парсинга не менее 90%. Под точностью понимается доля строк, которые были точно распознаны (все параметры находятся в правильных столбцах, устранены опечатки, значения унифицированы) 3) Продукт может быть масштабирован на другую номенклатуру Для оценки метрик полноты и точности Заказчик подсчитает средние значения метрик в оценочной выборке (каждая 100-я позиция, выбранная случайно)

Понадобится ли команда?

Да, проект рассчитан на выполнение командой (3-5 человек). Вы можете собрать ее самостоятельно или найти единомышленников в группе «ВКонтакте» (https://vk.com/prohackcroc) или Телеграм-чате (https://t.me/prohack4_0)

Материалы