Специалистами Центра исследования больших данных НИТУ разработан механизм семантического быстрого поиска по специализированным базам данных
Пресс-служба НИТУ «МИСиС» сообщила, что группой ученых НИТУ «МИСиС», решавших задачу корректного поиска объемных документов, близких по смыслу, разработан механизм семантического быстрого поиска по специализированным базам данных.
Как утверждается, разработка, выполненная в рамках гранта Российского научного фонда, может помочь улучшить качество информационного поиска и анализа данных в специализированных поисковых системах. Речь идет о системах, используемых научными и промышленными организациями для поиска по отчетам, патентам, научным публикациям.
В основе механизма лежит метод сегментирования. Он позволяет корректно справляться с ситуацией, когда большие сложные документы охватывают сразу несколько тем, что при обычном подходе сильно затрудняет автоматический поиск. После разбиения на тематически однородные куски текста алгоритм выполняет поиск более эффективно.
«В рамках исследования мы использовали метод, основанный на подходе аддитивной регуляризации тематических моделей (additive regularization of topic models, ARTM) и алгоритме TopicTiling. В результате экспериментов удалось улучшить точность работы узкоспециального поиска по научным публикациям с 55% до почти 82%», — так прокомментировал выбранный подход Никита Никитинский, научный сотрудник Центра исследования больших данных НИТУ «МИСиС».
Разработка уже реализована в российском проекте создания Реестра обязательных требований.