"Сюжетный" подход в системе InfoStream

14.05.2004, 17:14

Для решения задачи поиска, систематизации и анализа новостной информации из Интернет в Информационном центре "ЭЛВИСТИ" была разработана система InfoStream╝ ( http://infostream.ua), охватывающая мощнейший информационный поток - свыше 25000 документов с более чем 600 Web-сайтов в сутки.

14 мая 2004 года пользователям системы InfoStream╝ стала доступна новая возможность автоматического объединения тематически близких документов и содержательного ранжирования сюжетных цепочек - многоаспектного освещения всех значимых событий. Решение базируется на построении семантической сети, автоматическом выявлении наиболее взаимосвязанных документов с целью наглядной визуализации важнейших сюжетов. Для этого применяются уникальные алгоритмы оценки взаимосвязей и группировки документов. Основные факторы, влияющие на ранжирование - это размеры сюжетных цепочек и оперативность документов, представленных в них. Размер сюжетной цепочки отражает общий интерес к конкретной теме, а оперативность - новизну сюжета. Анализируются также заголовки документов, входящих в сюжеты, в результате чего из всех заголовков выбираются наиболее адекватные для отображения.

Для того чтобы воспользоваться новой возможностью любому пользователю режима InfoStream╝ Online достаточно ввести поисковый запрос и нажать на клавишу "Сюжеты". При этом составление запроса максимально упрощается - для получения точных результатов вполне достаточно указать одно-два слова, относящихся к необходимой тематике, например, "банки", "Microsoft" или "нефтепродукты цены".

Ранее в системе InfoStream╝ было реализовано выявление содержательно подобных документов и смыслового дублирования на основе анализа лексических единиц, входящих в каждый документ.

Читайте також