Федеративный поиск - Federated search

Федеративный поиск извлекает информацию из множества источников с помощью поискового приложения, созданного поверх поисковых систем.[1] Пользователь делает единичный запрос, который распространяется на поисковые системы, базы данных или другие механизмы запросов, участвующие в федерации. Затем объединенный поиск объединяет результаты, полученные от поисковых систем, для представления пользователю. Объединенный поиск может использоваться для интеграции разрозненных информационных ресурсов в рамках одной крупной организации («предприятия») или для всей сети.

Федеративный поиск, в отличие от распределенный поиск, требует централизованной координации доступных для поиска ресурсов. Это включает в себя как координацию запросов, передаваемых отдельным поисковым системам, так и объединение результатов поиска, возвращаемых каждой из них.

Цель

Федеративный поиск возник для удовлетворения потребности в поиске нескольких разрозненных источников контента с помощью одного запроса. Это позволяет пользователю выполнять поиск в нескольких базах данных одновременно в режиме реального времени, упорядочивать результаты из различных баз данных в удобной форме и затем представлять результаты пользователю.

По сути, это подход к агрегированию информации или интеграции - он обеспечивает единый доступ ко многим информационным ресурсам и обычно возвращает данные в стандартной или частично гомогенизированной форме. Другие подходы включают построение Корпоративное хранилище данных, Озеро данных, или же Центр данных. Объединенный поиск запрашивает много раз разными способами (каждый источник запрашивается отдельно), тогда как другие подходы импортируют и преобразуют данные много раз, обычно в пакетных процессах за ночь. Федеративный поиск обеспечивает просмотр всех источников в реальном времени (при условии, что все они находятся в сети и доступны).

В промышленных поисковых системах, таких как LinkedIn, федеративный поиск используется для персонализации вертикального предпочтения неоднозначных запросов.[2] Например, когда пользователь вводит в LinkedIn такой запрос, как «машинное обучение», он или она может иметь в виду поиск людей с навыками машинного обучения, вакансий, требующих навыков машинного обучения, или контента по теме. В таких случаях федеративный поиск может использовать намерение пользователя (например, прием на работу, поиск работы или потребление контента), чтобы персонализировать вертикальный порядок для каждого отдельного пользователя.

Процесс

По описанию Питера Хассо (2004 г.[3]), федеративный поиск состоит из (1) преобразования запрос и транслировать его группе разрозненных баз данных или других веб-ресурсов с соответствующим синтаксисом, (2) объединять результаты, собранные из баз данных, (3) представлять их в кратком и унифицированном формате с минимальным дублированием и (4) обеспечивать средство, выполняемое автоматически или пользователем портала, для сортировки объединенного набора результатов.

Федеративные поисковые порталы, коммерческие или открытый доступ, как правило, поиск в открытом доступе библиографические базы данных, общедоступные каталоги веб-библиотек (OPAC ), Поисковые системы в Интернете, такие как Google и / или общедоступные, государственные или корпоративные сборники данных. Эти отдельные источники информации отправляют обратно в интерфейс портала список результатов поискового запроса. Пользователь может просмотреть этот список совпадений. Некоторые порталы просто царапина экрана фактические результаты базы данных и не позволяют пользователю напрямую войти в приложение источника информации. Более сложные будут выводить дубликаты из списка результатов, объединяя и удаляя дубликаты. На многих порталах доступны дополнительные функции, но основная идея та же: повысить точность и релевантность индивидуальных поисков, а также сократить время, необходимое для поиска ресурсов.

Этот процесс дает объединенному поиску некоторые ключевые преимущества по сравнению с существующими поисковыми системами на основе поисковых роботов. Федеративный поиск не должен накладывать никаких требований или обременений на владельцев отдельных источников информации, кроме обработки увеличившегося трафика. Федеративный поиск по своей сути так же актуален, как и отдельные источники информации, поскольку поиск осуществляется в реальном времени.

Выполнение

федеративная поисковая система
Объединение трех поисковых систем

Одним из приложений федеративного поиска является метапоисковая машина. Однако подход метапоиска не устраняет недостатки компонентных поисковых систем, такие как неполные индексы. Документы, которые не индексируются поисковыми системами, создают так называемые глубокая паутина, или невидимая сеть. Google ученый является одним из примеров многих проектов, пытающихся решить эту проблему путем индексации электронных документов, игнорируемых поисковыми системами. И подход метапоиска, как и лежащая в его основе технология поисковых систем, работает только с источниками информации, хранящимися в электронной форме.

Одна из основных проблем метапоиска - обеспечить совместимость поискового запроса с компонентами поисковых систем, которые объединяются и объединяются. Когда поисковый словарь или модель данных поисковой системы отличается от модели данных одной или нескольких внешних целевых систем, запрос должен быть переведен в каждую из сторонних целевых систем. Это можно сделать с помощью простого преобразования элементов данных или может потребоваться семантический перевод. Например, если одна поисковая система позволяет цитировать точные строки или n-граммы, а другая - нет, запрос должен быть переведен для совместимости с каждой поисковой системой. Чтобы перевести точный строковый запрос в кавычки, его можно разбить на набор перекрывающихся [N-граммов | N-граммов], которые с наибольшей вероятностью дадут желаемые результаты поиска в каждой поисковой системе.

Еще одна проблема, с которой сталкивается при внедрении федеративных поисковых систем, - это масштабируемость. Трудно поддерживать производительность, скорость отклика федеративной поисковой системы, поскольку она объединяет все больше и больше источников информации. Одна реализация федеративного поиска, которая начала решать эту проблему: Всемирная наука, организованный Министерство энергетики США с Управление научно-технической информации. Всемирная наука[4] состоит из более чем 40 источников информации, некоторые из которых сами являются объединенными поисковыми порталами. Один из таких порталов - Science.gov.[5] который сам объединяет более 30 источников информации, представляющих большую часть результатов НИОКР федерального правительства США. Science.gov возвращает результаты с наивысшим рейтингом в WorldWideScience, который затем объединяет и ранжирует эти результаты с результатами поиска, полученными из других источников информации, составляющих WorldWideScience.[5] Такой подход каскадного федеративного поиска позволяет выполнять поиск в большом количестве источников информации с помощью одного запроса.

Другое приложение Sesam работающая как в Норвегии, так и в Швеции, была построена на платформе с открытым исходным кодом, специализированной для решений федеративного поиска. Сесат,[6] акроним для Набор инструментов для поиска Sesam, представляет собой платформу, которая предоставляет большую часть инфраструктуры и функций, необходимых для обработки параллельного и конвейерного поиска и элегантного отображения их в пользовательском интерфейсе, что позволяет инженерам сосредоточиться на настройке конфигурации индекса / базы данных.

Чтобы персонализировать вертикальные заказы в федеративном поиске, поисковая система LinkedIn[2] использует профиль поисковика и недавние действия, чтобы сделать вывод о его или ее намерениях, таких как прием на работу, поиск работы и потребление контента, а затем использует намерение вместе со многими другими сигналами для ранжирования вертикального порядка, который лично актуален для отдельного искателя.

Вызовы

Когда объединенный поиск выполняется в защищенных источниках данных, учетные данные пользователей должны быть переданы в каждую базовую поисковую систему, чтобы обеспечить соответствующую безопасность. Если у пользователя разные учетные данные для разных систем, должны быть средства сопоставления их идентификатора входа с доменом безопасности каждого поискового механизма.[7]

Другой проблемой является отображение навигаторов списков результатов в общую форму. Предположим, выполняется поиск по 3 сайтам недвижимости, каждый из которых предоставляет список названий городов с гиперссылками, по которым можно щелкнуть, чтобы увидеть совпадения только в каждом городе. В идеале эти аспекты должны быть объединены в один набор, но это создает дополнительные технические проблемы.[8] Система также должна понимать ссылки «следующая страница», если она позволяет пользователю пролистывать объединенные результаты.

Некоторая проблема сопоставления с общей формой может быть решена, если объединенные ресурсы поддерживают связанные открытые данные через RDF. Онтологии (правила) могут быть добавлены для сопоставления результатов с общими формами с использованием этой технологии.

Еще одна проблема - сортировка и оценка результатов. Каждый веб-ресурс имеет собственное понятие оценки релевантности и может поддерживать некоторый порядок сортировки результатов. Релевантность сильно различается среди «федератов» в поиске, поэтому знать, как чередовать результаты, чтобы показывать наиболее релевантные, сложно или невозможно.

Еще одна проблема - надежный запрос. Федеративному поиску, возможно, придется ограничиться минимальным набором возможностей запросов, общих для всех федераций. Например. если Google поддерживает отрицание и цитируемые фразы, а science.gov - нет, то для федеративного поиска будет невозможно поддерживать отрицательные, цитируемые фразы.

Еще одна проблема - доступность и тайм-аут. По мере роста числа федератов (федеративных источников) вероятность появления одного или нескольких медленных или автономных федераций становится высокой. Федеративный поиск должен решить, когда рассматривать федерацию в автономном режиме или ждать медленного ответа. Время отклика будет определяться самым медленным из всех федератов.

Еще одна проблема - разработка и тестирование на предприятии (а не в общедоступном Интернете). Группы разработчиков, как правило, не должны использовать живые производственные системы, поскольку они выполняют обычную работу, а тем более интенсивное нагрузочное тестирование. Кроме того, некоторые ресурсы безопасны, и их не следует произвольно запрашивать и раскрывать в процессе разработки из соображений конфиденциальности и безопасности. Следовательно, среды разработки, тестирования и тестирования производительности должны включать установку и настройку многих подсистем, чтобы обеспечить безопасное и надежное тестирование.

Еще одна проблема внутри предприятия - HA / DR (высокая доступность и аварийное восстановление ). Чтобы вся федеративная система была HA / DR, каждая подсистема должна быть HA / DR.

По аналогии, моделирование производительности и планирование мощности для федеративной системы требуется моделирование, планирование, а иногда и расширение всех федераций.

По указанным выше причинам внутри предприятия центр данных или же озеро данных может быть предпочтительнее или гибридный подход. Центры данных и озера упрощают разработку и доступ, но могут потребовать некоторой задержки до того, как данные станут доступны (без специальной логики синхронизации). В сети более типична федерация.

Смотрите также

Рекомендации

  1. ^ "Что такое федеративный поиск?". Блог Ковео. Coveo. Получено 29 июня, 2020.
  2. ^ а б Арья, Дхрув; Ха-Тук, Вьетнам; Синха, Шакти (2015). «Персонализированный федеративный поиск в LinkedIn». Материалы 24-й конференции ACM International по управлению информацией и знаниями (CIKM). С. 1699–1702. arXiv:1602.04924. Дои:10.1145/2806416.2806615. ISBN  9781450337946.
  3. ^ Мысли о федеративном поиске. Хасо, Петер, Information Today, октябрь 2004 г., Vol. 21, Выпуск 9
  4. ^ Всемирная наука
  5. ^ а б Science.gov
  6. ^ «Сесат». Архивировано из оригинал на 2015-07-20. Получено 2019-08-17.
  7. ^ Сопоставление требований безопасности с поисковой системой предприятия
  8. ^ 20+ различий между поиском в Интернете и поиском предприятия - часть 1

дальнейшее чтение