OutWit Hub - OutWit Hub

OutWit Hub
Разработчики)OutWit Technologies
Операционная системаМайкрософт Виндоус, macOS, Linux
ТипВеб-скрапинг, менеджер загрузки
ЛицензияПроприетарный
Интернет сайтперехитрить.com

OutWit Hub это Извлечение веб-данных программное обеспечение, предназначенное для автоматического извлечения информации из сетевых или местных ресурсов. Он распознает и захватывает ссылки, изображения, документы, контакты, повторяющийся словарный запас и фразы, RSS-каналы и конвертирует структурированные и неструктурированные данные в форматированные таблицы, которые можно экспортировать в электронные таблицы или же базы данных. Первая версия была выпущена в 2010 году. Версия 8.0 выпущена в июне 2019 года.

Программа включает в себя браузер на основе Mozilla и боковую панель, которая дает доступ к ряду представлений с предварительно установленными экстракторами. Веб-страницы и текстовые документы разбиты на различные составляющие, представленные в этих представлениях в виде таблиц. Приложение может перемещаться по сериям ссылок и последовательностям страницы результатов поисковой системы извлекать информационные элементы, организовывать их в таблицы и экспортировать в различные форматы. Предопределенные экстракторы позволяют собирать структурированные таблицы, списки или каналы. Пользовательские парсеры также могут быть созданы для извлечения данных из менее структурированных элементов страницы.[1] Обычные выражения могут быть включены в скребки, а также в другие части приложения для определения переменных распознавания маркеров.[2]

Хотя OutWit Hub представлен как инструмент для нетехнических пользователей, тот факт, что приложение не использует объектная модель документа структура для его извлечения предотвращает визуальное извлечение данных по принципу «укажи и захвати» и заставит пользователя, который хочет создавать собственные скребки, определять маркеры в исходном коде страницы. Однако преимущество этого подхода состоит в том, что он позволяет более точное определение масок извлечения, чем узлы HTML, и более быстрое выполнение, поскольку дерево объектной модели документа не нужно отображать браузером во время извлечения.

Версии

Программа существует в двух версиях: автономное приложение и Mozilla Firefox добавить, которые включают идентичные функции. Ограниченную бесплатную версию можно скачать с сайта издателя и условно-бесплатную версию. скачивать сайты.[3]

Функции

  • Распознавание и извлечение ссылок, адресов электронной почты, структурированных и неструктурированных данных, новостей RSS
  • Извлечение и загрузка изображений и документов
  • Извлечение текста со словарем и группами слов по частоте
  • Автоматический просмотр с определяемыми пользователем правилами веб-исследования
  • Автоматический запрос и генерация URL по шаблонам
  • Каталоги ссылок и запросов
  • Пользовательские скребки
  • Макро-автоматизация
  • Периодическое выполнение работ

Расширенные возможности

Версия приложения Enterprise включает расширенные функции извлечения и автоматизации для определенных или больших объемов извлечения, отправку серии автоматически сгенерированных запросов HTTP или POST и загрузку очищенных данных на серверы FTP.

Смотрите также

Подобные инструменты

Рекомендации

  1. ^ «Использование« разделителей и меток »в Outwit Hub pro». Datacrumble. Май 2013.
  2. ^ «Практическое руководство. Очистка некрасивого HTML с помощью« регулярных выражений »в парсере OutWit Hub». Интернет-журналистика. Ноябрь 2012 г.
  3. ^ «Как использовать OutWit Hub для бесплатного сбора данных». Интерхактивы. Март 2014 г.

внешняя ссылка