Журналистика, управляемая данными - Data-driven journalism

Журналистика, управляемая данными, часто сокращаемый до «ddj», термин, используемый с 2009 года, представляет собой журналистский процесс, основанный на анализе и фильтрации больших наборов данных с целью создания или повышения уровня новостей. Многие истории, основанные на данных, начинаются с новых доступных ресурсов, таких как программное обеспечение с открытым исходным кодом, открытый доступ публикации и открытые данные, а другие являются продуктами запросы на публичные записи или просочившиеся материалы. Этот подход к журналистике основан на старых методах работы, в первую очередь на компьютерная отчетность (CAR) этикетка, используемая в основном в США на протяжении десятилетий. Другие ярлыки для частично подобных подходов - «точная журналистика», основанная на книге Филиппа Мейера,[1] опубликовано в 1972 году, где он выступал за использование методов социальных наук в исследовании историй.

Журналистика, основанная на данных, имеет более широкий подход. По сути, процесс основан на растущей доступности открытых данных, которые находятся в свободном доступе в Интернете и анализируются с помощью Открытый исходный код инструменты.[2] Журналистика, основанная на данных, стремится выйти на новый уровень обслуживания общественности, помогая широкой публике или отдельным группам или отдельным лицам понимать закономерности и принимать решения на основе результатов. Таким образом, журналистика, основанная на данных, может по-новому поставить журналистов на роль, актуальную для общества.

С момента введения концепции ряд медиа-компаний создали «группы обработки данных», которые разрабатывают визуализацию для редакций. Наиболее заметными являются команды, например. в Reuters,[3] Pro Publica,[4] и La Nacion (Аргентина).[5] В Европе, Хранитель[6] и Berliner Morgenpost[7] есть очень продуктивные команды, а также общественные вещатели.

Поскольку проекты, подобные Скандал с расходами депутата (2009) и публикация в 2013 году «офшорных утечек» демонстрирует, что журналистика, управляемая данными, может взять на себя роль расследования, иногда имея дело с «не очень открытыми», иначе говоря, секретными данными.

Ежегодная премия в области журналистики данных[8] признают выдающиеся репортажи в области журналистики данных и многочисленные Пулитцеровские премии в последние годы были присуждены за создание историй на основе данных, включая Пулитцеровскую премию 2018 года в области международной отчетности.[9] и Пулитцеровской премии 2017 года в области государственной службы[10]

Определения

Журналистский процесс, управляемый данными.
Журналистский процесс, управляемый данными.

По словам архитектора и мультимедийного журналиста Мирко Лоренца, журналистика, управляемая данными, - это прежде всего рабочий процесс который состоит из следующих элементов: копать глубоко в данные, очищая, очищая и структурируя их, фильтрация путем майнинга для конкретных, визуализация и сочинять историю.[11] Этот процесс может быть расширен для получения результатов, отвечающих индивидуальным интересам и широкой общественности.

Тренер и писатель по журналистике данных Пол Брэдшоу аналогичным образом описывает процесс журналистики, основанной на данных: данные должны быть найденный, что может потребовать специальных навыков, таких как MySQL или же Python, тогда допросили, для чего необходимо понимание жаргона и статистики, и, наконец, визуализированный и пюре с помощью инструменты с открытым исходным кодом.[12]

Более ориентированное на результат определение дано репортером данных и веб-стратегом Хенком ван Эссом (2012).[13] "Журналистика, основанная на данных, позволяет репортерам рассказывать нерассказанные истории, находить новые точки зрения или завершать истории посредством рабочего процесса поиска, обработки и представления значительных объемов данных (в любой форме) с открытыми инструментами или без них.«Ван Эсс утверждает, что часть рабочего процесса на основе данных приводит к продуктам, которые»не находятся на орбите с законами хорошего рассказа«потому что в результате упор делается на демонстрацию проблемы, а не на ее объяснение».Хорошее производство, управляемое данными, имеет разные уровни. Это позволяет вам находить персонализированные, которые важны только для вас, путем перехода к релевантным, но также позволяет уменьшить масштаб, чтобы получить общую картину ".

В 2013 году Ван Эсс дал более короткое определение в [14] это не требует визуализации как таковой:

"Журналистика данных - это журналистика, основанная на данных, которые необходимо обработать с помощью инструментов, прежде чем станет возможной соответствующая история ».

Отчетность на основе данных

Рассказывать истории на основе данных - это основная цель. Выводы из данных могут быть преобразованы в любую форму журналистское письмо. Визуализации можно использовать для четкого понимания сложной ситуации. Кроме того, элементы повествования могут быть использованы, чтобы проиллюстрировать, что на самом деле означают результаты, с точки зрения человека, на которого влияет развитие. Эту связь между данными и историей можно рассматривать как «новую дугу», пытающуюся преодолеть разрыв между актуальными, но плохо понятыми событиями, до истории, которая поддается проверке, заслуживает доверия, актуальна и легко запоминается.

Качество данных

Во многих исследованиях данные, которые могут быть обнаружены, могут содержать пропуски или вводить в заблуждение. В качестве одного из уровней журналистики, основанной на данных, важен критический анализ качества данных. В других случаях данные могут быть закрытыми или иметь неправильный формат для дальнейшего анализа, например доступно только в PDF. Здесь процесс журналистики, основанной на данных, может превратиться в рассказы о качестве данных или об отказах учреждений предоставить данные. Поскольку практика в целом находится на ранних этапах разработки, исследования источников данных, наборов данных, качества данных и формата данных, следовательно, являются не менее важной частью этой работы.

Журналистика, основанная на данных, и ценность доверия

Основываясь на перспективе более глубокого изучения фактов и движущих сил событий, предлагается изменение в медиа-стратегиях: с этой точки зрения идея состоит в том, чтобы перейти «от внимания к доверию». Привлечение внимания, которое было столпом бизнес-моделей СМИ, потеряло свою актуальность, потому что сообщения о новых событиях часто быстрее распространяются через новые платформы, такие как Twitter, чем через традиционные каналы СМИ. С другой стороны, доверие можно рассматривать как дефицитный ресурс. Хотя распространение информации через Интернет намного проще и быстрее, обилие предложений требует затрат на проверку и проверку содержания любой истории, что создает возможность. Идея превратить медиакомпании в надежные центры данных описана в статье, опубликованной в феврале 2011 года на Owni.eu.[15] и Nieman Lab.[16]

Процесс журналистики, управляемой данными

Процесс преобразования необработанных данных в истории сродни уточнению и преобразованию. Основная цель - получить информацию, на которую могут действовать получатели. Задача журналиста данных - извлечь то, что скрыто. Этот подход может применяться практически к любому контексту, например к финансам, здоровью, окружающей среде или другим областям, представляющим общественный интерес.

Перевернутая пирамида журналистики данных

В 2011 году Пол Брэдшоу представил модель, которую он назвал «Перевернутая пирамида журналистики данных».

Этапы процесса

Для этого процесс следует разбить на несколько этапов. Хотя шаги, ведущие к результатам, могут различаться, основное различие можно провести, рассмотрев шесть этапов:

  1. Поиск: поиск данных в Интернете
  2. Чистота: процесс фильтрации и преобразования данных, подготовка к визуализации
  3. Визуализировать: отображение узора в виде статического или анимированного визуального элемента.
  4. Публикация: интеграция визуальных элементов, добавление данных к историям
  5. Распространение: предоставление доступа на различных устройствах, таких как Интернет, планшеты и мобильные устройства.
  6. Измерение: отслеживание использования историй данных во времени и по всему спектру использования.

Описание шагов

Поиск данных

Данные могут быть получены непосредственно из государственных баз данных, таких как data.gov, data.gov.uk и API данных Всемирного банка[17] но также путем размещения Запросы о свободе информации в государственные органы; некоторые запросы отправляются и собираются на таких веб-сайтах, как британский «Что они знают». Хотя существует общемировая тенденция к открытию данных, существуют национальные различия в том, в какой степени эта информация свободно доступна в удобных для использования форматах. Если данные находятся на веб-странице, парсеры используются для создания электронной таблицы. Примеры скребков: Import.io, ScraperWiki, OutWit Hub и Игла (на пенсии в 2012 г.[18]). В других случаях для получения данных из PDF-файлов можно использовать программное обеспечение OCR.

Общественность также может создавать данные с помощью краудсорсинга, как это было показано в марте 2012 года на конференции Datajournalism Conference в Гамбурге Хенком ван Эссом.[19]

Данные очистки

Обычно данные не в формате, который легко визуализировать. Примерами могут служить то, что имеется слишком много точек данных или что строки и столбцы необходимо сортировать по-другому. Другая проблема заключается в том, что после исследования многие наборы данных необходимо очистить, структурировать и преобразовать. Различные инструменты, такие как Google Refine (Открытый исходный код ), Data Wrangler и Таблицы Google[20] разрешить загрузку, извлечение или форматирование данных.

Визуализация данных

Для визуализации данных в виде графиков и диаграмм такие приложения, как Много глаз или же Tableau Public доступны. Yahoo! Трубы и открыть тепловую карту[21] являются примерами инструментов, позволяющих создавать карты на основе электронных таблиц. Количество опций и платформ расширяется. Некоторые новые предложения предоставляют возможности поиска, отображения и встраивания данных, например, Timetric.[22]

Для создания значимых и актуальных визуализаций журналисты используют все больше инструментов. На данный момент существует несколько описаний того, что искать и как это делать. Наиболее известные опубликованные статьи:

  • Джоэл Гюнтер: "# ijf11: Уроки журналистики данных от New York Times"[23]
  • Стив Майерс: «Использование визуализации данных в качестве инструмента отчетности может выявить форму истории», включая ссылку на учебное пособие Сары Коэн[24]

С 2011 года использование библиотек HTML 5 с использованием холст становится все более популярным. Существует множество библиотек, позволяющих отображать данные во все более разнообразных формах. Одним из примеров является RGraph.[25] По состоянию на 2011 год постоянно увеличивается список библиотек JavaScript, позволяющих визуализировать данные.[26]

История публикации данных

Существуют различные варианты публикации данных и визуализаций. Базовый подход - прикрепить данные к отдельным историям, аналогично встраиванию веб-видео. Более продвинутые концепции позволяют создавать отдельные досье, например для отображения ряда визуализаций, статей и ссылок на данные на одной странице. Часто такие специальные предложения нужно кодировать индивидуально, поскольку многие системы управления контентом предназначены для отображения отдельных сообщений на основе даты публикации.

Распространение данных

Предоставление доступа к существующим данным - еще один этап, который приобретает все большее значение. Думайте о сайтах как о «торговых площадках» (коммерческих или нет), где наборы данных могут быть легко найдены другими. Журналисты должны предоставить ссылку на данные, которые они использовали для расследования другими (что потенциально может начать новый цикл допроса, ведущий к новым открытиям), особенно в отношении информации для статьи, полученной из открытых данных.

Предоставление доступа к данным и предоставление группам возможности обсуждать, какую информацию можно извлечь, - основная идея Buzzdata,[27] сайт, использующий концепции социальных сетей, такие как обмен и подписка, для создания сообщества для исследования данных.

Другие платформы (которые могут использоваться как для сбора, так и для распространения данных):

  • Help Me Investigate (созданный Полом Брэдшоу)[28]
  • Timetric[29]
  • ScraperWiki[30]

Измерение влияния историй с данными

Последним шагом процесса является определение того, как часто просматривается набор данных или визуализация.

В контексте журналистики, основанной на данных, степень такого отслеживания, например, сбор пользовательских данных или любой другой информации, которая может быть использована в маркетинговых целях или для других целей, не зависящих от пользователя, должна рассматриваться как проблематичная.[согласно кому? ] Еще один новый, ненавязчивый способ измерения использования - это легкий трекер под названием PixelPing. Трекер - результат проекта ProPublica и DocumentCloud.[31] Для сбора данных существует соответствующая служба. Программное обеспечение с открытым исходным кодом и может быть загружено через GitHub.[32]

Примеры

Список примеров того, как можно применять журналистику, основанную на данных, постоянно растет:

  • Хранитель, одна из новаторских медиа-компаний в этой сфере (см. «Журналистика данных в Guardian: что это такое и как мы это делаем?»)[33]), составил обширный список историй с данными, см. «Вся наша журналистика данных в одной электронной таблице».[34]

Другие известные применения журналистики, основанной на данных, связаны с публикацией разоблачителей. WikiLeaks из Дневник афганской войны, сборник из 91 000 секретных военных отчетов, освещающих войну в Афганистане с 2004 по 2010 год.[35] Три глобальных информационных листа, а именно Хранитель, Нью-Йорк Таймс и Der Spiegel, посвященные обширные разделы[36][37][38] к документам; Хранитель Отчет включал интерактивную карту с указанием типа, местоположения и жертв, вызванных 16 000 СВУ атаки[39] Нью-Йорк Таймс опубликовал подборку отчетов, позволяющих пролистывать подчеркнутый текст, чтобы раскрыть объяснения военных терминов,[40] пока Der Spiegel предоставили гибридные визуализации (содержащие как графики, так и карты) по таким темам, как количество смертей, связанных с бомбовыми атаками повстанцев.[41] Для Выпуск журналов войны в Ираке, The Guardian использовал Таблицы Google Fusion создать интерактивную карту каждого происшествия, в котором кто-то погиб,[42] техника, которую он снова использовал в Беспорядки в Англии 2011 г.[43]

Смотрите также

Рекомендации

  1. ^ "Филипп Мейер". festivaldelgiornalismo.com. Архивировано из оригинал 4 марта 2016 г.. Получено 31 января 2019.
  2. ^ Лоренц, Мирко (2010) Журналистика, управляемая данными: чему можно научиться? Отредактированная документация конференции, основанная на презентациях участников, 24 августа 2010 г., Амстердам, Нидерланды.
  3. ^ «Специальные репортажи журналистов Reuters со всего мира». Рейтер. Получено 31 января 2019.
  4. ^ "Новостные приложения". ProPublica. Получено 31 января 2019.
  5. ^ «Как аргентинская ежедневная газета La Nación стала центром журналистики данных в Латинской Америке». niemanlab.org. Получено 31 января 2019.
  6. ^ "Данные - Хранитель". хранитель. Получено 31 января 2019.
  7. ^ Берлин, Berliner Morgenpost-. «Портфолио Interaktiv-Team». morgenpost. Получено 31 января 2019.
  8. ^ «Награды в области журналистики данных». datajournalismawards.org. Архивировано из оригинал 21 июля 2018 г.. Получено 31 января 2019.
  9. ^ «Пулитцеровские премии». www.Pulitzer.org. Получено 31 января 2019.
  10. ^ «Пулитцеровские премии». www.Pulitzer.org. Получено 31 января 2019.
  11. ^ Лоренц, Мирко. (2010). Журналистика, управляемая данными: чему можно научиться? Представлено на конференции по инновационной журналистике IJ-7, 7–9 июня 2010 г., Стэнфорд, Калифорния.
  12. ^ Брэдшоу, Пол (1 октября 2010 г.). Как быть информационным журналистом. Хранитель
  13. ^ ван Эсс, Хенк. (2012). Горы журналистики, управляемой данными
  14. ^ ван Эсс, Хенк. (2013). Handboek Datajournalistiek В архиве 2013-10-21 на Wayback Machine
  15. ^ Медиа-компании должны стать надежными центрами данных »OWNI.eu, Новости, Дополненные В архиве 2011-08-24 на Wayback Machine. Owni.eu (28 февраля 2011 г.). Проверено 16 августа 2013.
  16. ^ Голоса: Новостные организации должны стать центрами надежных данных на рынке, ищущем (и ценим) доверие »Nieman Journalism Lab. Niemanlab.org (09.08.2013). Проверено 16 августа 2013.
  17. ^ «Информация для разработчиков - справочная служба Всемирного банка». datahelpdesk.worldbank.org. Получено 31 января 2019.
  18. ^ «Обновление старых постановлений на новый год». googleblog.blogspot.com. Получено 31 января 2019.
  19. ^ Краудсорсинг: как найти толпу (Представлено в ARD / ZDF Academy в. Slideshare.net (17 сентября 2010 г.). Проверено 16 августа 2013.
  20. ^ Херст, автор Тони (14 октября 2008 г.). «Сбор данных из Википедии с помощью таблиц Google». ouseful.info. Получено 31 января 2019.
  21. ^ "OpenHeatMap". www.openheatmap.com. Получено 31 января 2019.
  22. ^ «Дом - Timetric». www.timetric.com. Получено 31 января 2019.
  23. ^ Гюнтер, Джоэл (16 апреля 2011 г.). "# ijf11: Уроки журналистики данных от New York Times". journalism.co.uk. Получено 31 января 2019.
  24. ^ «Использование визуализации данных в качестве инструмента отчетности может выявить форму истории». Poynter.org. Получено 31 января 2019.
  25. ^ «RGraph - это бесплатная библиотека диаграмм JavaScript с открытым исходным кодом для Интернета». www.rgraph.net. Получено 31 января 2019.
  26. ^ Библиотеки JavaScript
  27. ^ "BuzzData. BuzzData. Проверено 16 августа 2013 г.". Архивировано из оригинал на 2011-08-12. Получено 2011-08-17.
  28. ^ «Помогите мне в расследовании - сеть, помогающая людям расследовать вопросы в интересах общества». helpmeinvestigate.com. Получено 31 января 2019.
  29. ^ «Дом - Timetric». www.timetric.com. Получено 31 января 2019.
  30. ^ "ScraperWiki". Получено 31 января 2019.
  31. ^ Ларсон, Джефф. (2010-09-08) Pixel Ping: трекер статистики node.js. ProPublica. Проверено 16 августа 2013.
  32. ^ documentcloud / pixel-ping ¡ GitHub. Github.com. Проверено 16 августа 2013.
  33. ^ Роджерс, Саймон (28 июля 2011 г.). «Журналистика данных в Guardian: что это такое и как мы это делаем?». Получено 31 января 2019 - через www.theguardian.com.
  34. ^ Эванс, Лиза (27 января 2011 г.). «Вся наша журналистика данных в одной таблице». хранитель. Получено 31 января 2019.
  35. ^ Кабульский военный дневник, 26 июля 2010 г., WikiLeaks
  36. ^ Афганистан Журналы войны, 26 июля 2010 г., Хранитель
  37. ^ Журналы войны, 26 июля 2010 г. Нью-Йорк Таймс
  38. ^ Протокол по Афганистану: взрывоопасные утечки дают представление о войне со стороны тех, кто с ней борется, 26 июля 2010 г., Der Spiegel
  39. ^ Журнал войны в Афганистане: атаки СВУ на мирных жителей, коалицию и афганские войска, 26 июля 2010 г., Хранитель
  40. ^ Текст из избранных секретных депеш, 26 июля 2010 г., Нью-Йорк Таймс
  41. ^ Смертный счет: смерть в результате бомбовых атак повстанцев., 26 июля 2010 г., Der Spiegel
  42. ^ Журнал Wikileaks иракской войны: каждая смерть нанесена на карту, 22 октября 2010 г., Журнал данных Guardian
  43. ^ Беспорядки в Великобритании: все подтвержденные инциденты - интерактивная карта, 11 августа 2011 г., Журнал данных Guardian

внешняя ссылка