11 заметок с тегом

визуализация данных

Экспресс-разбор визуализации о пробках

Раньше писал разборы, в которых рассказывал о подаче информации на примерах. В этот раз ограничусь главными ошибками и способами их исправления.

Работа «Время в пути» Виллема Тулпа показывает автотрафик в Нидерландах за 1 ноября 2016-го:

Данные собирали датчиками на дорогах. Замеряли время, за которое автомобиль проходит от датчика до датчика. Потом поминутно сравнивали собранные данные с нормой. За норму считали усреднённые значения для этих же датчиков в ночное время, когда движение максимально быстрое. Пропуски в данных интерполировали, а выбросы больше, чем в 3 раза, заменили на среднее соседних значений.

Что происходит на видео, понятно не сразу. Но из предыдущего абзаца ясно, что данные одномерные, их лучше показывать проще.

Давайте разбираться. Тут показаны только дороги и подписаны города.
Главный минус — формат. Видео сложнее анализировать. Для навигации есть только пауза и перемотка — попадай в нужный момент, как хочешь. При этом если просто смотреть ролик, то заметишь всплески около 9 и 17 часов и это суперочевидные выводы, для которых не нужна визуализация.

Второй минус — тройное кодирование одного и того же параметра, отклонения от нормы. Меняются цвет, толщина линии и добавляется ортогональное смещение, которое сглаживается, чтобы дороги не разрывались. Это перебор.

Автор пишет, что участки без данных — серые, а с маленьким отклонением — синие (голубые). По-русски назвал бы «сизым». Эти цвета почти неразличимы на видео. Среднее отклонение красное, сильное — белое. Почему такой набор? Может, в честь Нидерландского флага, но зачем? Светофорный градиент сработает лучше.

Цвет и толщина линии — это плюс-минус понятно, а как работает смещение может быть не очевидно. Предполагаю, что так. Ровная дорога с датчиками:

Когда время прохождения сегмента между датчиками отклоняется от нормы, это сегмент смещается, как столбик на диаграмме. Чем больше отклонение, тем больше значение по игреку.

А дальше хитрое алгоритмическое сглаживание, чтобы дороги не разрывались:

Возможно, именно из-за этого сглаживания пришлось записывать видео — браузер не справлялся. Подчеркну, это только один день.

Автор ссылается на модель «Дорожных волн», которая объясняет поведение визуализированного типа пробок. И вот тут, мне кажется, главная ловушка. Классно же прям волнами показать эти «дорожные волны»:

Because of the displacement based on the deviation from the assumed normal travel time, the visualization shows clearly that traffic jams can move in waves. These waves move backwards, opposite of the driving direction of the cars.

Но визуализация получается сложная и не наглядная.

Как бы делал сам
Взял бы настоящую карту, например, Оупен-стрит-меп, чтобы проще было найти родную деревню и работало масштабирование. Увёл всё кроме дорог на задний план (высветлил и обесцветил). И красил бы участки дорог светофорным градиентом не отклоняя. А если нет отклонений, нормально сработают дороги естественной толщины. Это будет похоже на пробки в любом картографическом сервисе. И это хорошо, формат проверен и легко считывается.

Чтобы перемещаться во времени, добавил бы слайдер с получасовыми отметками. Чтобы смотреть, как текут «волны», оставил бы плей, но выключил по умолчанию. Перетекание «волн» будет за счёт движения градиента. Ещё попробовал бы под дорогой рисовать тень, интенсивность которой повторно закодирует отклонение от нормы. Так можно добиться эффекта, которого искал автор, только без искажений топографии. «Волны» будут видны не сбоку, а сверху. Дальше можно добавить выбор дня.

29 ноября   визуализация данных   карта   пробки   разбор

Ось времени

В школе знакомят с общим видом двумерного графика функции и его полной версией:

И не рассказывают, что двумерный график — мощнейший инструмент визуализации. Он так и задуман — показывать зависимость двух параметров: каким будет игрек для выбранного икса, или как абсцисса относиться к ординате.

Интересно, что «отрицательные» квадранты двумерного графика используют реже других. Думаю, это отражает реальность.

Но не в случае со временем. Большинство данных описывают прошлое. Мизерная их часть — расчётные прогнозы. А настоящее на оси икс описано одной точкой — нолём:

Графикам, у которых на оси икс время, придумали своё называние — «временные ряды». Спецтермин — признак популярности формата. Кстати, в лаборатории вместо этой неуклюжего перевода, говорят «тайм-серии». Несмотря на популярность и обособленность формата, тайм-серии продолжают показывать в положительном квадранте, как другие графики.

Почему так не знаю. Аргумент о направлении чтения слева на право, слабее аргумента о первичном распознании всего изображения. Возможно, дань традиции. Верю, что традиции тленны. Естественным образом они уступают место новым. Поэтому считаю, что тайм-серии придут к своему естественному виду:

2017   визуализация данных   время   график

Разбор визуализации о смертности от огнестрела

Сегодня разберу работу Бена Кассельмана, Метью Козлина и Рубена Фишера-Баума для Файв Тсёти Эйт о смертности от огнестрельного оружия в США.

У визуализации сильный каркас. Не столбики с числом погибших мужчин и женщин, не круги рас, не график с возрастом, а наглядное полотно погибших. Данные без агрегации уложили в ряд по вертикали. Второе измерение (горизонталь) понадобилось из-за ограниченного разрешения глаз. Один столбик столько точек не воспринять. Этим ограничением формат похож на текстовый блок с текучими буквами и словами.

Хорошо выбран минимальный элемент — одна человеческая жизнь. Причины смерти, возраст, пол и раса кодируются цветом. Одна за другой потерянные жизни заполняют полотно, собираясь в группы. В лаборатории этот элемент называют элементарной частицей данных. Похожую частицу взяли авторы видеовизуализации о погибших во Второй мировой. Они оперируют не одной смертью, а тысячью.

В этих работах отличается визуальное кодирование частиц (визуальный атом). Во 2-й работе атом выбран нагляднее — пиктограмма человека. Такое кодирование помогает обойтись без пояснений. Плюс привлекает больше внимания, чем безликие квадратики.

«Смертность от огнестрельного оружия» получила золотую медаль крупнейшего международного конкурса инфографики «Малофей». По-моему, оценка завышена.

Визуализация разбита на 12 шагов. За каждое предложение зритель платит кликом и распознанием обучающих элементов. Я выделил не относящиеся к делу элементы.

Есть режим с фильтрами. Но в нём погибшие теряют исходные цвета и расположение, что затрудняет сравнение.

Моя версия — вариация на тему, потому что я не знаю задачи авторов. Свою сформулировал так: «как сделать сравнение выборок интересным и увлечь больше зрителей?»

Сначала я меняю визуальный атом с квадратика на сердечко — оно символизирует потерянную жизнь. Показываю все данные сразу. Обучение и шаги больше не нужны.

Потом меняю работу фильтров так, чтобы всегда было видно причины смерти в выборке и состав оставшейся части. Использую силу каркаса: как не настраивай выборки, число погибших останется, поменяются только цвета. Так почему бы не покрасить точки антивыборки, повысив информативность? Например, 1) разделили по полу, 2) потом выбрали «белых» старше 35 лет, 3) убрали деление по полу:

Получается, один жест настаивает несколько выборок, которые интереснее сравнивать.

Следующий разбор — в июле. Ещё хотел позвать на курс «Визуализация данных», который начнётся в субботу, но оказалось, что мест уже нет.

2017   визуализация данных   разбор

Разбор графиков с реальными объектами

В этот раз снова посмотрим на приём.

Работа Кевина Квили и Марго Сенгер-Кац для Нью-Йорк Таймс о пользе продуктов с точки зрения американцев и диетологов

Первыми распознаются продукты, которые заменяют точки на графике. Изображения реальных объектов быстро увлекают зрителя. Если на их месте будут цветные точки с легендой около графика, разглядывать станет скучно. В целом легенды вредны. Они заставляют зрителя держать в голове лишние соответствия. Если зритель забыл, что кодирует красный кружок, он вынужден возвращаться к легенде. Переключение внимания между содержанием и расшифровкой лишняя когнитивная нагрузка. В примере ниже понятно, что бургер — это бургер без лишних элементов.

Теперь, когда хлопья нас увлекли, интересно разобрать каркас — основу графика.
У него две оси:

  • по иксу отложен процент всех американцев, которые считают, что продукт полезен,
  • по игреку — процент диетологов, которые считают, что продукт полезен.

Сырые данные в таблице пришли бы в трёх колонках: продукты, мнение всех, мнение диетологов. В строках 1-й колонки — продукт, во 2-й и 3-й — оценки. И глядя на эту таблицу не всегда приходит в голову, что один и тот же параметр — оценки — можно разместить на перпендикулярных осях. Кажется, что их нужно ставить столбиками рядом.

Через весь график под 45° проходит пунктир. Он хорошо ложится в основной сценарий изучения. Все продукты делятся на три большие группы: американцы недооценивают пользу, переоценивают и видят её такой же, как диетологи. Пунктир как раз делит график на эти три группы: выше пунктира лежат недооценённые продукты, ниже — переоценённые, и на самом пунктире — с одинаковой оценкой. Если размыть все продукты в одно пятно, оно будет идти вдоль 45-градусной линии — оценки расходятся, но не сильно.

Поскольку оценки в процентах, икс и игрек получаются одной длины. А вся площадь графика делится на квадратики. Они упрощают поиск значений для конкретного продукта.

Меня удивило кокосовое масло, я, как и все американцы считал, что оно полезнее, чем считают эксперты. А попкорн, наоборот, специалисты считают полезней, чем все американцы, я думал он будет сильно ближе к левому нижнему углу.

График соотношения массы мозга и тела, который переоформил Эдвард Тафти для своей книги «Beautiful Evidence»

Тафти пишет, о пропорциональности объектов, обнажая побочный эффект: размеры объектов на графике могут не соотноситься с реальными. В идеале использовать пропорциональные объекты, особенно там, где важны физические характеристики объектов.

Визуализация характеристик танков из игры «Ворлд оф тенкс», которую сделали в Лабораторнии данных

В этом примере как раз соблюдены пропорции танков. Ещё примечательно, что информацию могут нести не только сами объекты, но и их части:

«Истории флагов» датского агентства «Фердио»

Приём с трудом подойдёт для сложных и плотных данных, из-за сложной формы объектов. Но если у объектов формы простых геометрических фигур, их можно собирать в графики достаточно плотно:

Диаграмма длиннейших рек и высочайших гор 1854 года

Тут автор идёт дальше и собирает из объектов столбчатые диаграммы, подчёркивая их природу:

Работа Тима Меко, Денисе Лу, Лазаро Гамио и Криса Алкантары для Вашингтон Пост о олимпийском инвентаре

Чтобы показать соотношения объектов, авторы используют прокрутку. Периодически напоминая о масштабе шкалами и объектами из повседневной жизни — коробкой с пиццей или самолётом:

Концентрирую: изображения реальных объектов делают визуализации увлекательнее и информативнее.

Предлагаю собрать в комментариях объекты и их свойства, которым под силу представлять самих себя. Я начну:

  • техника (размер, размер и форма видимых деталей),
  • деревья (высота, форма кроны, размер и форма листьев),
  • мебель (размер и форма),
  • смартфоны (размер, диагональ экрана),
  • здания (высота, форма, площадь фундамента, площадь остекления фасада)...

Следующий разбор — в мае, если успею.

P. S. Читайте Таню Бибикову о визуальных атомах: 1-я часть, 2-я и 3-я.

2017   визуализация данных   разбор
2017   визуализация данных
Ранее Ctrl + ↓