17 заметок с тегом

визуализация данных

Разбор визуализации о рынке труда и оцифровке профессий

Пока это самый большой мой разбор. Написать его получилось только по частям, публикуя в телеграм-канале. Соавтор пересланного решения — Роман Бунин, без которого я провозился бы раз в 5 дольше, и не факт, что нашёл бы все удачные ходы.

Предмет разбора

Меня привлекла работа Стива Левина для Аксионс об оцифровке профессий, изменении зарплат и числа рабочих мест в США:

Привлекла внешней простотой, аккуратностью и тем, что в ней легко копаться. Закопавшись, понял, что она иллюстрирует только заголовок «People in highly digitized jobs earn more...» (Люди с высоко оцифрованный работой зарабатывают больше). Это видно из положения оранжевого и фиолетового облаков стрелок. Мне связь зарплаты с оцифровки очевидна, поэтому полез разбираться, что в визуализации ещё интересного.

Визуализация построена на данных исследования Брукингского института. Вместе с отчётом институт опубликовал визуализации. Можно посмотреть на те же данные под другим углом. Тут акцент на степень оцифровки, но совсем не показаны зарплаты:

В формате разбора не успею закопаться в исследование и детали всех визуализаций. Ограничусь работой Стива, то есть срезами оцифровки, зарплат и числа рабочих мест за 2002 и 2016 года. А география, образование, цифровые навыки и прочее останется за скобками.

Устройство и ошибки

Сразу понять, в чём проблема, было сложно, поэтому формально описал устройство визуализации и перечислил ошибки, которые могу легко объяснить и решить.

Сначала — каркас. Тут два измерения со степенными шкалами: икс — средняя годовая зарплата, и игрек — число рабочих мест. Каждая стрелка — профессия. Основание стрелки — зарплата и число мест в 2012-м, остриё — в 2016-м.

Толщина штриха (и размер острия) кодирует число рабочих мест в 2016-м. Число рабочих мест закодировано дважды — положением по игреку и толщиной штриха. Двойное кодирование — рабочее решение, но тут оно выглядит случайностью. Возможно, если толщина штриха будет меняться вслед за изменением числа рабочих месть, падение и рост будут нагляднее.

В таком каркасе может казаться, что видны изменения, а из-за стрелки — ещё и будущий вектор. Но на деле данные только за два года, что происходило между неизвестно, и тем более — что будет в будущем.

Из-за того, что толщина стрелок показывает число рабочих мест, индустрии с больши́м числом рабочих привлекают больше внимания. Не проблема, что визуализация это показывает — это реальность, хирургов меньше, чем фасовщиков. Но в таком представлении искажается восприятие — маленькие стрелки не замечаются, даже при большой зарплате. Спорное решение.

Цвет отвечает за оцифровку профессии на 2016-й, у него три дискретные шага: слабая оцифровка, средняя и сильная. Вижу две проблемы:

  1. Цвета не ассоциативные и неравномерные по насыщенности — бежевый выглядит менее заметным на фоне ярко-оранжевого, кажется, что тут низшая степень оцифровки. В своей версии возьму оранжевый для высоких значений и голубой для низких. Теплота цвета будет отвечать за «температуру» оцифровки.
  2. К дискретности тоже вопросы. Она бывает свойством данных из-за низкой точности оборудования, например. Но в отчёте, на который ссылается визуализация, виден разброс:

В таком случае лучше брать градиент с промежуточными значениями. А если красить вершины стрелки разными цветами, будет видно растёт оцифровка или падает.

Описывая недочёты, я думал, что их исправление улучшит визуализацию. Так сделаны некоторые прошлые разборы. Умозрительно понимал, что исправления не изменит общую картину, поэтому переделал полностью.

Cвой подход

Вспомнил работу Нью-Йорк Таймс о профессиях и соотношении полов на рынке труда среднего класса США в 1980 и 2012. C визуализацией данных тоже помогает насмотрелось, мозг сам вспоминает похожие форматы и структуры данных.

Иду за помощью к Роме, с которым работали в Лаборатории данных. Чтобы пробовать, нужны данные. Нашёл их на странице исследования на сайте Брукингского института:

Дальше устраиваем скайп-сессии и обсуждаем идеи вместе, примеряя в табло. Выделяем две основные гипотезы.

Гипотеза 1.0. Показывать зарплаты графиком наклонов (slope chart) — так называют графики из примера выше. Разбить профессии на группы по одной оси, чтобы упорядочить кашу.

Гипотеза 2.0. Смотрю, какие ещё классифицированные графики работают с похожими «вводными» (блок «Input» справа). Показывать зарплаты горизонтальными гантелями (dumbbell plot).

Гантели не работают. По иксу — зарплата. Вершины гантели — зарплаты за 2002 и 2016 года. Но понять, где какой год не получится, потому что зарплата могла как расти, так падать:

А графики наклонов выглядят перспективно. Тут 2002 всегда слева. Сразу видно, что реальное падение зарплат только у двух профессий — в колонках с номерами 29 и 27:

Проработка

Пробуем для оцифровки градиент насыщенности, но с ним ничего не видно. Поэтому вернёмся к комплементарным цветам.

Оказалось, что в данных группы профессий заданы только цифрами (они и видны в колонках сверху). Нахожу соответствие на сайте Аксионс. Переворачиваем всё на 90°, чтобы нормально читать названия групп. Экспериментируем с цветом.

По иксу — зарплаты, шкала — равномерная. На такой шкале удобно смотреть, насколько быстрее растут ставки высокооплачиваемых специалистов.

А чтобы сравнивать рост ставок удобнее смотреть с логарифмической шкалой. Она показывает процентные изменения:

Логарифмическая шкала нагляднее показыват, что относительно самих себя зарплаты растут более-менее одинаково. Например, одним платят 1000 $, а другим — 5000 $. С инфляцией в США с 2002 по 2016 происходит вот что:

Чтобы труд не дешевел и не дорожал из-за инфляции, зарплаты должны меняться вслед за инфляцией. В 2002-м зарплат в 1000 должна превратиться в 1023,8 (1000×(100+2,38)/100), в 2003-м 1023,8 — в 1043. И так до 1366,4 $ в 2016-м. А зарплата в 5000 за это время превратится в 6832,1 $. В долях это одно и то же, а в долларах 366,4 $ против 1832,1 $.

С логшкалой видно, что зарплаты реагируют на изменения в экономике более-менее одинаково — углы наклонов полосок почти одинаковы. А те случаи, где они отличаются, справедливо привлекают внимание — это профессии, к которым «действительно» стали платить больше или меньше.

Ещё плюс логарифмической шкалы для этой визуализации — данные занимают меньше места по горизонтали.

Подробнее о шкалах читайте у Ромы.

Гипотеза 1.1.0. Агрегировать зарплаты по группам. Идея плохая — теряется куча данных и сглаживаются все аномалии:

Гипотеза 1.2.0. Показывать количество рабочих мест кругами на концах линий. Сначала смотрим на уровне групп. Картина непоказательная:

Гипотеза 1.2.1. Показывать только разницу и оставлять один кружок на том конце линии, который отвечает за год с больши́м числом рабочих мест. Опять не наглядно:

Гипотеза 1.2.2. Может, вместо кружков горизонтальные столбики?

В Табло так не получится. Откладываем идею, но смотрим, что вообще выходит из столбиков. Направление кажется перспективным.

Совмещаем их с заголовками и пробуем красить в зависимости от степени оцифровки. Разноцветные столбики плохо группируются в пары:

Убираем цвет. Сортируем по количеству рабочих мест:

Теперь столбики сливаются в одну массу. Придумываем красить их попарно цветом, который соответствует среднему между оцифровкой 2002-го и 2016-го. Это нечестные данные, потому что в промежуточные года данные были другими. Такие средние в целом не корректно считать, их нет в природе. Но тут оно помогает показать пары. К тому же у нас и так столбики — агрегация до групп, что тоже не очень корректно. В целом столбики показывают как дела на макроуровне, поэтому оставляем. Добавляем точные значения и подкручиваем цвета:

Чистовая вёрстка

Объясняю как устроена строка на примере первой группы. Рисую переключатель сортировки и поиск, который на деле был бы выпадающим списком с фильтром по введённым буквам:

Переворачиваю таблицу в подсказке, которую видно при наведении на линию. В оригинале значения для разных лет стоят в строке, а сравнивать цифры удобнее в столбиках:

Гипотеза 1.2.1.1. Возвращаемся к идее показывать на одном из концов линии кружок, который покажет разницу в числе рабочих мест и год, когда было больше. Добавляю кружки и легенду к ним. Кружки выглядят неубедительно, а легенду сложно читать.

Снова разбираемся с данными. Оказалось, что неправильно посчитали разницу. А спустя 2-3 попытки понимаем, что показывать разницу в процентах — плохая идея. Проценты считаются от исходного значения. Было 1000 мест, стало — 1100, это +10%. Если было 1100, а стало — 1000, это −9,1%. Количество мест одинаковое, а процентное изменение разное. Сравнивать такое некорректно. Вместо процентов, берём разы. Исхожу из того, что интересуют профессии, в которых были значительные изменения, поэтому предлагаю показывать кружок, только если изменение больше, чем в 1,5 раза.

Финальный макет, к которому мы пришли через последовательные ответы на четыре основных вопроса и проверкой минимум по два варианта для каждого вопроса.

Рома выложил прототип в Табло. Помимо описанного, там есть разбивка по образованию:

16 октября   визуализация данных   разбор   рынок труда

Направления улиц

Джефф Боинг визуализировал направления улиц в 25 городах мира и в 25 городах США в виде круговых гистограмм.

С такими графиками выбрать, куда поехать, гораздо проще. Чем больше заполнен круг, тем больше разных направлений улиц и тем интереснее прогулка по такому городу. Рим выглядит интересным, а Пекин не очень. Мадрид выглядит интереснее Барселоны.

Города в США в целом скучные, выделяются Бостон и Шарлотт из Северной Каролины.

Конечно, гистограммы не гарантия, а ещё один срез, помогающий принять решение. Хочу видеть такие круги на всех сайтах о путешествиях, в крайнем случае — в Википедии.

Добавленно позже. Медуза делала графики на том же движке для российских городов. Но поместила в раздел «Шапито» — что у них в головах?

16 августа   визуализация данных   гистограмма   город   улицы

История торгового баланс США

Мэтт Стайлз визуализировал торговый баланс США. Последними идут мини-графики, которые показывают отношения с 49 другими странами с 2008 по 2017:

Смотрите сколько интересного в этих пятистах столбиках. Развитие отношений и изменения в экономике. Например, снижение импорта из России после 2015. С Ираком в том же году тоже — проблемы. Предположу, что рост импорта из Норвегии в 2015 вырос, компенсируя нехватку нефти.

США потребляет больше остальных стран. Поэтому предположил бы, что у стран, которые покупают у США больше, чем продают, не так хорошо с экономикой — им нечего предложить тем, кто покупает всё. Такие балансы c Гватемалой и Доминиканской Республикой удивляют меньше, чем с Нидерландами, Бельгией и Турцией. А ОАЭ до этого, похоже, нет дела.

Баланс с Великобританией выглядит так, будто британцы внимательно смотрят на такие графики и держит руку на пульсе.

Эти размышления суперненаучны, даже близко. Просто такой досуг иногда случается. И заодно способ познания. Что там у Малайзии? Википедия рассказывает, что, помимо прочего, они поставляют в США оптические и медицинские инструменты. Возможно, поэтому главный импортер Малайзии — Япония.

2018   визуализация данных   досуг   ход мысли

Визуализация данных развлекает

Делал сравнительную таблицу для моделей аэротруб. Типа такой:

И получалась она монотонной, не было желания изучать. С одной стороны, проблемы тут нет, потому что задача «сравнить», предполагает, что человек хочет выбрать, потребность уже сформировалась, увлекать его необязательно. А с другой — было интересно, можно ли сделать визуально разнообразнее без ущерба для вдумчивого сравнения.

Можно нарисовать иконок или закодировать всё разными цветами. Но мне эти варианты не давали покоя. Помогла визуализация данных. Простые кружочки и прямоугольники в одном масштабе — и таблица стала менее однородной, а сравнение более наглядным.

Отельный вызов, который не победил — расположение параметров не в строках, а в столбцах. Цифры удобнее сравнивать, когда они друг под другом — в столбцах и выровнены по разрядам. Тогда в строках будут модели. Само по себе оно несложно, но на веб-странице с заливающими заголовками моделей и адаптацией под разные экраны становится сложно.

2018   визуализация данных   интерес

Что почитать про инфографику и какой софт нужно изучать

Борис Веркс спрашивает:

Подруга-ученый спрашивает, что почитать про инфографику и какой софт нужно изучать. Посоветовал Тафти, но, очевидно, нужно и что-то более быстрое. Посоветуй, пожалуйста :-)

Попробую помочь.

У меня с инфографикой беда, писал об этом в заметке «Главное различие визуализации данных и инфографики»:

Визуализация данных и инфографика — это разные вещи. Слова говорят сами за себя, если задуматься. Инфографика — это информационная графика. Графикой иллюстрируют, оформляют и развлекают. «Информационная» тут характеристика, свойство. А визуализация — это отображение, представление чего-то. Это «что-то» — контекст, определяющий о чём речь. Получается, что тут главное — данные. Графика и данные — чувствуете разницу? :—)

И в «Главное различие визуализации данных и инфографики»:

Визуализация данных — инструмент анализа. Она помогает делать выводы. (Поэтому так важно снабжать её органами управления, превращать в интерфейс.)

А инфографика — готовые выводы. Оформленные и структурированные показатели и закономерности.

Из этого следует, что визуализация подходит «анализирующей» аудитории, а инфографика — любой (охват второй шире).

Метафора для закрепления: визуализация — топор, инфографика — дрова.

Как делать инфографику я не особо знаю. Чтобы ответить, заменю её на «визуализацию данных» — учёным должно быть полезнее.

Для меня это комплексная дисциплина. Состоит:
1) из графдизайна и вёрстки с типографикой в небольшой степени,
2) интерфейсов,
3) организации и кодирования элементов, чтобы их можно было сравнивать,
4) и немного статистики и анализа, чтобы, например, понимать, какие данные опустить, чтобы не потерять смысл и улучшить читаемость.

Для первых двух подойдёт всё базовое (Мюллер-Брокман, Чихольд, Харровер, Норман, Раскин и прочие). Тафти я тоже отношу к графдизайну и вёрстке частично.

Для третьего пункта полезно понимать, что это просто сравнение. Если все объекты одинаково значимые, визуализация мало что даст. Книг на эту тему, кроме Тафти, я не знаю, увы. Посоветую серию статей, которые писала Таня Бибикова об алгоритме Δλ. Плюс расшифровку мастер-класса на Хабре, там есть классная сводная таблица:

Ещё тут могут помочь гештальт принципы (и другое из психологии о восприятии зримых образов). Вот заметка Жени Арутюнова восприятии, чтобы понять, о чём это вообще.

Для с четвёртого пунктом у меня совсем туго, лучше у Ромы спросить.

Инструменты вроде все знают. Приложение «Табло», в нём можно почти всё посмотреть, для анализа, который проводят учёные его может хватить с запасом. Но в нём не сделать «красивую» визуализацию для статьи в Нью-Йорк Тамс. Для тех, кто пишет код, может быть интереснее D3.js, на нём можно всё, что захочешь. Ещё знаю о языке R, но на практике не сталкивался.

2018   визуализация данных   инфографика   ответ
Ранее Ctrl + ↓