Олег Наумов

До Нового Года осталось полтора месяца! А это значит, что совсем скоро многие будут наряжать елку. Поэтому я решил найти и проанализировать данные о том, какого типа елки россияне предпочитают больше.

Датасет

Описание

Для хакатона в первую очередь хотелось подобрать трендовую тему, о которой слышали многие и статистика по которой была бы интересна. Первое, что пришло в голову, конечно же, коронавирус, карантин, а затем выборы президента в Америке. Но вирус уже всем порядком надоел, а выборами интересовались далеко не все. Но что точно знакомо каждому и чего ждут каждый раз – это Новый год, тем более что до него осталось совсем немного времени. Новый год – семейный праздник, имеющий свои традиции, среди которых и украшение елки. На нынешних рынках можно найти ели на любой вкус и цвет: большие и маленькие, зеленые и голубые, искусственные и живые. Натуральные елки имеют непередаваемый аромат хвои, но оставляют много мусора после себя, да и зачастую имеют очень высокий ценник. Искусственные же, в свою очередь, лишены этих минусов, но и очень редко сравнимы с настоящими по свой красоте. Но какие из них предпочитают россияне больше? На мой взгляд, искусственные елки чаще ставят в современных квартирах. Именно это я и решил проверить.

Теперь было необходимо найти нужный датасет. Первыми источниками, которые были проверены, конечно, оказались Kaggle и datasetsearch. Но, к сожалению, поиски ни к чему не привели. Затем было решено просто гуглить нужные слова, словосочетания и фразы, иногда используя специальные символы для уточнения запроса (- для исключения слов из поиска, “ для поиска конкретной фразы).

После нескольких попыток я наткнулся на статью по нужной мне теме (https://www.mos.ru/news/item/67846073/). В ней было представлены результаты опроса «Елочный круговорот» — куда сдавать новогодние елки?», в котором люди давали свои ответы на вопрос «Какая новогодняя елка будет в этом году у вас?». Как и предполагалось, искусственная ель побеждает с большим отрывом. Но этого мне оказалось недостаточно. Раз это результаты опроса, то они, скорее всего, должны быть представлены некими группами: по возрасту, полу и т.п.

К счастью, так и оказалось. Ссылка (https://ag.mos.ru/check/stat?poll_id=6772) в статье вела на сайт результатами, на котором в удобном виде представлена информация о распределении голосов. Ответы можно фильтровать по нескольким критериям, но делать это оказалось не очень удобно, так как при каждом изменении фильтра необходимо было делать новый запрос на сервер и ждать несколько секунд. Тут мне и пришла идея, что было бы неплохо сделать итоговую инфографику, на которой были бы отражены полные результаты голосования.

Следующей задачей стал сбор данных. Сперва была предпринята попытка автоматизировать этот процесс, написав небольшой скрипт с запросами к серверу с данными. Но из-за сложностей, возникших возможно с нехваткой всех необходимых заголовков или данными, передаваемыми в cookies, было принято решение начать собирать данные вручную. Применяя необходимы фильтры, данные обновлялись и заносились в таблицу, в которой колонкам соответствовал тип елки, а строкам – возрастной диапазон.

Значения процентов копировались прямиком из интерфейса страницы, хотя и была возможность взять конкретные значения из раздела «Для разработчиков» браузера, так как я считаю, что проценты в данном случае полностью отражают итоговый результат. В итоге были получены две таблицы (для мужчин и женщин).

После сбора данных необходимо было их визуализировать, чтобы найти возможную интересную зависимость. Для данных целей использовалось ПО под названием Tableau, предоставляющее широкий возможности по анализу данных. После просмотра нескольких возможных диаграмм было принято решение остановится на точечной диаграмме с группировкой по возрастным группам.

К сожалению, построить одновременно две диаграммы, по мужчинам и женщинам, не получилось, но благодаря Tableau построить вторую похожую диаграмму не составило труда. После очередной манипуляции над полученными данными (а именно сортировки категорий елей по их популярности) было замечено, что если соединить точки, то диаграмма отдаленно начинает напоминать саму ель!

Но соединять точки на графике данного типа не совсем логично и только путает при анализе данных, визуализированных на нем. Но идею с елкой уже отпускать было нельзя. Поэтому точки данных превратились в шары или гирлянду (как Вам удобно), украшающие новогодние елку. Для составления итоговой визуализации были использованы 2 составные диаграммы (для мужчин и женщин) и фон, полученный в Photoshop. В итоге удалось уместить 12 графиков на одной диаграмме. На мой взгляд, получилось очень даже красиво и информативно!

Комментарии