Представленные на сайте данные получены в результате обработки анкет пользователей социальной сети «ВКонтакте», находящихся в открытом доступе. Сбор анкет осуществлялся с января по март 2015 года. Из анкет пользователей извлекалась следующая информация:
- имя
- текущее место проживания (город и страна)
- дата рождения
- места и время получения школьного образования
- места и время получения высшего образования
- данные о дружеских связях между пользователями
Населенные пункты, упомянутые в анкетах (места жительства и получения образования), были затем привязаны к административным единицам Российской Федерации (муниципальным районам, городским округам, внутригородским территориям городов федерального значения) с использованием информации о населенных пунктах из социальной сети «ВКонтакте» — текстового описания, обычно содержащего название района, в котором расположен населенный пункт. Привязка осуществлялась путем геокодирования с использованием информации OpenStreetMap. Сформированная таким образом таблица соответствия между населенными пунктами, упоминаемыми в социальной сети «ВКонтакте», и административными единицами была проверена экспертно и при необходимости скорректирована.
В результате привязки населенных пунктов было отобрано около 88 млн анкет пользователей, указавших место жительства (или последнее место учебы, если место жительства не было указано), расположенное на территории Российской Федерации.
По территории Российской Федерации пользователи распределились неравномерно. Более того, вряд ли можно сказать, что пользователи сети «ВКонтакте» полноценно представляют, например, какую-то возрастную группу. У виртуального населения, как оказалось, и своя демография, и своя география населения.
Помимо пользователей, указавших место жительства в России, в некоторых случаях использовалась и информация о пользователях, проживающих в зарубежных странах: в каждом случае это оговорено в описании данных.
В процессе обработки мы отметили множество аномалий в данных, причины которых в некоторых случаях легко установить, а в некоторых случаях требуют отдельного серьезного исследования. Так, например, множество пользователей «ВКонтакте», возраст которых превышает 100 лет, по-видимому, появилось в результате регистрации в сети людей не достигших 14 лет, которые при регистрации выбирали год рождения на 100 лет меньше реального. Мы намеренно отказались от корректировки каких бы то ни было аномалий, потому что очень легко было «выплеснуть с водой ребенка», исправив что-то, что, в действительности аномалией не является. Все данные представлены в том виде, в каком они отражены на страницах пользователей: каждый исследователь, использующий данные, волен сам находить, трактовать и корректировать аномалии. Эмпирические наблюдения свидетельствуют о том, что аномалии в данных чаще всего не мешают идентифицировать действительно массовые явления, которые впоследствии подтверждаются иными источниками.
Базовые таблицы
Собранные данные были сгруппированы в базовые таблицы, из которых затем формировались наборы данных, представленные в виде карт на сайте. Базовые таблицы (как, впрочем, и некоторые наборы данных) могут оказаться слишком громоздкими для обработки в офисных приложениях. Это еще не большие данные, но этих данных уже очень много. Тем не менее, мы даем возможность скачать эти таблицы и использовать в своих исследованиях. Предполагается, что если Вы скачиваете базовые таблицы, Вы знаете, как работать с большими объемами данных. «Делайте с нами, делайте как мы, делайте лучше нас.»
Все использовавшиеся для формирования наборов данных таблицы представлены ниже. Использующиеся в таблицах коды регионов совпадают с кодами ОКТМО соответствующих территориальных единиц без трех последних нулей. Базовые таблицы бывают двух типов: те, в которых данные привязаны к одной территориальной единице, и те, в которых данные привязаны к паре территориальных единиц (характеризующие связи между такими парами). Базовые таблицы предоставляются в виде файла формата csv, к которому прилагаются файлы с описанием содержания таблицы. Все файлы, относящиеся к отдельной таблице, собраны в один zip-архив.
Основная статистика
Базовая статистическая информация о пользователях (пол, год рождения, наличие высшего образования, число различных мест проживания) собрана в таблице Основная статистика по пользователям (2,9 Мб, 835 тыс. строк). Также для сравнения с фактическим населением регионов предоставляется таблица Численность населения по данным Госкомстата на 1 января 2015 года (14 Кб, 2,5 тыс. строк), сформированная в результате обработки данных из Базы данных показателей муниципальных образований.
Имена
Информация об именах пользователей привязывались к территориальным единицам по хронологически первому месту обучения в школе (которое рассматривалось как «приблизительное» место рождения). Различные варианты одного имени стандартизировались, т.е. Саша и Шура превращались в Александра. Всего было отобрано 628 наиболее часто встречающихся имен, все прочие были отнесены в категорию «иное имя» — таковых оказалось чуть более 1%. Имена (16 Мб, 5 153 тыс. строк).
Школьное образование
В категорию школьное образование (в модели социальной сети «ВКонтакте», и, как следствие, в сформированных таблицах) относится любое образование, не являющееся высшим: в частности, автошколы, языковые курсы, танцклассы. Все упомянутые в анкетах пользователей школы были классифицированы на следующие категории:
- детские сады
- общеобразовательные школы
- среднее профессиональное образование
- детское творческое образование
- детское спортивное образование
- детское научное образование
- детское и взрослое дополнительное образование (преимущественно языковые и танцевальные школы)
- взрослое дополнительное образование (в основном, автошколы)
- спецшколы (детские дома и интернаты)
- учреждения неустановленного типа (преимущественно школы за пределами РФ)
Сгруппированные таким образом данные о школьном образовании представлены в двух таблицах: Школьное образование по месту жительства (2,7 Мб, 736 тыс. строк), где географическая привязка осуществляется по текущему месту проживания (или последнему месту учебы, если место проживания не указано), и Школьное образование по месту получения (2,8 Мб, 773 тыс. строк), где географическая привязка осуществляется по месту расположения школы, в которой получен соответствующий вид образования. Во второй таблице один и тот же пользователь может быть учтен несколько раз, если он получал школьное образование в нескольких различных территориальных единицах.
Высшее образование
Специальности высшего образования определялись по факультету (если пользователь его указал) хронологически первого вуза. Все факультеты были классифицированы по следующим категориям:
- экономические
- гуманитарные
- технические
- педагогические
- культуры и спорта
- управления
- медицинские
- естественно-научные
- вымышленные
- иные
Географическая привязка представлена в трех разных вариантах: Специальности высшего образования по месту жительства (2 Мб, 674 тыс. строк), Специальности высшего образования по месту окончания школы (2,1 Мб, 744 тыс. строк), Специальности высшего образования по месту получения (1,7 Мб, 535 тыс. строк). Кроме того, имеется набор данных о парах регионов, где первый регион из пары является местом окончания школы, а второй регион — местом поступления в вуз: Место получения высшего образования (11 Мб, 3 565 тыс. строк).
Последний переезд
Из 88 млн пользователей, информация о которых обрабатывалась, только 9 млн указали более одного места жительства, и лишь около 1 млн указали более двух мест. В связи с этим базовая таблица была сформирована по «последнему» переезду. Для большинства переезжавших это — единственный переезд, если судить по данным, отраженным в анкете. В качестве дополнительной информации о переезде отслеживалось, является ли он «возвращением», т.е. является ли перемещение пользователя из А в Б, в действительности, окончанием траектории Б-А-Б. Данные о последнем переезде собраны в таблице Последний переезд (8,8 Мб, 3 198 тыс. строк) по парам регион-регион, а также для каждой территориальной единицы подсчитано число убывших и прибывших в процессе этого последнего переезда: Количество убывших в рамках последнего переезда (925 Кб, 290 тыс. строк), Количество прибывших в рамках последнего переезда (789 Кб, 254 тыс. строк).
Друзья
Дружеские связи между пользователями представляют собой наиболее объемный массив данных. Даже после отсечения дружеских связей, не имеющих отношения к российским пользователям, их осталось более 1,5 млрд. При этом по нашим оценкам реальное число дружеских связей между пользователями примерно вчетверо больше, потому что не все имеющиеся связи отображаются при просмотре публичной версии анкеты пользователя. При формировании таблиц о дружбе пользователей территориальная привязка осуществлялась по месту жительства (или последнему месту учебы, если место жительства не указано) для российских пользователей и по указанной в анкете стране для зарубежных пользователей. Все данные о дружбе представлены с разбивкой по полу и году рождения дружащих.
Данные о дружбе внутри России сведены в таблице связей регион-регион Межрегиональная дружба (457 Мб, 147 747 тыс. строк). Поскольку дружба является симметричным отношением (т.е. число дружеских связей региона А с регионом Б в точности равно числу связей региона Б с регионом А), в таблице все пары регионов записаны в порядке возрастания кодов регионов. Кроме этой таблицы, имеется также таблица Зарубежные друзья (106 Мб, 25 641 тыс. строк), в которой для каждой территориальной единицы подсчитано число друзей за рубежом с разбивкой по странам (всего учтено 182 страны, коды стран приложены в виде отдельного файла). Наконец, для каждого региона подсчитано число внутрирегиональных и межрегиональных дружеских связей: Число дружеских связей по типу (69 Мб, 17 953 тыс. строк)
Картографическая основа
Для отображения данных на карте была подготовлена картографическая основа в двух вариантах:
- с административным делением Российской Федерации на субъекты федерации
- с административным делением Российской Федерации на муниципальные районы и городские округа (за исключением городов федерального значения)
При подготовке картографической основы использовались данные проекта OpenStreetMap (© Участники OpenStreetMap , ODbL). Предлагаемая картографическая основа (46 Мб) также распространяется по лицензии ODbL.