Финансовая поддержка
Проект интерактивного веб-атласа осуществлен в 2016-17 гг. при финансовой поддержке Всероссийской общественной организации «Русское географическое общество».Техническая поддержка
Сайт размещен на сервере Института прикладной математики им. М.В.Келдыша РАН.Цель проекта
Цель проекта — предоставить широкому кругу людей (в том числе исследователям и студентам) доступ к географически привязанным демографическим данным, полученным путем обработки анкет пользователей социальной сети «ВКонтакте», находящихся в открытом доступе.
Сферы применения
Проект может быть применен в различных сферах. В первую очередь, это материал, открывающий почти незатронутое в России поле вебометрики — собственно виртуального населения России. Гендерные, возрастные, территориальные различия в использовании крупнейшей в стране социальной интернет-сети — проект предлагает исчерпывающий материал для всех этих исследований. Но самое захватывающее, пожалуй, это изучение виртуальной дружбы — по-видимому, это первый в мире масштабный опыт изучения территориальной привязки социальных интернет-сетей, открывающий возможности для развития нового направления исследований виртуальной среды, big data и т.д.
Вторая ключевая сфера применения результатов проекта — это сбор данных для косвенных оценок масштабов и характера происходящих офф-лайн процессов, в первую очередь, миграционных. Разумеется, сеть «ВКонтакте» охватывает преимущественно молодежную аудиторию, и представленные данные репрезентативны для косвенных оценок в первую очередь, явлений, связанных с жизнью молодежи. В частности, официальная статистика не позволяет проводить оценки миграционных потоков в формате «город—город», да и межрегиональная миграция фиксируется переписью только для отдельных лет или направлений. В уже далекие советские годы видный экономико-географ И. М. Маергойз предлагал использовать для заполнения статистических лакун картотеки учетных карточек в отделах кадров предприятий — они действительно позволяли оценить зоны набора кадров в крупные города. На этом фоне современные виртуальные сети предоставляют просто фантастические возможности изучения миграционных процессов на базе агрегированных персональных данных — например, направления и масштабы миграции в целях учебы в конкретных университетских центрах. Но можно изучать не только миграционные процессы: авторы предлагают проследить, например, волны моды на выбор детских имен. Многие социальные явления находят отражение в сети, и проект представляет возможность их косвенного изучения по данным «ВКонтакте» в масштабах страны.
История проекта
Потенциал данных из социальных сетей как материала для научных исследований был продемонстрирован в 2010 году Н. Ю. Замятиной в статье Метод изучения миграций молодежи по данным социальных Интернет-сетей: Томский государственный университет как «центр производства и распределения» человеческого капитала (по данным социальной Интернет-сети «ВКонтакте»). Даже собранная «вручную» информация из анкет пользователей позволила исследовать явления, не находящие отражения в официальной статистике.
Автоматизация обработки анкет пользователей позволила существенно расширить выборки: в работах Н. Ю. Замятиной и А. Д. Яшунского Межрегиональные центры образования и Севера как зона роста российской провинции в 2012 году уже используются массивы данных сформированные из нескольких тысяч анкет.
Другие возможные области применения и способы получения данных описаны в 2014 г. в работе О. А. Чекмышева и А. Д. Яшунского Извлечение и использование данных из электронных социальных сетей. Вместе с тем, техническая сложность получения данных явно делала их труднодостижимыми для большинства исследователей. В 2015 году коллектив авторов начал массовый сбор данных из анкет пользователей социальной сети «ВКонтакте», находящихся в открытом доступе, с целью предоставления результатов этой «переписи» научному сообществу для использования в исследованиях.
Собранный массив данных оказался настолько большим, что его непосредственное использование потребовало бы ничуть не меньших технических навыков, чем, собственно, сбор информации. В связи с этим было принято решение о формировании из общего массива данных отдельных тематических наборов, которые уже можно было бы использовать, не привлекая специальное программное обеспечение. Наборы данных предполагалось опубликовать в виде интерактивного веб-атласа.