Вопросы репрезентативности

Репрезентативно ли?

Вопросы о том, насколько совокупность пользователей сети «ВКонтакте» является репрезентативной выборкой из населения России, возникают регулярно. Короткий ответ на эти вопросы — ни насколько не является. Вероятность быть зарегистрированным пользователем «ВКонтакте», по-видимому, зависит не только от места проживания (как видно из карты Доля пользователей от населения), но и от возраста, пола, уровня образования, и, по-видимому, других не вполне идентифицируемых факторов.

В силу сказанного, любые выводы, которые делаются по данным о пользователях «ВКонтакте», либо относятся именно к совокупности «пользователи сети «ВКонтакте», либо являются индикаторами некоторого явления — если что-то проявилось в данных, есть некоторые основания полагать, что это что-то существует. Вместе с тем, соблюдая должную аккуратность можно выводить из имеющихся данных и какие-то количественные суждения. Чаще всего это удается сделать для более узких (территориальных или, например, возрастных) групп, нежели вся совокупность жителей России. Даже эти суждения будут ограничены в своей достоверности и точности, но часто это лучше, чем ничего.

Чем мерить репрезентативность?

Как можно показать репрезентативность выборки? Вряд ли можно привести какие-то строгие доказательства того, что все люди из какой-то территориальной или возрастной группы имеют равные шансы быть зарегистрированными в сети «ВКонтакте». Поэтому мы можем оперировать косвенными аргументами, сравнивая, например распределение по полу в выборке и в генеральной совокупности. В таком случае на вопрос о репрезентативности мы можем получить либо громкое «нет», если соотношение полов различается кардинально, либо тихое «возможно», если колебания можно объяснить случайностью выборки.

Для оценки репрезентативности пользователей «ВКонтакте» относительно населения России, мы будем сопоставлять данные с результатами переписи населения России 2010 года. Отметим, что само по себе такое сопоставление уже вносит некоторую неточность, поскольку за период между проведением переписи населения (2010 г.) и переписи пользователей «ВКонтакте» (2015 г.) некоторые пользователи могли переместиться между субъектами федерации. Однако доля переместившихся за все время, судя по собранным данным о пользователях, не превышает 10%, и для целей предварительных оценок можно пренебречь этими колебаниями, тем более, что, во-первых, далеко не все перемещения приходятся на период 2010-15гг., а, во-вторых, некоторые пользователи могли просто не оставить указаний на свое текущее место прибывания, что, в любом случае, вносит некоторые неконтролируемые погрешности в наши оценки.

Как видно из карты «Безвозрастное» население, существенная часть пользователей предпочитает скрывать на своей странице возраст, поэтому оценка репрезентативности по возрастным группам охватывает заведомо не всех пользователей. Вместе с тем, в первом приближении нет никаких априорных оснований для предположения, что в какой-то возрастной когорте год рождения скрывают чаще, чем в других.

Сопоставление населения и пользователей с территориальной группировкой по субъектам федерации заведомо вносит погрешности для Москвы и Санкт-Петербурга (как видно из карты Доля пользователей от населения), однако в большинстве случаев такое сопоставление представляется допустимым, особенно для предварительных оценок. Сопоставление данных о пользователях с переписью населения России приведено в динамической таблице ниже.

Таблица сопоставления

Для каждой возрастной когорты приведено количество пользователей сети «ВКонтакте» и жителей России с разбивкой по полу, а также доли пользователей и жителей разного пола в пересчете на 100 человек. Как будет показано ниже, выборка в 100 человек зачастую позволяет делать более «грубые» с точки зрения точности, но существенно более достоверные суждения. Вероятность, позволяющая оценить степень достоверности, приведена в последнем столбце.

на 100 человек
Возрастная когорта«ВКонтакте»переписьДоля «ВКонтакте»переписьВер-ть, %
МЖИтогоМЖИтогоМЖМЖ

О чем не молчат цифры

Тривиальное наблюдение, вытекающее из представленных таблиц — в более старших возрастных когортах доля пользователей в населении падает. Само по себе это наблюдение интереса практически не представляет, однако вычисленные доли можно использовать для того, чтобы «взвешивать» другие показатели при количественных оценках. Если же говорить о репрезентативности, то различные доли в разных возрастных группах практически гарантируют, что объединение пользователей нескольких возрастных групп будет нерепрезентативным — в нем будут преобладать молодежь. Таким образом, на вопрос о том, можно ли выносить достоверные суждения о нескольких возрастных группах населения, используя данные о пользователях в соответствующих возрастных группах, ответ — нет.

Второе, более сложное наблюдение, касается соблюдения в возрастных когортах пользователей половой структуры, характерной для половой структуры населения. Таковое соблюдение, если оно выявлено, может служить аргументом в пользу того, что выборка пользователей в данной возрастной когорте является репрезентативной для соответствующей когорты населения. Однако практически всегда оказывается, что это не так. Проверка показывает, что разбиение пользователей по полу в каждой возрастной когорте не совпадает с пропорциями мужчин и женщин в соответствующей когорте населения. А именно, вероятность того, что отклонения в соотношении полов вызваны случайными колебаниями выборки, оказывается близкой к нулю (ее можно вычислить, используя критерий хи-квадрат).

Вместе с тем, говорить о полном несоответствии половой структуры в возрастных когортах не приходится. Рассматривая случайную выборку в 100 человек из пользователей «ВКонтакте» и сопоставляя ее с ожидаемыми значениями распределения по полу, вычисленными по переписи населения, можно обнаружить достаточно высокую степень соответствия во многих возрастных когортах. Вероятность, вычисленная в последнем столбце таблицы, выражает шансы получить при равномерной выборке 100 человек из населения такое же или еще более отклоняющееся соотношение полов такое же как при выборке 100 пользователей сети «ВКонтакте» (это — p-значение).

В тех случаях, когда эта вероятность близка к нулю (например, менее 5%), можно говорить о том, что данные в соответствующей когорте нерепрезентаитивны хотя бы потому, что в них статистически значимо нарушено соотношение полов. Однако во многих случаях эта вероятность оказывается достаточно высокой, а порой оказывается вообще равной 100%. Эти значения вероятности — ответ «возможно», на вопрос о репрезентативности.

Является ли высокая вероятность в последнем столбце таблицы гарантией репрезентативности? Нет. Какое значение вероятности можно считать достаточно большим? Традиционно 5% считается достаточно малым, чтобы признать что-то нерепрезентативным, но можно ли считать все остальное репрезентативным, вопрос дискуссионный.

Сто случайных пользователей

Практическим следствием наблюдения о выборке в 100 человек является то, что именно подобный объем выборки имеет смысл использовать при нахождении доверительных интервалов статистических оценок, получаемых о населении по данным о пользователях «ВКонтакте». Меньшие выборки приводят к более широким доверительными интервалам, и, как следствие, меньшей точности оценок. Иначе говоря, данные «ВКонтакте» в рамках отдельной возрастной группы имеют некоторые «перекосы» в половой структуре, однако этими перекосами можно пренебречь, если пожертвовать точностью оценок.

В действительности, нет необходимости специально выбирать сто случайных пользователей в когорте, чтобы сделать какое-то количественное суждение по данным о пользователях. Достаточно понимать, что точность сделанного суждения будет такая же, как у суждения по 100 случайным пользователям. Более того, само число 100 не является какой-то важной константой, оно выбрано исключительно из соображений удобства изложения. Во многих случаях его можно увеличить, не превращая при этом выборку в заведомо нерепрезентативную.

Размер выборки, по которой мы делаем суждение влияет на точность суждения, потому что используется при вычислении доверительного интервала. Если по данным «ВКонтакте» получена оценка p для доли пользователей, обладающих некоторым признаком, и выборка в N человек нами считается репрезентативной, то, используя нормальную аппроксимацию биномиального распределения, можно получить, например, что с вероятностью 95% истинное значение доли лежит в диапазоне p±1,6449 (p(1-p)/N)1/2.

Пример оценки

Рассмотрим применение изложенных выше соображений для получения количественных оценок по данным о пользователях. Таблица для Красноярского края показывает, что во всех возрастных когортах вплоть до 44 лет выборка в 100 пользователей имеет p-значение не ниже 42%, что позволяет принять допущение о репрезентативности такой выборки из данных «ВКонтакте» в каждой из этих когорт по отдельности. Отметим, что когорты в таблице приведены для 2010 года, а в 2015 они «сдвинутся» на 5 лет, т.е. на одну позицию, но для дальнейших рассуждений это не слишком существенно.

Из карты возрастной структуры пользователей получаем, что общее количество пользователей в Красноярском крае в возрасте от 14 до 24 лет составляет 254 963 человека. По карте Охота к перемене мест можно определить, что всего в этой когорте в Красноярском крае меняло место жительства 15 603 пользователей. Таким образом, долю приезжих в населенных пунктах Красноярского края можно оценить по данным о пользователях «ВКонтакте» примерно в (15603/254963)×100% = 6%. Точность этой оценки, согласно приведенной выше формуле, с вероятностью 95% составляет ±1,6449 (0,06×(1-0,06)/100)1/2 = ±3%.

Сама совокупность прибывших оказывается достаточно малой, а при попытке выделить в ней группы прибывших из разных регионов, мы начнем оперировать величинами, находящимися в пределах статистической погрешности (особенно с учетом того, что большинство прибывших, как следует из карты Откуда понаехали? — внутренние мигранты внутри Красноярского края). Выходом из этой ситуации является рассмотрение отдельно совокупности прибывших внутри множества всех жителей Красноярского края. В допущении, что исходная выборка репрезентативна, при сужении совокупности и соответствующем сужении выборки новая выборка также репрезентативна.

По карте Направления миграций можно установить, что из Иркутской области в Красноярский край переехало 540 пользователей в когорте 14-24 года. Тогда долю жителей Иркутской области среди приезжих в Красноярском крае по данным «ВКонтакте» можно оценить в (540/15604)×100% = 3%, а точность такой оценки с вероятностью 95% составит ±1,6449 (0,03×(1-0,03)/100)1/2 = ±2%.

Аналогичным образом можно оценить долю приезжих из Иркутской области, сузив рассматриваемую совокупность до межрегиональных мигрантов. По карте Возвращение блудных можно определить, что число пользователей, совершивших переезд внутри Красноярского края в когорте 14-24 года, составляет 7 185, и, следовательно, приезжих из других регионов 8 419. Тогда доля приезжих из Иркутской области составит (540/8149)×100% = 6% с точностью ±3%.

Как уже упоминалось выше, количественные оценки для когорт с разной долей представленности «ВКонтакте» могут быть получены путем «взвешивания» результатов. Продемонстрируем это также на примере. Из уже упомянутых карт можно выяснить, что в возрастной когорте 25-34 года в Красноярском крае имеется 251 623 пользователя, из которых 24 442 когда-либо меняли место жительства. Таким образом доля приезжих в этой возрастной когорте составляет (24442/251623)×100% = 9%.

По приведенной выше таблице для Красноярского края можно вычислить, что в когорте 15-24 года доля пользователей составляет 0,67 от числа жителей, а в когорте 25-34 года составляет 0,31.

Для оценки доли приезжих в когорте 14-34 года, являющейся объединением двух когорт, надо взять средневзвешенное от долей в каждой когорте. В качестве весов выступят обратные величины к доле пользователей от числа жителей (т.е. 1/0,67 и 1/0,31):

(6% × 1/0,67 + 9% × 1/0,31)/(1/0,67 + 1/0,31) = 8%.

Границы доверительного интервала в этом случае также вычисляются как средневзвешенные.