Сообщения

Сообщения за июль, 2018

Выгрузка данных через Google Analytics API с заданным процентом случайной выборки (семплирования)

Изображение
Иногда работая с большими данными на медленных компьютерах хочется по методу прогрессивного jpeg'a быстро получать ответы регулируя при этом процент выборки для изменения точности. Например, нужно посчитать пересечение аудиторий, данные о которых хранятся в разных ресурсах Google Analytics и понять, эта цифра ближе к 10% или к 90%? При этом не хочется выгружать полные данные и долго ждать точных вычислений. В таком случае, хотелось бы выгрузить какой-то процент случайных ClientID из обоих ресурсов и посчитать пересечение на этой выборке данных. Такой подход основан на методе Монте-Карло , который часто можно встретить для решения и других задач из разных областей. Возвращаясь к вопросу выгрузки данных из Google Analytics с заданным процентом выборки (семплирования) на помощь приходит малоизвестный параметр Google Analytics —  userBucket .  По умолчанию, в Google Analytics этот параметр случайным образом заполняется целым числом от 1 до 100. Это значит, что по этому параметру мо