Data Sketches — как съесть слона целиком (даже если он бесконечный)
Доклад принят в программу конференции
Целевая аудитория
Тезисы
При обработке и анализе данных часто возникают задачи, которые сложно масштабировать из-за огромного количества требуемых вычислительных ресурсов или значительного количества времени для получения точных результатов. Примеры таких задач — подсчет уникальных элементов, подсчет распределения элементов, определение частоты тех или иных элементов и т. д.
Если приблизительные результаты при решении подобных задач допустимы, то существует класс алгоритмов, называемых потоковыми или скетчами, которые позволяют получить результат (в заданных пределах погрешности) на несколько порядков быстрее. В случае пакетной обработки данных, жизнеспособных альтернатив часто может и не быть, а в случае потоковой обработки данных скетчи — единственное известное жизнеспособное решение.
Дата-скетчи (HyperLogLog, CPC, Theta, Count-min, Fdt, KLL и др.) могут стать отличным инструментом для всех, кому необходимо извлекать полезную информацию из больших объемов данных на ежедневной основе, используя приемлемое количество времени и ресурсов.
Любит технологии и простые решения непростых задач.
Любит технологии и простые решения непростых задач. Почти 15 лет занимается вопросами сбора и обработки данных. В прошлом — Head of Data RnD-подразделения крупного банка, а также сооснователь и CTO стартапа по сбору, обработке и анализу пользовательских данных (Customer Data Platform).
Arenadata
Видео
Другие доклады секции
BigData и машинное обучение