5 вещей, которые чуть не убили антиспам
Доклад отклонён
Целевая аудитория
Тезисы
5 вещей, которые чуть не убили антиспам
Введение: проект антиспам от Билайна родился в декабре 2021 года для того, чтобы защищать наших абонентов от голосового спама, который уже стал сильно раздражать, при этом не сбавляя темпы роста
В докладе я не планирую рассказать о сути продукта, процессе обучения нашей ML модели и тонкостях сбора обратной связи. Но хочется поделиться тем, с какими трудностями мы столкнулись и как мы их решали. Думаю, это будет интересно и с точки зрения обмена опытом, и с точки зрения развенчивания мифов о проекта формата «на 1 день данные собрали, на 2 день обучили, на 3 запустили»
Кейс 1. Данные
У нас были супер разрозненные данные в виде транзакций из разных источников (разные части мобильной и фиксированной сети)
- часть звонков уникальна, часть присутствует в обоих источниках
- разные таймзоные и правила на разных коммутаторах
- звонки могут лежать в разных партициях
- разные виды записи номеров
Кейс 2. Обучающая выборка
Сбор обучающей выборки для построения модели был очень не простым. Помимо того, что понятие «спамера» растяжимо, о чем мы отдельно поговорим в следующем кейсе, и помимо того, что получить достоверные номера в нужном количестве (100к+ номеров) и так затруднительно, было еще сложности:
•Надо искать руками периоды активности спамеров
•Не по всем номерам мы видим достаточно трафика
•Этот процесс должен быть постоянный,
а не разовый
Кейс 3. Формализация терминов
Понятие «спамер» очень растяжимо, и есть многие кейсы, когда вынести решение «блокировать или нет» не так просто
Помимо классических спамеров в мире существуют
•Белые спамеры: организации, у которых много ПОЛЕЗНЫХ звонков (различные клиентские службы)
•Курьеры, таксисты, доставщики
•Те, кого нельзя блокировать по закону: государственные службы, коллекторы и так далее
•Различные m2m устройства, которые нужны для технических функций
Кейс 4. Задержка источников
В какой-то момент мы поняли, что из-за задержки в данных мы стали пропускать очень много трафика от новорожденных спамеров. Для этого мы помимо основной модели сделали:
- горячую модель на быстром источнике, но не по всему трафику. Задержка - 1 сутки
- Триггеры на сбор обратной связи по новым активным номерам. Задержка - десятки минут
Кейс 5. Мы сильно влияем на спамеров
Так как мы начали блокировать звонки от некоторых номеров, это начало искажать их фичи. Вследствие этого, они в какой-то момент перестанут детектироваться моделью и снова их звонки будут проходить. И так же блокирую спамеров, мы сами же обрезаем необходимые для переобучения единички (спамеры)
Итого:
Рассказать будет состоять из приветствия, введения, рассказа о вышеперечисленных кейсах и заключения
Дмитрий Иванов, 25 лет, билайн
Аналитика данных для внутренних проектов
Вымпелком - ИТ