Все кейсы
Логотип How2AI
EdTech / Медиа How2AI

ИИ-модератор для Telegram-канала How2AI — 100% явного спама, 92% контекстного

Контекстная модерация без false-positive. Снижение нагрузки на админов в 10 раз. Прозрачные логи.

Главная метрика
100/92%
явный спам / контекстный спам · 6 месяцев работы
Стек
Claude (Anthropic)GPT-4 (контекстная проверка)n8nTelegram Bot API
Проблема

Telegram-канал How2AI с активным комьюнити получал ~30 спам-сообщений в день: реклама, фишинг, ботнеты, завуалированная реклама в виде вопросов. Ручная модерация не успевала, репутация канала страдала, пользователи кликали по фишинговым ссылкам до того, как админы успевали удалить.

Решение

Двухслойный ИИ-модератор. Первый слой — Claude — отличает явный спам (реклама, ссылки, фишинг) и баннит мгновенно. Второй слой — GPT-4 с context-aware-проверкой — анализирует подозрительные сообщения в контексте разговора: реклама ли это или нормальный вопрос с примером? Подозрительные сообщения — в очередь админам на проверку. Все решения логируются.

Результат · 6 месяцев непрерывной работы
  • Явный спам (реклама, ссылки, фишинг): отлов 100% за 6 месяцев
  • Контекстный спам (завуалированная реклама): отлов ~92% (8% — false-negative)
  • Спам-сообщений в публичном канале: ~30/день → 0–2/день
  • Нагрузка на админов на модерацию: −10× по времени
  • Прозрачные логи — каждое решение можно проверить и оспорить
Ограничения · честный disclosure

~3% false-positive по сложным сообщениям с обилием ссылок — попадают в очередь на проверку, а не в моментальный бан. Контекстный спам с тонкой завуалированной рекламой ловим ~92% — для оставшихся 8% требуется итеративная докрутка промптов и базы примеров. Это непрерывный процесс, не «настроил и забыл».

Контекст

How2AI — Telegram-канал с активным комьюнити по теме ИИ. Целевая аудитория — техническая, обсуждения сложные. Спамеры мимикрируют: вместо явной рекламы — «вопрос с примером», где пример — это ссылка на их продукт.

Архитектура

Два слоя классификации, потому что один слой даёт либо много false-positive (бан полезных вопросов), либо пропускает контекстный спам.

  • Слой 1 — Claude Sonnet: дешёвая, быстрая (~1 сек), отлавливает явное: рекламные блоки, фишинг, известные паттерны. Confidence > 0.9 — мгновенный бан.
  • Слой 2 — GPT-4 с контекстом: для сообщений 0.5 < confidence < 0.9 — анализирует в контексте последних 10 сообщений. «Это нормальный вопрос с примером или замаскированная реклама?»
  • Очередь на проверку: если оба слоя не уверены — сообщение остаётся, админ получает уведомление и решает.
  • Логи: все решения в PostgreSQL, каждое можно проверить и оспорить через команду в Telegram.

Метрики

За 6 месяцев непрерывной работы:

  • Явный спам (реклама, ссылки, фишинг): 100% отлов
  • Контекстный спам: ~92% отлов, 8% false-negative
  • Спам в публичном канале: ~30/день → 0–2/день
  • Нагрузка админов на модерацию: −10× по времени

Ограничения

3% false-positive по сложным сообщениям с обилием ссылок — попадают в очередь на проверку, а не в моментальный бан. Это компромисс: либо медленнее (но точнее), либо мгновенный бан с риском задеть полезное сообщение. Выбрали первый путь.

Контекстный спам с тонкой завуалированной рекламой ловим ~92%. Для оставшихся 8% требуется итеративная докрутка промптов и базы примеров — это непрерывный процесс.

Хотите такой же результат?

Расскажите про ваш процесс — оценим за один созвон 15–20 минут, бесплатно.