Сотрудники лаборатории искусственного интеллекта Института систем информатики им. А. П. Ершова СО РАН создали программу, способную с высокой точностью распознавать запрещенное содержание сайтов, даже если оно завуалировано. Программа умеет не только отфильтровывать нейтральную информацию от опасной, но и обосновывать свои выводы.
Ученые из ИСИ СО РАН придумали действенный способ обнаружения в интернете информации, связанной с распространением наркотиков. Они объединили нейронные сети с методами экспертов (лингвистов и специалистов по машинному обучению). Дело в том, что нейросети ищут определенный контент по словам: они взвешивают данные и определяют вероятность того, что этот сайт содержит запрещенную информацию. Программа, которую разработали в институте, интегрирует нейросети с моделями, основанными на знаниях экспертов по искусственному интеллекту. Полученный инструмент — плагин на платформе WordPress — проверяет информацию, отфильтровывает нелегальный контент и объясняет, почему счел его таковым.
«Идея проекта в том, что современные методы типа машинного обучения или нейронных сетей плохо справляются с поиском запрещенного контента. Злоумышленники могут использовать сленг при продаже наркотиков. Они называют их совершенно обычными словами, такими как “молоко” или “корова”. Если блокировать эти слова, то будет заблокировано слишком много сайтов. Еще одна трудность — часто сообщения о продаже наркотиков размещаются на сайтах совершенно обычной тематики, например в комментариях к новостям», — поясняет старший научный сотрудник лаборатории искусственного интеллекта ИСИ СО РАН кандидат физико-математических наук Елена Анатольевна Сидорова.
Обработка сайта происходит так: сначала программа анализирует структуру, затем с помощью словаря проводится лингвистический анализ содержания, исходя из чего оценивается, связан ли текст с темой наркотиков. «Одно сообщение на веб-странице может содержать ссылку на другое, и эти цепочки помогают постоянно проверять подозрительную лексику и пополнять базу. Для обновления словаря названий наркотических средств также привлекались эксперты-наркологи, которые знают этот сленг», — рассказывает Елена Сидорова.
Продукт можно поставить на сервер, и он будет сканировать сайты по расписанию. «Это уже работающее и эффективное решение. В то время как методы машинного обучения определяют нелегальное содержание с точностью около 70 %, нам удалось добиться точности выявления в 86 % случаев. При этом почти 99,4 % нейтральных сайтов наш метод не относит к нежелательным — важно было сделать так, чтобы безопасные сайты не блокировались по ошибке», — отмечает Елена Сидорова.
Так как ответственность за размещение незаконного контента несут провайдеры, то в первую очередь программа ориентирована на них, но также ее может применять Роскомнадзор и даже обычные пользователи.
- Войдите или зарегистрируйтесь, чтобы отправлять комментарии