Проекты

Компьютерная система обработки текста, содержащего нецензурную лексику

Работа победителя конкурса проектов и исследований «Инженеры будущего» открытой городской научно-практической конференции «Инженеры будущего» в секции «Информационные технологии, программирование, прикладная математика, социальный инжиниринг» среди работ учащихся 10–11 классов

Направление работы: Инженеры
Авторы работы: ГБОУ Школа № 1537
Предметы: Информатика
Классы: 10 класс
Мероприятия: Конкурс проектов и исследований «Инженеры будущего» открытой городской научно-практической конференции «Инженеры будущего» 2021 года

Актуальность

Актуальность работы обусловлена принятием нового закона (подписан Президентом РФ 30.12.2020), в соответствии с которым соцсети будут обязаны самостоятельно выявлять и блокировать незаконный контент, к которому относятся и публикации, содержащие нецензурную брань. Употребление ненормативной лексики в России является «действием, образующим состав административного правонарушения».

Цель

Создание компьютерной системы (КС), функционалом которой является анализ текста на предмет выявления и последующего исключения нецензурной лексики. Анализу и корректировке можно подвергнуть текстовый контент из различных источников: социальных сетей, мессенджеров и т.д.

Задачи

Основная задача работы – компьютерная реализация алгоритма, выявляющего и убирающего нецензурную лексику в соответствии с выделенными этапами нормализации слов.

Оснащение и оборудование, использованное при создании работы

  • Персональный компьютер с установленным ПО (Visual Studio, C++)
  • Мобильный телефон

Описание

Методологическую основу разработанных и программно реализованных алгоритмов составляет метод нормализации слов. Алгоритмическая и программная структура компьютерной системы выстроена в соответствии с последовательной реализацией следующих этапов обработки текста:

  1. Токенизация – начальный этап обработки текста, заключающийся в разбиении (разделении) длинных строк текста на слова (от пробела до пробела).
  2. Приведение всех символов к нижнему регистру.
  3. Замена букв на аналогично выглядящие латинские («п» – «n», «и» – «u»).
  4. Удаление внутри каждого слова всех символов, не являющихся буквами русского и английского алфавитов.
  5. Стемминг – процесс нахождения основы слова для заданного исходного слова (на основе реализации алгоритма Стемминга Портера).
  6. Сравнение полученной «нормальной» формы слова с базой нецензурных слов и его замена при совпадении.

В результате программной разработки создана компьютерная система, выявляющая в исходном тексте элементы нецензурной лексики и заменяющая их специально определённым набором символов. Компьютерная система обеспечивает программную реализацию следующих основных команд в графическом оконном интерфейсе:

a) ввод символов в текстовом поле;

b) загрузка файла с текстом;

c) фото, содержащее текст;

d) снимок экрана, сделанный в программе с помощью кнопок.

 

Результаты работы/выводы

Разработанная компьютерная система может найти практическое применение в СМИ и различных интернет-ресурсах. Кроме того, предлагаемая программа может способствовать снижению использования нецензурной лексики в речи молодёжи. В частности, выполненные разработки могут быть использованы в соцсетях для решения указанной проблемы.

Перспективы использования результатов работы

При дальнейшей доработке КС возможно добавление следующих функций:

  • реализация оконного графического пользовательского интерфейса;
  • реализация команд редактирования словаря нецензурной лексики, а также кастомизации приложения под конкретного пользователя;
  • внедрение лемматизатора для улучшения качества фильтрации текста;
  • реализация фильтрации текста для исключения контента, содержащего пропаганду употребления алкоголя и наркотиков, призывы к суицидам, порнографию и пр.;
  • создание бота для фильтрации чатов в наиболее популярных мессенджерах (например, платформа Discord).

Сотрудничество с вузом/учреждением при создании работы

НИУ ВШЭ

Награды/достижения (в каких конкурсах и с какими результатами выставлялась ранее эта работа)

Всероссийский форум научной молодёжи «Шаг в будущее» – призёр

Мнение автора

«Участие в проекте «Инженерный класс в московской школе» помогло выполнению проекта и представлению результатов на открытой городской научно-практической конференции «Инженеры будущего». Участие в подобных мероприятиях стимулирует дальнейшие занятия проектной деятельностью. Было очень интересно!»