Проекты*

Основная мысль текста

Работа призёра открытой городской научно-практической конференции «Инженеры будущего» в секции «Информационные технологии, программирование, прикладная математика, социальный инжиниринг» среди работ учащихся 10−11 классов

Направление работы: Программирование
Авторы работы: ГБОУ № 1492
Предметы: Информатика
Классы: 10 класс
Мероприятия: Открытая городская научно-практическая конференция «Инженеры будущего» 2020 года

Актуальность

Уже сейчас сложно представить нашу жизнь без таких гигантов IT, как Google, Amazon, Facebook, Microsoft и т. д. Все эти компании используют алгоритмы машинного обучения для создания новых программ и достижения каких-либо целей. Однако какой-нибудь маленький новостной портал не пользуется всеми благами искусственного интеллекта, и журналистам, заходящим на этот сайт, сложно выбирать новости для своих статей, ориентируясь только по заголовкам и тексту, соответственно, сайт становится им неинтересен, и создатель теряет весомую часть своих клиентов. В связи с этим возникла необходимость создать программу, которая будет предсказывать топик (логический субъект предложения, о котором высказывается его смысл) новости по его тексту.

Цель

Обучить программу правильно предсказывать топик новости.

Задачи

1. Векторизовать данные, оценить важность слов каждого текста.

2. Классифицировать данные.

3. Оценить качество полученной модели.

Оснащение и оборудование, использованное при создании работы

  • Язык программирования Phyton

Описание

Автор загрузил данные в программу, указал, какие данные нужно найти и какие данные будут использоваться. Также автор указал количество данных, на которых программа будет обучаться, и количество данных, на которых программа будет тестироваться. С помощью tf-idf была оценена важность слов в контексте новостей и векторизованы данные. Полученные данные были классифицированы с помощью Logistic Regression.

Результаты работы/выводы

Создана программа, которая позволяет осуществлять обработку текста и выводить его главную мысль. В будущем эта программа может быть размещена на новостных сайтах, что намного облегчит задачу поиска информации посетителям сайта.

Перспективы использования результатов работы

В дальнейшем программа будет доработана так, чтобы она смогла сжимать текст до заголовка, тем самым можно будет избавиться от зачастую заманчивых и не совсем честных заголовков, которые пишут авторы новостей.