8 (495) 987 43 74
Мы в соцсетях -              
Рус   |   Eng

Купить статью

Авторы: Федорова Е. А., Афанасьев  Д. О., Демин И. С., Лазарев А. М., Нерсесян  Р. Г., Пыльцин  И. В.     Опубликовано в № 6(90) 28 декабря 2020 года
Рубрика: Эффективные алгоритмы

Разработка тонально-тематического словаря EcSentiThemeLex для анализа экономических текстов на русском языке

Цель исследования – разработка общедоступного тонально-тематического словаря на русском языке, позволяющего выявлять смысловую направленность по группам экономических текстов, а также определять их сентиментные (тональные) характеристики. В статье описаны основные этапы составления словаря с применением методов машинного обучения (кластеризация, выделения частотности слов, построение коррелограмм) и экспертной оценки определения тональности и расширение словаря за счет включения терминов из аналогичных зарубежных словарей. Эмпирическая база исследования включала в себя: годовые отчеты компаний, новости министерств и ЦБ РФ, финансовые твиты компаний и новостные статьи РБК по направлению «Экономика, финансы, деньги и бизнес». Составленный словарь отличается от предыдущих по следующим направлениям: 1) является одним из первых словарей, позволяющих оценивать тональность экономических и финансовых текстов на русском языке по пяти степеням тональности; 2) позволяет оценить тональность и смысловую направленность текста по 12 экономическим темам (например, макроэкономика, монетарная политика, фондовые и товарные рынки и т. д.); 3) итоговый словарь EcSentiThemeLex включен в программный пакет (библиотеку) rulexicon для среды программирования R1 и Python2. Приведены пошаговые примеры использования разработанной библиотеки в среде R, позволяющие оценить тональность и тематическую направленность экономического или финансового текста на основе лаконичного кода. Структура библиотеки позволяет использовать оригинальные тексты для их оценки без предварительной лемматизации (приведения к начальным формам). Составленный в данной работе тонально-тематический словарь EcSentiThemeLex со всеми словоформами позволит упростить решение прикладных задач текстового анализа в финансово-экономической сфере, а также потенциально сможет послужить базисом для наращивания числа соответствующих исследований в российской литературе.

Ключевые слова

тематический словарь, экономические тексты, новости, машинное обучение, текстовый анализ, база данных, программные средства

Автор статьи:

Федорова Е. А.

Ученая степень:

докт. экон. наук, профессор департамента корпоративных финансов и корпоративного управления, Финансовый университет при Правительстве РФ, департамент финансов, НИУ ВШЭ

Местоположение:

г. Москва

Автор статьи:

Афанасьев  Д. О.

Биография

АО «Гринатом»

Местоположение:

г. Москва, Россия

Автор статьи:

Демин И. С.

Ученая степень:

докт. экон. наук, профессор департамента анализа данных и принятия решений, Финансовый университет при Правительстве РФ

Местоположение:

г. Москва

Автор статьи:

Лазарев А. М.

Ученая степень:

студент, механико-математический факультет, МГУ имени М. В. Ломоносова

Местоположение:

г. Москва, Россия

Автор статьи:

Нерсесян  Р. Г.

Ученая степень:

инженер по аналитическим данным ООО «Цифра»,

Местоположение:

г. Москва, Россия

Автор статьи:

Пыльцин  И. В.

Ученая степень:

студент, факультет экономических наук, НИУ ВШЭ, Москва, Россия

Местоположение:

г. Москва, Россия