Прогноз характеристик селевых потоков при неполных и неточных данных на основе моделей машинного обучения
В данной работе предложен метод анализа неполных и неточных данных с целью выявления факторов для прогнозирования объема селевых потоков. Анализ основан на данных кадастра селевой активности юга России, которые плохо формализованы, имеют отсутствующие значения в поле «типы селей», нуждаются в существенной дообработке. В связи с отсутствием сведений о типе селя в части записей кадастра первоочередной задачей исследования является разработка и применение методики классификации типов селевых потоков для восполнения недостающих данных. Для чего было выполнено сравнительное исследование методов машинного обучения, включая нейронные сети, метод опорных векторов и логистическую регрессию. Экспериментальные результаты свидетельствуют о том, что модель на основе нейронных сетей обладает наивысшей точностью предсказания среди рассмотренных методов. Однако метод опорных векторов продемонстрировал более высокий показатель чувствительности для классов, представленных небольшим количеством в тестовой выборке. В связи с чем был сделан вывод о целесообразности комплексного подхода, объединяющего сильные стороны обеих методик, что может способствовать повышению общей точности классификации в данной предметной области. Прогнозирование объема выноса материала и кластеризация данных показали наличие нелинейных зависимостей, неполноты и плохой структурированности данных даже после восполнения пропущенных значений типа селей, что потребовало перехода от числовых данных к категориальным. Такой переход повысил устойчивость модели к выбросам и шуму, позволив сделать прогноз о единовременном выносе с высокой точностью. Поскольку прогноз не раскрывает факторы, влияющие на его результат, был проведен анализ с целью выявления этих факторов и представления найденных закономерностей в виде логических правил. Формирование логических правил осуществлялось двумя методами: методом ассоциативного анализа и построением логического классификатора. В результате применения ассоциативного анализа были найдены правила, отражающие некоторые закономерности в данных, как оказалось, нуждающихся в существенной коррекции. Применение разработанных логических методов позволило уточнить и скорректировать закономерности, выявленные с использованием ассоциативных правил, что, в свою очередь, обеспечило определение комплекса факторов, влияющих на объем селевого потока.
Ключевые слова
машинное обучение, селевые потоки, нейронные сети, кластерный анализ, ассоциативные правила
Автор статьи:
Ученая степень:
канд. физ.-мат. наук, заведующий отделом нейроинформатики и машинного обучения, Институт прикладной математики и автоматизации Кабардино-Балкарского научного центра Российской академии наук (ИПМА КБНЦ РАН)
Местоположение:
Нальчик, Россия
Автор статьи:
Ученая степень:
младший научный сотрудник, отдел нейроинформатики и машинного обучения, Институт прикладной математики и автоматизации Кабардино-Балкарского научного центра Российской академии наук (ИПМА КБНЦ РАН)
Местоположение:
Нальчик, Россия