Эффективная вычислительная технология построения математических моделей по данным наблюдений
Ф.П. Капсаргин, Л. Кадена, С.В. Кириллова, К.В. Симонов
Красноярск
Работа посвящена разработке эффективной вычислительной технологии для математической формализации зависимости параметров урологической заболеваемости населения от основных наиболее влиятельных факторов окружающей среды. Способом построения прогнозной модели является аппроксимация рассматриваемой функции быстрой нелинейной многопараметрической регрессией. Соответствующий алгоритм реализован в рамках нейросетового подхода анализа данных наблюдений.
Моделирование данных с помощью нейронных сетей является в настоящее время наиболее формализованным и методически отлаженным способом решения задач аппроксимации искомых закономерностей на основе эмпирических данных. Это связано с уникальным набором свойств, присущих данному методу моделирования данных. Классы функций, закладываемые в структуру моделей в виде искусственных нейронных сетей, обладают свойством полноты, т.е. способностью сколь угодно точно аппроксимировать любую непрерывную зависимость. Нейронные сети обладают свойством естественной фильтрации «шумов» в исходных данных. Методика нейромоделирования позволяет также строить аппроксимации многомерных зависимостей на основе нерегулярно позиционированных экспертных данных.
Общая схема моделирования с помощью нейронных сетей. На первом этапе из имеющихся эмпирических данных формируется обучающая выборка. При этом выбираются независимые переменные (входы сети) и зависимые переменные (выходы). Как число входов, так и число выходов может быть произвольным числом. Обучающая выборка состоит из экземпляров данных (прецедентов), имеющих одинаковую структуру – равное число входов и выходов. На втором этапе выбирается структура нейронной сети и тип ее элементов. На этом этапе неявно вводится гипотеза о возможности адекватно аппроксимировать эмпирические данные функцией из выбранного класса. Состоятельность этой гипотезы проверяется на последующих этапах модели-
рования путем вычислительных экспериментов.
На третьем этапе выбирается число нейронов в сети и, соответственно, число связей, которым сопоставлены настраиваемые весовые коэффициенты. На четвертом этапе, этапе «обучения сети», с помощью вариационных подходов отыскиваются значения весовых коэффициентов, позволяющие минимизировать «невязки» – расхождения выходов сети и выходов обучающей выборки. По завершению четвертого этапа нейросетевая модель объявляется «обученной» и способной к «функционированию» – выдаче по любому входному вектору соответствующих (аппроксимированных) значений выходов. Следующий этап – верификация (проверка) «состоятельности» (адекватности) обученной сети поставленным задачам с привлечением дополнительной информации.
Для повышения надежности методики нейромоделирования используются еще два приема – этап «предобработки» – предварительного масштабирования обучающей выборки и, соответственно, этап «интерпретации», на котором реализуется обратное преобразование данных к исходным масштабам. Наличие построенной модели – «обученной» нейронной сети – алгоритма, вычисляющего приближенные значения выходов по значениям входов, позволяет как применить многие математические методы исследования функциональных зависимостей, так и разработать специфические подходы, ориентированные на решение конкретных задач.
Определенные возможности дает методика «контрастирования» – упрощения модели путем последовательного удаления из нее излишних элементов. Возможность удаления элемента сети без ухудшения качества аппроксимации исследуется путем постановки и решения дополнительной экстремальной задачи, в число функционалов которой включается минимизация квадрата соответствующего элементу весового коэффициента.
Разработанный алгоритм и вычислительная методика нейромоделирования является эффективным инструментом для обработки и анализа данных экологического мониторинга при решении задач профилактики урологических заболеваний.