Главная » Информационные системы » Интеллектуальные ИС » Архитектура нейронных сетей. Алгоритмы обучения нейронных сетей.

Архитектура нейронных сетей. Алгоритмы обучения нейронных сетей.

Архитектура нейронных сетей
Трудно ответить на вопрос о том, как конкретно на финансовых рын­ках возникает и используется информация, которая может приносить при­быль. Исследования почти всегда показывают, что никакая устойчивая стратегия торговли не дает постоянной прибыли, и это, во всяком случае, так, если учитывать еще и расходы на совершение сделок. Хорошо извест­но также, что участники рынка (и весь рынок в целом) могут принимать совершенно различные решения исходя из сходной или даже неизменной информации.
Участники рынка в своей работе, по-видимому, не ограничиваются ли­нейными состоятельными правилами принятия решений, а имеют в запасе несколько сценариев действий, и то, какой из них пускается в ход, зависит подчас от внешних незаметных признаков. Один из возможных подходов к многомерным и зачастую нелинейным информационным рядам финансового рынка заключается в том, чтобы по возможности подражать образцам пове­дения участников рынка, используя такие методы искусственного интеллек­та, как экспертные системы или нейронные сети.
Одной из сфер применения нейронных сетей для ряда ведущих банков стала проблема изменений позиции доллара США на валютном рынке при большом числе неизменных объективных показателей. Еще одной проблемой, значение которой в последнее время возрастает, является моделирование потоков средств между институциональными инве­сторам
РАЗЛИЧНЫЕ ВИДЫ ФУНКЦИИ АКТИВАЦИИ

Функции активации f могут быть различных видов:

  1. линейная: выходной сигнал нейрона равен его потенциалу,
  2. ступенчатая: нейрон принимает решение, выбирая один из двух вариан­тов (активен/неактивен),
  3. линейная с насыщением: нейрон выдает значения, промежуточные между двумя предельными значениями А и В
  4. многопороговая: выходной сигнал может принимать одно из q значений, определяемых (q -1) порогом внутри предельных значений А и В,
  5. сигмоидная: рассматриваются два вида сигмоидных функций:

Нейроны с прямой связью: Нейронные сети с прямой связью состоят из статических нейронов, так что сигнал на выходе сети появляется в тот же момент, когда подаются сиг­налы на входвыходные элементы



Скрытые элементы



Входные элементы


^ Рис. Нейронная сеть с прямой связью с одним скрытым слоем (пopoгu не отмечены)
Алгоритмы обучения нейронных сетей
На этапе обучения происходит вычисление синаптических коэффициентов в процессе решения нейронной сетью задач (классификации, предсказания временных рядов и др.), в которых нужный ответ определяется не по прави­лам, а с помощью примеров, сгруппированных в обучающие множества. Та­кое множество состоит из ряда примеров с указанным для каждого из них зна­чением выходного параметра, которое было бы желательно получить. Дейст­вия, которые при этом происходят, можно назвать контролируемым обучени­ем: «учитель» подает на вход сети вектор исходных данных, а на выходной узел сообщает желаемое значение результата вычислений. Контролируемое обучение нейронной сети можно рассматривать как решение оптимизацион­ной задачи. Ее целью является минимизация функции ошибок, или невязки, она данном множестве примеров путем выбора значений весов W
КРИТЕРИИ ОШИБОК
Целью процедуры минимизации является отыскание глобального ми­нимума - достижение его называется сходимостью процесса обучения. Поскольку невязка зависит от весов нелинейно, получить решение в ана­литической форме невозможно, и поиск глобального минимума осущест­вляется посредством итерационного процесса - так называемого обу­чающего алгоритма,который исследует поверхность невязки и стремит­ся обнаружить на ней точку глобального минимума.
ОБРАТНОЕ РАСПРОСТРАНЕНИЕ ОШИБКИ
Рассмотрим теперь наиболее распространенный алгоритм обучения нейронных сетей с прямой связью - алгоритм обратного распростране­ния ошибки (Backpropagation, ВР), представляющий собой развитие так называемого обобщенного дельта-прав WIG. Этот алгоритм был заново от­крыт и популяризирован в 1986 г. Ру-мельхартом и МакКлеландом из зна­менитой Группы по изучению параллельных распределенных процессов в Массачусетском технологическом институте. В этом пункте мы более под­робно рассмотрим математическую суть алгоритма. Он является алгорит­мом градиентного спуска, минимизирующим суммарную квадратичную ошибку

Здесь индекс i пробегает все выходы многослойной сети.
Основная идея ВР состоит в том, чтобы вычислять чувствительность ошибки сети к изменениям весов. Для этого нужно вычислить частные про­изводные от ошибки по весам
ИМПУЛЬС
Другой часто применяемый прием состоит в том, что при определении направления поиска к текущему градиенту добавляется поправка - вектор смещения предыдущего шага, взятый с некоторым коэффициентом. Можно сказать, что учитывается уже имеющийся импульс движения. Окончательная формула для изменения весов выглядит так:
 
где 11- число в интервале (0,1), которое задается пользователем..
ШУМ
в финансовых приложениях данные зашумлены особенно сильно. На­пример, совершение сделок может регистрироваться в базе данных с запо­зданием, причем в разных случаях- с разным.
ПЕРЕКРЕСТНОЕ ПОДТВЕРЖДЕНИЕ
Для того чтобы устранить произвол в разбиении базы данных, могут быть применены методы повторных проб. Рассмотрим один из таких мето­дов, который называется перекрестным подтверждением. Его идея состо­ит в том, чтобы случайным образом разбить базу данных на q попарно непересекающихся подмножеств. Затем производится q обучений на (q -1)множестве, а ошибка вычисляется по оставшемуся множеству. Если q дос­таточно велико, например, равно 10, каждое обучение задействует большую часть исходных данных. Если процедура обучения надежна, то результаты по q различным моделям должны быть очень близки друг к другу. После этого итоговая характеристика определяется как среднее всех полученных значений ошибки


Друзья! Приглашаем вас к обсуждению. Если у вас есть своё мнение, напишите нам в комментарии.

Поделиться
Дисциплины