Метод зворотного поширення помилки: відмінності між версіями
[неперевірена версія] | [неперевірена версія] |
Вилучено вміст Додано вміст
стиль |
|||
Рядок 20:
де s — вихід суматора нейрона, <math>\alpha</math> — довільна константа.
Процесорний час розрахунку раціональної сигмоїдної функцій активації є найменшим з усіх сигмоїд. Для обчислення гіперболічного тангенса потрібно найбільше тактів роботи процесора. Якщо ж порівнювати з пороговими функціями активації, то сигмоїди розраховуються дуже повільно. Якщо після підсумовування в пороговій функції відразу можна починати порівняння з певною величиною (порогом), то у випадку сигмоїдної функції активації потрібно розрахувати сигмоїду (затратити час
== Функція оцінки роботи мережі ==
Рядок 28:
де <math>Z^*(\tau)</math> — необхідне значення вихідного сигналу.
[[Метод найменших квадратів]] далеко не завжди є
== Опис алгоритму ==
Рядок 34:
[[Файл:Neuro.PNG|left|400x300px|thumb|left| Архітектура багатошарового перцептрону]]
Алгоритм зворотного поширення помилки застосовується для [[багатошаровий перцептрон|багатошарового перцептрону]]. У мережі є множина входів <math>x_1, ..., x_n</math>, множина виходів Outputs і безліч внутрішніх вузлів.
<math>E(\{w_{i,j}\}) = \cfrac{1}{2} \sum_{k \in Outputs} (t_k - o_k)^2 </math>
Рядок 95:
На кожній ітерації алгоритму зворотного поширення вагові коефіцієнти нейронної мережі модифікуються так, щоб поліпшити рішення одного прикладу. Таким чином, у процесі навчання циклічно вирішуються однокритеріальні задачі оптимізації.
Навчання нейронної мережі характеризується чотирма специфічними обмеженнями, що виділяють навчання нейромереж із загальних задач оптимізації: астрономічне число параметрів, необхідність високого паралелізму при навчанні, багато критеріально вирішуваних завдань, необхідність знайти досить широку область, в якій значення всіх функцій, що мінімізуються близькі до мінімальних. Стосовно решти проблему навчання можна, як правило, сформулювати як завдання мінімізації оцінки. Обережність попередньої фрази («як правило») пов'язана з тим, що насправді нам невідомі і ніколи не будуть відомі всі можливі завдання для нейронних мереж, і, може, десь в невідомості є завдання, які не зводяться до мінімізації оцінки. Мінімізація оцінки — складна проблема: параметрів астрономічно багато (для стандартних прикладів, що реалізуються на РС — від 100 до 1000000), адаптивний рельєф (графік оцінки як функції від
== Недоліки алгоритму ==
Рядок 111:
=== Розмір кроку ===
Уважний розбір доведення збіжності <ref name="Rumelhart"/> показує, що корекції ваг передбачаються нескінченно малими. Ясно, що це нездійсненно на практиці, тому що веде до безкінечного часу навчання. Розмір кроку повинен братися кінцевим. Якщо розмір кроку фіксований і дуже малий, то збіжність надто повільна, якщо ж він фіксований і занадто великий, то може виникнути параліч або постійна нестійкість. Ефективно збільшувати крок до тих пір, поки не припиниться поліпшення оцінки в даному напрямку
== Література ==
|