Дельта-правило

Дельта-правило — метод навчання перцептрону за принципом градієнтного спуску по поверхні помилки. Дельта-правило розвинулося з першого і другого правил Хебба. Його подальший розвиток привів до створення методу зворотного поширення помилки.

Правила Хебба ред.

Перцептрон Розенблата у початковому його виконанні складався з фотоелементів, які, залежно від поданого на них сигналу виробляли сигнал логічної одиниці, або логічного нуля. Сигнали з фотоелементів надходили на зважений суматор (елементарний процесор, штучний нейрон) з пороговою функцією активації. Нейрон також видавав сигнал логічного нуля, або логічної одиниці ^[1]. Мета навчання перцептрона полягала в тому, щоб при подачі на фотоелементи закодованого образу на його виході з'являлася логічна одиниця в разі належності поданого образу до заздалегідь певного класу і нуль в іншому випадку. Логіка навчання наступна: якщо сигнал перцептрона при деякому образі вірний, то нічого коригувати не потрібно, якщо немає — проводиться коригування ваги суматора. Правило коригування ваг запропоноване Хебом в 1949 році ^[2] має наступний зміст:

«Якщо аксон клітини А знаходиться досить близько, щоб збуджувати клітку B, і неодноразово або постійно бере участь в її збудженні, то спостерігається певний процес росту або метаболічних змін в одній або обох клітинах, що веде до збільшення ефективності А, як однієї з збудливих клітин В ».

З вищенаведеної цитати помилково виводять 2 правила^[3]:

Перше правило Хебба — Якщо сигнал перцептрона невірний, і дорівнює нулю, то необхідно збільшити ваги тих входів, на які була подана одиниця.
Друге правило Хебба — Якщо сигнал перцептрона невірний і дорівнює одиниці, то необхідно зменшити вагу тих входів, на які була подана одиниця.^[4]

Правила застосовуються послідовно для всіх образів, на яких здійснюється навчання. На питання про те, чи прийде перцептрон до стійкого стану, коли він буде коректно класифікувати всі вхідні образи відповідає теорема збіжності перцептрона.

Дельта-правило ред.

Власне дельта-правилом називають математичну, трохи загальнішу форму запису правил Хебба. Нехай вектор $\mathbf {X} ={x_{1},x_{2},...x_{r},...x_{m}}$ — вектор вхідних сигналів, а вектор $\mathbf {D} ={d_{1},d_{2},...d_{k},...d_{n}}$ — вектор сигналів, які повинні бути отримані від перцептрона під впливом вхідного вектора. Тут $n$ — кількість нейронів, що входять до перцептрону. Вхідні сигнали, поступивши на входи перцептрону, були зважені і підсумовані, в результаті чого отримано вектор $\mathbf {Y} ={y_{1},y_{2},...y_{k},...y_{n}}$ вихідних значень перцептрона. Тоді можна визначити вектор помилки $\mathbf {\mathrm {E} } ={e_{1},e_{2},...e_{k},...e_{n}}$ , розмірність якого збігається розмірністю вектором вихідних сигналів. Компоненти вектора помилок визначаються як різниця між очікуваним і реальним значенням вихідного сигналу нейрону перцептрона:

\mathbf {\mathrm {E} =D-Y}

За таких позначеннях формулу для коригування j-ї ваги i-го нейрона можна записати так:

w_{j}(t+1)=w_{j}(t)+e_{i}x_{j}

Номер сигналу $j$ змінюється в межах від одиниці до розмірності вхідного вектора $m$ . Номер нейрону $i$ змінюється в межах від одиниці до кількості нейронів $n$ . Величина $t$ — номер поточної ітерації навчання. Таким чином, вага вхідного сигналу нейрона змінюється у бік зменшення помилки пропорційно величині сумарної помилки нейрона. Часто вводять коефіцієнт пропорційності $\eta$ , на який множиться величина помилки. Цей коефіцієнт називають швидкістю навчання. Таким чином, підсумкова формула для коректування ваг зв'язків перцептрону має наступний вигляд:

w_{j}(t+1)=w_{j}(t)+\eta e_{i}x_{j}

Узагальнене дельта-правило ред.

З метою розширення кола завдань, що вирішуються перцептроном, Уїдроу і Хофом ^[5] була запропонована сигмоїдаальна функція активації для нейронів. Це дозволило перцептрону оперувати з неперервними сигналами, але виникла необхідність модифікації алгоритму навчання.^[6] Модифікований алгоритм спрямований на мінімізацію функції середньоквадратичної помилки:

\epsilon ={\frac {1}{2}}\sum _{i=1}^{n}{(d_{i}-y_{i})^{2}}

Ця функція визначається матрицею вагових коефіцієнтів $w_{ij}$ . Тут $i$ — номер нейрона, а $j$ — номер входу. Поверхня, що описується цією функцією має форму псевдопараболоіди.^[7] Завданням навчання є знаходження глобального мінімуму цієї поверхні. Одним із способів знаходження мінімуму є метод градієнтного спуску. Коригування ваг проводиться в напрямку антиградієнта поверхні:

\Delta w_{ij}=-\eta {\frac {\partial \epsilon }{\partial w_{ij}}}

Тут $\eta$ — коефіцієнт швидкості навчання.

Функція помилки є складною і залежить в першу чергу від вихідних сигналів перцептрона. Відповідно до правил диференціювання складних функцій:

{\frac {\partial \epsilon }{\partial w_{ij}}}={\frac {\partial \epsilon }{\partial y_{i}}}{\frac {\partial y_{i}}{\partial w_{ij}}}

(*)

Вихідний сигнал $y_{i}$ кожного нейрона визначається за формулою:

y_{i}=\operatorname {f} (S),S=\sum _{j=1}^{m}{w_{ij}x_{j}}

Тут $m$ — кількість входів перцептрона, $x_{j}$ — сигнал на j-му вході, а $\operatorname {f} (S)$ — функція активації. Тоді отримаємо:

{\frac {\partial y_{i}}{\partial w_{ij}}}={\frac {\partial \operatorname {f} (S)}{\partial S}}{\frac {\partial S}{\partial w_{ij}}}=f^{\prime }(S)x_{j}

(**)

Продиференціювавши функцію помилки за значенням вихідного сигналу, отримаємо:

{\frac {\partial \epsilon }{\partial y_{i}}}=-(d_{i}-y_{i})

(***)

Підставивши формули (**) і (***) у вираз (*) отримаємо вираз для коригування ваги j-го входу у i-го нейрона при будь-якій активаційний функції^[8]:

\Delta w_{ij}=\eta (d_{i}-y_{i})f^{\prime }(S_{i})x_{j}

З цієї формули видно, що активаційна функція при використанні узагальненого дельта-правила повинна бути неперевно диференційована на всій осі абсцис. Перевагу мають функції активації з простою похідною (наприклад — логістична крива або гіперболічний тангенс).

На основі дельта-правила Уїдроу і Хопфа був створений один з перших апаратних нейрокомп'ютерів Adaline (1960).

Примітки ред.

↑ Можливий варіант використання замість ${0,1}$ сигналів ${-1,1}$
↑ Hebb DO — The Organization of Behavior. John Wiley & Sons, New York, 1949
↑ Правило Хебба: «универсальный нейрофизиологический постулат» и великое заблуждение математиков. habr.com (рос.). Архів оригіналу за 28 червня 2020. Процитовано 26 червня 2020.
↑ Ясницкий Л. Н. Введение в искусственный интеллект. М.: Издательский центр «Академия», 2005 — c. 30—32
↑ Widrow B., Hoff M.E. — Adaptive switching circuits. 1969 IRE WESTCON Conferencion Record. — New York, 1960
↑ Л. Н. Ясницкий — Введение в искусственный интеллект. — с.34-36
↑ Л. Н. Ясницкий — Введение в искусственный интеллект. — с.35
↑ Л. Н. Ясницкий — Введение в искусственный интеллект. — с.36

Див. також ред.

Література ред.

Ясницкий Л. Н. Введение в искусственный интеллект. М.: Издательский центр «Академия», 2005. — 176с.
Lakhmi C. Jain; N.M. Martin Fusion of Neural Networks, Fuzzy Systems and Genetic Algorithms: Industrial Applications. - CRC Press, CRC Press LLC, 1998

[1] Можливий варіант використання замість ${0,1}$ сигналів ${-1,1}$

[2] Hebb DO — The Organization of Behavior. John Wiley & Sons, New York, 1949

[3] Правило Хебба: «универсальный нейрофизиологический постулат» и великое заблуждение математиков. habr.com (рос.). Архів оригіналу за 28 червня 2020. Процитовано 26 червня 2020.

[4] Ясницкий Л. Н. Введение в искусственный интеллект. М.: Издательский центр «Академия», 2005 — c. 30—32

[5] Widrow B., Hoff M.E. — Adaptive switching circuits. 1969 IRE WESTCON Conferencion Record. — New York, 1960

[6] Л. Н. Ясницкий — Введение в искусственный интеллект. — с.34-36

[7] Л. Н. Ясницкий — Введение в искусственный интеллект. — с.35

[8] Л. Н. Ясницкий — Введение в искусственный интеллект. — с.36

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]