Мережа радіальних базисних функцій

Мережа радіально базисних функцій (англ. Radial basis function (RBF) networks) у математичному моделюванні — це штучна нейронна мережа, яка використовує радіальні базисні функції у якості функції активації. Виходом мережі є лінійна комбінація радіальних базисних функцій входу та параметрів нейрона. Мережі радіальних базисних функцій мають багато застосувань, зокрема, такі як апроксимацію функції^[en], прогнозування часових рядів, задачі класифікації та керування системою. Вони були вперше сформульовані у статті 1988 року Брумхедом і Лоу, обидва дослідники з Royal Signals and Radar Establishment^[en].^[1]^[2]^[3]

Архітектура мережі ред.

Малюнок 1: Архітектура мережі радіальних базисних функцій. Вхідний вектор

x

використовується як вхід для всіх радіальних базисних функцій, кожна з яких має різні параметри. Вихід мережі являє собою лінійну комбінацію виходів з радіальних базисних функцій.

Мережі радіально базисних функцій (RBF) зазвичай мають три шари: вхідний шар, прихований шар з нелінійною RBF функцією активації та лінійний вихідний рівень. Вхід можна моделювати як вектор дійсних чисел $\mathbf {x} \in \mathbb {R} ^{n}$ . Вихід мережі тоді, є скалярною функцією вхідного вектора, $\varphi :\mathbb {R} ^{n}\to \mathbb {R}$ , і має вигляд

\varphi (\mathbf {x} )=\sum _{i=1}^{N}a_{i}\rho (||\mathbf {x} -\mathbf {c} _{i}||)

де $N$ — кількість нейронів у прихованому шарі, $\mathbf {c} _{i}$ є центральним вектором для нейрона $i$ , та $a_{i}$ — це вага нейрона $i$ в лінійному виході нейронів. Функції, які залежать лише від відстані від центру вектора, є радіально симетричними щодо цього вектора, отже, називаються радіальною базисною функцією. У базовій формі всі входи пов'язані з кожним прихованим нейроном. За норму, як правило, обирається Евклідова відстань (хоча відстань Махаланобіса, загалом, більш пасує), та радіальна базисна функція зазвичай вважається розподілом Ґауса

\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}=\exp \left[-\beta \left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert ^{2}\right]

.

Гаусові базисні функції близькі до центрального вектора в тому сенсі, що

\lim _{||x||\to \infty }\rho (\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert )=0

тобто зміна параметрів одного нейрона має лише невеликий ефект для вхідних значень, що знаходяться далеко від центру цього нейрона.

Завдяки гнучким умовам на форму функції активації, RBF мережі є універсальними апроксиматорами на компактному просторі $\mathbb {R} ^{n}$ . Це означає, що мережа RBF з достатньою кількістю прихованих нейронів може апроксимувати будь-яку неперервну функцію на замкненій обмеженій множині з довільною точністю.

Параметри $a_{i}$ , $\mathbf {c} _{i}$ , та $\beta _{i}$ визначаються так, щоб оптимізують відповідність між $\varphi$ і даними.

Нормалізація ред.

Малюнок 2: Дві не нормовані радіальні базисні функції, одновимірний вхід. Центри базисних функцій знаходяться в

c_{1}=0.75

та

c_{2}=3.25

.

Малюнок 3: Дві нормовані радіальні базисні функції, одновимірний вхід. Центри базисних функцій знаходяться в

c_{1}=0.75

та

c_{2}=3.25

.

Малюнок 4: Три нормалізовані радіально-базисні функції, одновимірний вхід. Додаткова основна функція має центр в

c_{3}=2.75

Малюнок 5: Чотири нормалізовані радіально-базисні функції, одновимірний вхід. Четверта базисна функція має центр в

c_{4}=0

. Зауважте, що перша основна функція (темно-синя) стала локалізованою.

Нормалізована архітектура ред.

Окрім вищезгаданої ненормалізованої архітектури, мережі RBF можуть бути нормалізовані. У цьому випадку є відображення

\varphi (\mathbf {x} )\ {\stackrel {\mathrm {def} }{=}}\ {\frac {\sum _{i=1}^{N}a_{i}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}}=\sum _{i=1}^{N}a_{i}u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}

де

u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}\ {\stackrel {\mathrm {def} }{=}}\ {\frac {\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{j=1}^{N}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{j}\right\Vert {\big )}}}

відома як «нормована радіально-базисна функція».

Теоретична мотивація для нормалізації ред.

Існує теоретичне обґрунтування цієї архітектури у випадку стохастичного потоку даних. Припустимо, що апроксимація стохастичного ядра^[en] для спільної щільності ймовірностей

P\left(\mathbf {x} \land y\right)={1 \over N}\sum _{i=1}^{N}\,\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}\,\sigma {\big (}\left\vert y-e_{i}\right\vert {\big )}

де ваги $\mathbf {c} _{i}$ та $e_{i}$ є зразками даних, і нам потрібно, щоб ядра нормалізувались

\int \rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}\,d^{n}\mathbf {x} =1

і

\int \sigma {\big (}\left\vert y-e_{i}\right\vert {\big )}\,dy=1

.

Щільність ймовірностей у вхідному та вихідному просторах є

P\left(\mathbf {x} \right)=\int P\left(\mathbf {x} \land y\right)\,dy={1 \over N}\sum _{i=1}^{N}\,\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}

і

Очікування у введеного на вхід $\mathbf {x}$

\varphi \left(\mathbf {x} \right)\ {\stackrel {\mathrm {def} }{=}}\ E\left(y\mid \mathbf {x} \right)=\int y\,P\left(y\mid \mathbf {x} \right)dy

де

P\left(y\mid \mathbf {x} \right)

умовна ймовірність y при заданому $\mathbf {x}$ . Умовна ймовірність пов'язана з ймовірністю теоремою Баєса.

P\left(y\mid \mathbf {x} \right)={\frac {P\left(\mathbf {x} \land y\right)}{P\left(\mathbf {x} \right)}}

який дає

\varphi \left(\mathbf {x} \right)=\int y\,{\frac {P\left(\mathbf {x} \land y\right)}{P\left(\mathbf {x} \right)}}\,dy

.

Це стає

\varphi \left(\mathbf {x} \right)={\frac {\sum _{i=1}^{N}e_{i}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}}=\sum _{i=1}^{N}e_{i}u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}

коли виконується інтегрування.

Локальні лінійні моделі ред.

Іноді зручно розширювати архітектуру, щоб включити локальні лінійні моделі. У цьому випадку архітектури зводяться до першого порядку,

\varphi \left(\mathbf {x} \right)=\sum _{i=1}^{N}\left(a_{i}+\mathbf {b} _{i}\cdot \left(\mathbf {x} -\mathbf {c} _{i}\right)\right)\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}

і

\varphi \left(\mathbf {x} \right)=\sum _{i=1}^{N}\left(a_{i}+\mathbf {b} _{i}\cdot \left(\mathbf {x} -\mathbf {c} _{i}\right)\right)u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}

в ненормалізованих та нормалізованих випадках, відповідно. Тут визначаються ваги $\mathbf {b} _{i}$ . Можливі також вирази більш високого порядку від лінійних термів. Цей результат можна записати як

\varphi \left(\mathbf {x} \right)=\sum _{i=1}^{2N}\sum _{j=1}^{n}e_{ij}v_{ij}{\big (}\mathbf {x} -\mathbf {c} _{i}{\big )}

де

e_{ij}={\begin{cases}a_{i},&{\mbox{if }}i\in [1,N]\\b_{ij},&{\mbox{if }}i\in [N+1,2N]\end{cases}}

і

v_{ij}{\big (}\mathbf {x} -\mathbf {c} _{i}{\big )}\ {\stackrel {\mathrm {def} }{=}}\ {\begin{cases}\delta _{ij}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )},&{\mbox{if }}i\in [1,N]\\\left(x_{ij}-c_{ij}\right)\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )},&{\mbox{if }}i\in [N+1,2N]\end{cases}}

в ненормалізованому випадку і

v_{ij}{\big (}\mathbf {x} -\mathbf {c} _{i}{\big )}\ {\stackrel {\mathrm {def} }{=}}\ {\begin{cases}\delta _{ij}u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )},&{\mbox{if }}i\in [1,N]\\\left(x_{ij}-c_{ij}\right)u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )},&{\mbox{if }}i\in [N+1,2N]\end{cases}}

в нормалізованому. Тут $\delta _{ij}$ є дельто-функцією Кронекера і визначається як

\delta _{ij}={\begin{cases}1,&{\mbox{if }}i=j\\0,&{\mbox{if }}i\neq j\end{cases}}

.

Навчання ред.

Мережі RBF, як правило, тренуються з пар вхідних і цільових значень $\mathbf {x} (t),y(t)$ , $t=1,\dots ,T$ , за двохетапним алгоритмом. На першому етапі обирається центр вектору $\mathbf {c} _{i}$ RBF функції у прихованому шарі. Цей етап виконується кількома способами; центри можуть бути випадково відібрані з деякого набору прикладів, або їх можна визначити за допомогою кластеризації методом к–середніх. Зауважте, що цей крок не керований. Другий крок просто відповідає лінійній моделі з коефіцієнтами $w_{i}$ до виходів прихованого шару з відношенням до деякої цільової функції. Загальна цільова функція, принаймні для регресії/оцінки функції, є функцією найменших квадратів:

K(\mathbf {w} )\ {\stackrel {\mathrm {def} }{=}}\ \sum _{t=1}^{T}K_{t}(\mathbf {w} )

де

K_{t}(\mathbf {w} )\ {\stackrel {\mathrm {def} }{=}}\ {\big [}y(t)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}^{2}

.

Ми маємо явне включення залежності від ваг. Мінімізація цільової функції найменших квадратів за оптимального вибору ваг оптимізує точність підгонки.

Є випадки, коли потрібно оптимізувати багато цілей, таких як гладкість, а також точність. У цьому випадку корисно оптимізувати регуляризовану цільову функцію, таку як

H(\mathbf {w} )\ {\stackrel {\mathrm {def} }{=}}\ K(\mathbf {w} )+\lambda S(\mathbf {w} )\ {\stackrel {\mathrm {def} }{=}}\ \sum _{t=1}^{T}H_{t}(\mathbf {w} )

де

S(\mathbf {w} )\ {\stackrel {\mathrm {def} }{=}}\ \sum _{t=1}^{T}S_{t}(\mathbf {w} )

і

H_{t}(\mathbf {w} )\ {\stackrel {\mathrm {def} }{=}}\ K_{t}(\mathbf {w} )+\lambda S_{t}(\mathbf {w} )

де оптимізація S максимізує гладкість та $\lambda$ відома, як регуляризація.

Третій, не обов'язковий етап зворотного поширення помилки, може бути виконаний для точного настроювання всіх параметрів мережі RBF.^[3]

Інтерполяція ред.

RBF мережі можуть бути використані для інтерполяції функції $y:\mathbb {R} ^{n}\to \mathbb {R}$ коли значення цих функцій відомі на кінцевому числі точок: $y(\mathbf {x} _{i})=b_{i},i=1,\ldots ,N$ . Взяття відомих точок $\mathbf {x} _{i}$ щоб бути центрами радіальних базисних функцій і оцінювати значення основних функцій в тих самих точках $g_{ij}=\rho (||\mathbf {x} _{j}-\mathbf {x} _{i}||)$ ваги можуть бути знайдені з рівняння

\left[{\begin{matrix}g_{11}&g_{12}&\cdots &g_{1N}\\g_{21}&g_{22}&\cdots &g_{2N}\\\vdots &&\ddots &\vdots \\g_{N1}&g_{N2}&\cdots &g_{NN}\end{matrix}}\right]\left[{\begin{matrix}w_{1}\\w_{2}\\\vdots \\w_{N}\end{matrix}}\right]=\left[{\begin{matrix}b_{1}\\b_{2}\\\vdots \\b_{N}\end{matrix}}\right]

Може бути доведено, що інтерполяція матриці у вищенаведеному рівнянні є несингулярною, якщо точки $\mathbf {x} _{i}$ відрізняються, а отже ваги $w$ можуть бути знайдені за допомогою простої лінійної алгебри:

\mathbf {w} =\mathbf {G} ^{-1}\mathbf {b}

Апроксимація функції ред.

Якщо мета полягає не в тому, щоб виконувати жорстку інтерполяцію, а натомість більш загальну апроксимацію функції^[en] або класифікацію, оптимізація дещо складніша, оскільки для центрів немає очевидного вибору. Тренування, як правило, виконуються в два етапи, спочатку фіксуючи ширину та центри, а потім ваги. Це можна виправдати, розглядаючи різну природу нелінійних прихованих нейронів у порівнянні з лінійним вихідним нейроном.

Підготовка центрів базисних функцій ред.

Центри базисних функцій можуть бути випадково відібрані серед вхідних екземплярів або отримані в рамках ортогонального алгоритму навчання найменшої квадрату або знайдені за допомогою кластерізації зразків та вибору кластеризації як центрів.

Ширина RBF, як правило, закріплена за тим самим значенням, яке пропорційно максимальній відстані між вибраними центрами.

Псевдообернене рішення для лінійної ваги ред.

Після того, як центри $c_{i}$ зафіксовані, ваги, що мінімізують похибку на виході, обчислюються за допомогою лінійного псевдооберненого рішення:

\mathbf {w} =\mathbf {G} ^{+}\mathbf {b}

,

де записи G є значеннями радіальних базисних функцій, оцінених в точках $x_{i}$ : $g_{ji}=\rho (||x_{j}-c_{i}||)$ .

Існування цього лінійного рішення означає, що на відміну від багатошарових персептронних (MLP) мереж, RBF мережі мають унікальний локальний мінімум (коли центри фіксуються).

Метод градієнтного спуску навчання лінійних ваг ред.

Інший можливий алгоритм тренування — градієнтний спуск.Під час тренування градієнтного спуску ваги коригуються на кожному кроці, рухаючи їх у напрямку, протилежному градієнту об'єктивної функції (таким чином, можна знайти мінімум об'єктивної функції),

\mathbf {w} (t+1)=\mathbf {w} (t)-\nu {\frac {d}{d\mathbf {w} }}H_{t}(\mathbf {w} )

де $\nu$ це «навчальний параметр».

Для випадку тренування лінійних ваг, $a_{i}$ , алгоритм стає

a_{i}(t+1)=a_{i}(t)+\nu {\big [}y(t)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}\rho {\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}

в ненормалізованому випадку і

a_{i}(t+1)=a_{i}(t)+\nu {\big [}y(t)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}u{\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}

в нормалізованому.

Для локальної лінійної архітектури навчання градієнт-спуском є

e_{ij}(t+1)=e_{ij}(t)+\nu {\big [}y(t)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}v_{ij}{\big (}\mathbf {x} (t)-\mathbf {c} _{i}{\big )}

Тренування оператора проектування лінійних ваг ред.

Для випадку тренування лінійних ваг, $a_{i}$ та $e_{ij}$ , алгоритм стає

a_{i}(t+1)=a_{i}(t)+\nu {\big [}y(t)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}{\frac {\rho {\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}\rho ^{2}{\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}}

в ненормалізованому випадку і

a_{i}(t+1)=a_{i}(t)+\nu {\big [}y(t)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}{\frac {u{\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}u^{2}{\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}}

в нормалізованому і

e_{ij}(t+1)=e_{ij}(t)+\nu {\big [}y(t)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}{\frac {v_{ij}{\big (}\mathbf {x} (t)-\mathbf {c} _{i}{\big )}}{\sum _{i=1}^{N}\sum _{j=1}^{n}v_{ij}^{2}{\big (}\mathbf {x} (t)-\mathbf {c} _{i}{\big )}}}

в локально-лінійному випадку.

Для однієї базової функції тренування оператора проєкції зводиться до метода Ньютона.

Малюнок 6: Логістичне відображення часового ряду. Повторна ітерація логістичного відображення створює хаотичні часові ряди. Значення лежать між нулем і одиницею. Тут представлені 100 навчальних точок, які використовуються для тренування прикладів цього розділу. Ваги c — це перші п'ять точок цього часового ряду.

Приклади ред.

Логістична карта ред.

Основні властивості радіально-базисних функцій можна проілюструвати простим математичним відображенням, логістичне відображення, яке відображає інтервал одиниці на себе. Він може бути використаний для створення зручного прототипу потоку даних. Логістичне відображення може бути використане для вивчення апроксимації функції^[en], прогнозування часових рядів і теорії керування. Відображення походить з поля популяційна динаміка і стало прототипом для хаосу часових рядів. Відображення в повністю хаотичному режимі дається

x(t+1)\ {\stackrel {\mathrm {def} }{=}}\ f\left[x(t)\right]=4x(t)\left[1-x(t)\right]

,

де t — індикатор часу. Значення х у момент t+1 є параболічною параболічною функцією х від часу t. Це рівняння представляє основну геометрію хаосу часових рядів, що породжуються логістичною картою.

Покоління часових рядів з цього рівняння є оберненою задачею^[en]; ідентифікація основної динаміки або фундаментального рівняння логістичної карти з примірників часових рядів. Мета — знайти оцінку

x(t+1)=f\left[x(t)\right]\approx \varphi (t)=\varphi \left[x(t)\right]

для f.

Апроксимація функції ред.

Рисунок 7: Ненормовані базисні функції. Логістична карта (синя) та наближення до логістичної карти (червоний) після одного проходу через набір тренувань.

Ненормовані радіально базисні функції ред.

Архітектурою є

\varphi (\mathbf {x} )\ {\stackrel {\mathrm {def} }{=}}\ \sum _{i=1}^{N}a_{i}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}

де

\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}=\exp \left[-\beta \left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert ^{2}\right]=\exp \left[-\beta \left(x(t)-c_{i}\right)^{2}\right]

.

Примітки ред.

↑ Broomhead, D. S.; Lowe, David (1988). Radial basis functions, multi-variable functional interpolation and adaptive networks (Технічний звіт). № 4148. Архів оригіналу за 22 квітня 2013. Процитовано 13 жовтня 2017.
↑ Broomhead, D. S.; Lowe, David (1988). Multivariable functional interpolation and adaptive networks. Complex Systems. 2: 321—355.
↑ ^а ^б Schwenker, Friedhelm; Kestler, Hans A.; Palm, Günther (2001). Three learning phases for radial-basis-function networks. Neural Networks. 14: 439—458. doi:10.1016/s0893-6080(01)00027-2.

[1] Broomhead, D. S.; Lowe, David (1988). Radial basis functions, multi-variable functional interpolation and adaptive networks (Технічний звіт). № 4148. Архів оригіналу за 22 квітня 2013. Процитовано 13 жовтня 2017.

[2] Broomhead, D. S.; Lowe, David (1988). Multivariable functional interpolation and adaptive networks. Complex Systems. 2: 321—355.

[schwenker-3] а ^б Schwenker, Friedhelm; Kestler, Hans A.; Palm, Günther (2001). Three learning phases for radial-basis-function networks. Neural Networks. 14: 439—458. doi:10.1016/s0893-6080(01)00027-2.

[1]

[2]

[3]