Типи штучних нейронних мереж

(Перенаправлено з Розподілене представлення)

Існує багато типів штучних нейронних мереж (ШНМ, англ. artificial neural networks, ANN).

Штучні нейронні мережі — це обчислювальні моделі[en], натхнені біологічними нейронними мережами, й які використовують, щоби наближувати функції, зазвичай невідомі. Зокрема, їх надихає поведінка нейронів та електричних сигналів, які вони передають між входом (наприклад, від очей або нервових закінчень у руці), обробкою, та виходом із мозку (наприклад, реакцією на світло, дотик або тепло). Спосіб забезпечення нейронами семантичного зв'язку є областю поточних досліджень.[1][2][3][4] Більшість штучних нейронних мереж лише дещо схожі на свої складніші біологічні аналоги, але вони дуже ефективні у виконанні поставлених завдань (наприклад, класифікування чи сегментування).

Деякі штучні нейронні мережі є адаптивними системами, і їх використовують, наприклад, для моделювання популяцій[en] та середовищ, які постійно змінюються.

Нейронні мережі можуть бути апаратними (нейрони подано фізичними складовими) та програмними[en] (комп'ютерні моделі), й можуть використовувати різноманітні топології та алгоритми навчання.

Прямого поширення

ред.

Нейронна мережа прямого поширення (англ. feedforward neural network) була першим і найпростішим типом. У цій мережі інформація рухається лише від шару входу безпосередньо крізь будь-які приховані шари до шару виходу, без циклів/петель. Мережі прямого поширення можливо будувати за допомогою різних типів вузлів, таких як бінарні нейрони Маккаллоха — Піттса, найпростішим з яких є перцептрон. Неперервні нейрони, часто з сигмоїдною передавальною функцією, використовують у контексті зворотного поширення.

Метод групового урахування аргументів

ред.

Метод групового урахування аргументів (МГУА, англ. Group Method of Data Handling, GMDH)[5] має повністю автоматичну структурну та параметричну оптимізацію моделі. Передавальними функціями вузлів є поліноми Колмогорова — Габора, які допускають додавання та множення. Він використовує глибокий багатошаровий перцептрон із вісьмома шарами.[6] Це мережа керованого навчання, яка зростає шар за шаром, де кожен шар тренується за допомогою регресійного аналізу. Непотрібні елементи виявляються за допомогою затверджувального набору й відсікаються за допомогою регуляризації. Розмір та глибина отримуваної мережі залежать від поставленого завдання.[7]

Автокодувальник

ред.
Докладніше: Автокодувальник

Автокодувальник (англ. autoencoder), автоасоціатор, або мережа діаболо[8]:19 схожий на багатошаровий перцептрон (БШП, англ. MLP) — із шаром входу, шаром виходу й одним або декількома прихованими шарами, що їх з'єднують. Проте шар виходу має таку ж кількість вузлів, що й шар входу. Його призначення — відбудовувати власні дані входу (замість видавати цільове значення). Тож автокодувальники — моделі некерованого навчання. Автокодувальник використовують для некерованого навчання ефективних кодувань,[9][10] зазвичай з метою зниження розмірності та для навчання породжувальних моделей даних.[11][12]

Імовірнісний

ред.

Імовірнісна нейронна мережа (ІНМ, англ. PNN) — це чотирирівнева нейронна мережа прямого поширення. Шари: входу, приховані образів та підсумовування, та виходу. В алгоритмі ІНМ батьківську функцію густини ймовірності (ФГІ, англ. PDF) кожного класу наближують вікном Парцена та непараметричною функцією. Потім, використовуючи ФГІ кожного класу, оцінюють класову ймовірність нового входу й використовують правило Баєса, щоби віднести його до класу з найвищою апостеріорною ймовірністю.[13] Її отримали з баєсової мережі[14] та статистичного алгоритму під назвою ядровий фішерів розділювальний аналіз[en].[15] Її використовують для класифікування та розпізнавання образів.

Часова затримка

ред.

Нейронна мережа з часовою затримкою (англ. time delay neural network, TDNN) — це архітектура прямого поширення для послідовних даних, яка розпізнає ознаки незалежно від положення в послідовності. Щоби досягти інваріантності щодо зсуву в часі, до даних входу додають затримки, щоби кілька точок даних (точок у часі) аналізувалися разом.

Зазвичай вона є частиною більшої системи розпізнавання образів. Її втілювали за допомогою мережі перцептрона, вагові коефіцієнти з'єднань якої було треновано зворотним поширенням (керованим навчанням).[16]

Згорткова

ред.

Згорткова нейронна мережа (ЗНМ, англ. CNN, ConvNet, або зсувоінваріанта чи просторовоінваріантна, англ. shift invariant, space invariant) — це клас глибоких мереж, складених з одного або кількох згорткових шарів, із повноз'єднаними шарами (що відповідають шарам типових ШНМ) нагорі.[17][18] Вона використовує зв'язані ваги та шари агрегування. Зокрема, максимізаційного агрегування (англ. max-pooling).[19] Її часто структурують за допомогою згорткової архітектури Фукусіми.[20] Вони є видозмінами багатошарових перцептронів, які використовують мінімальну попередню обробку.[21] Ця архітектура дозволяє ЗНМ використовувати переваги двовимірної структури даних входу.

Її схема з'єднання вузлів натхнена будовою зорової кори. Вузли реагують на стимули в обмеженій області простору, відомій як рецептивне поле. Рецептивні поля частково перекриваються, накриваючи все поле зору. Відгук вузла можливо наблизити математично операцією згортки.[22]

ЗНМ підходять для обробки візуальних та інших двовимірних даних.[23][24] Вони показали чудові результати у застосуваннях як до зображень, так і до мовлення. Їх можливо тренувати стандартним зворотним поширенням. ЗНМ тренувати легше, ніж інші звичайні глибокі нейронні мережі прямого поширення, і вони мають набагато менше параметрів для оцінювання.[25]

Капсульні нейронні мережі (англ. CapsNet) додають до ЗНМ структури, звані капсулами (англ. capsules), й перевикористовують дані виходу кількох капсул для формування стабільніших (щодо різних збурень) подань.[26]

До прикладів застосувань у комп'ютерному зорі належать DeepDream[27] і навігація роботів[en].[28] Вони мають широке застосування в розпізнаванні зображень і відео, рекомендаційних системах[29] та обробці природної мови.[30]

Глибока складальна мережа

ред.

Глибока складальна мережа (ГСМ, англ. deep stacking network, DSN)[31] (глибока опукла мережа, англ. deep convex network) ґрунтується на ієрархії блоків спрощених нейромережних модулів. Її запропонували 2011 року Ден та Ю.[32] Вона формулює навчання як задачу опуклої оптимізації з розв'язком замкненого вигляду, підкреслюючи подібність цього механізму до складального узагальнювання.[33] Кожен блок ГСМ — це простий модуль, який сам по собі легко натренувати керованим чином без зворотного поширення для цілих блоків.[8]

Кожен блок складається зі спрощеного багатошарового перцептрона (БШП) з єдиним прихованим шаром. Прихований шар h має логістичні сигмоїдні вузли, а шар виходу — лінійні. З'єднання між цими шарами подано ваговою матрицею U; з'єднання входу з прихованим шаром мають вагову матрицю W. Цільові вектори t утворюють стовпці матриці T, а вектори даних входу x утворюють стовпці матриці X. Матрицею прихованих вузлів є  . Модулі тренують по черзі, тож ваги нижчого шару W на кожному етапі відомі. Функція виконує поелементну логістичну сигмоїдну дію. Кожен із блоків оцінює один і той же клас кінцевих міток y, і його оцінка поєднується з первинним входом X для утворення розширеного входу для наступного блоку. Таким чином, вхід першого блоку містить лише первинні дані, тоді як до входів наступних блоків додаються також і виходи попередніх блоків. Тоді навчання вагової матриці U вищого шару за заданих інших ваг у мережі можливо сформулювати як задачу опуклої оптимізації:

 

що має розв'язок замкненого вигляду.[31]

На відміну від інших глибоких архітектур, таких як ГМП, метою є не виявляння перетвореного подання ознак. Структура ієрархії такого типу архітектури робить паралельне навчання прямолінійним, як задача оптимізації в пакетному режимі. У суто розрізнювальних завданнях ГСМ перевершують звичайні ГМП.

Тензорні глибокі складальні мережі

ред.

Ця архітектура — розширення ГСМ. Вона пропонує два важливі вдосконалення: вона використовує інформацію вищого порядку з коваріаційних статистик, і вона перетворює неопуклу задачу нижчого шару на опуклу підзадачу вищого шару.[34] ТГСМ використовують коваріаційну статистику в білінійному відображенні з кожного з двох окремих наборів прихованих вузлів одного й того ж шару до передбачень за допомогою тензора третього порядку.

В той час як розпаралелювання й масштабованість у звичайних ГНМ не розглядають серйозно,[35][36][37] все навчання для ГСМ і ТГСМ здійснюється в пакетному режимі, що уможливлює розпаралелювання.[32][31] Розпаралелювання дозволяє масштабувати цю конструкцію на більші (глибші) архітектури та набори даних.

Ця базова архітектура підходить для різноманітних завдань, таких як класифікування та регресія.

Регуляторний зворотній зв'язок

ред.

Мережі з регуляторним зворотним зв'язком (англ. regulatory feedback networks) мали початок як модель для пояснення мозкових явищ, виявляних під час розпізнавання, включно пакетуванням[en] в усій мережі та труднощами зі схожістю[en], універсальними при сенсорному розпізнаванні. Механізм для виконання оптимізації під час розпізнавання створюють за допомогою гальмівних з'єднань зворотного зв'язку з тими же входами, які їх активують. Це зменшує вимоги під час навчання та дозволяє полегшити навчання та уточнення, залишаючи можливість виконувати складне розпізнавання.

Мережа з регуляторним зворотним зв'язком здійснює висновування з використанням негативного зворотного зв'язку.[38] Зворотній зв'язок використовується для пошуку оптимального збудження вузлів. Це найбільше схоже на непараметричний метод[en], але відрізняється від k-найближчих сусідів тим, що математично емулює мережі прямого поширення.

Радіальні базисні функції (РБФ)

ред.

Радіальні базисні функції (англ. radial basis functions) — це функції, які мають критерій відстані відносно якогось центру. Радіальні базисні функції застосовували як заміну сигмоїдної передавальної характеристики прихованого шару в багатошарових перцептронах. Радіальнобазисні мережі (РБМ) мають два шари: на першому дані входу відображувано на кожну РБФ у «прихованому» шарі. Як РБФ зазвичай обирають гауссіани. У задачах регресії шар виходу це лінійна комбінація значень прихованого шару, що подає середній передбачуваний результат. Інтерпретація цього значення шару виходу така же, як і регресійна модель у статистиці. У задачах класифікування шар виходу це зазвичай сигмоїдна функція лінійної комбінації значень прихованого шару, що подає апостеріорну ймовірність. Продуктивність в обох випадках часто покращують за допомогою стискальних[en] методик, відомих у класичній статистиці як гребенева регресія. Це відповідає апріорному переконанню в малих значеннях параметрів (а відтак і гладких функціях виходу) в баєсовій системі.

Радіальнобазисні мережі мають перевагу уникання локальних мінімумів так само, як і багатошарові перцептрони. Це пов'язано з тим, що єдині параметри, які підлаштовуються в процесі навчання, це лінійне відображення з прихованого шару до шару виходу. Лінійність гарантує, що поверхня похибки квадратична, і відтак має єдиний мінімум, який легко знаходити. У задачах регресії його можливо знаходити за одну матричну операцію. У задачах класифікування із фіксованою нелінійністю, яку вносить сигмоїдна функція виходу, найефективніше впоруватися за допомогою ітеративно перезважуваних найменших квадратів[en].

РБМ мають недолік вимагання доброго покриття простору входу радіальними базисними функціями. Центри РБФ визначають із прив'язкою до розподілу даних входу, але без прив'язки до завдання передбачування. Як результат, ресурси подання можуть марнуватися на ділянках простору входу, що не мають відношення до цього завдання. Поширене розв'язання — пов'язати кожну точку даних з її власним центром, хоча це може розширювати лінійну систему для розв'язування на кінцевому шарі, й потребувати стискальних методик задля уникнення перенавчання.

Пов'язування кожних вхідних даних із РБФ природним чином призводить до таких ядрових методів як опорновекторні машини (ОВМ) та гауссові процеси (РБФ — ядрова функція[en]). Усі три підходи використовують нелінійну ядрову функцію для проєціювання даних входу до простору, в якому задачу навчання можливо розв'язати за допомогою лінійної моделі. Подібно до гауссових процесів, і на відміну від ОВМ, радіальнобазисні мережі зазвичай тренують за системою максимальної правдоподібності, максимізуючи ймовірність (мінімізуючи похибку). ОВМ уникають перенавчання, максимізуючи натомість розділення. ОВМ перевершують РБМ у більшості застосувань класифікування. У застосуваннях регресії вони можуть бути конкурентоспроможними, коли розмірність простору входу відносно мала.

Як працюють РБМ

ред.

Радіальнобазисні нейронні мережі концептуально подібні моделям k-найближчих сусідів (k-НС). Основна ідея полягає в подібності виходів для подібних входів.

Припустімо, що кожен випадок у тренувальному наборі має дві змінні—передбачувачі, x та y, а цільова змінна має дві категорії, позитивну та негативну. Як обчислюється цільова змінна за заданого нового випадку з передбачувальними значеннями x = 6, y = 5,1?

Класифікація найближчих сусідів, виконувана для цього прикладу, залежить від того, скільки сусідніх точок розглядають. Якщо використовують 1-НС, і найближча точка негативна, то нову точку слід класифікувати як негативну. Іншим чином, якщо використовують класифікацію 9-НС і враховують найближчі 9 точок, то вплив навколишніх 8 позитивних точок може переважити найближчу 9-ту (негативну) точку.

РБМ розташовує нейрони в просторі, описуваному змінними—передбачувачами (x, y у цьому прикладі). Цей простір має стільки вимірів, скільки змінних—передбачувачів. Евклідову відстань обчислюють від нової точки до центру кожного нейрона, а радіальну базисну функцію (РБФ, також звану ядровою функцією) застосовують до відстані для обчислення ваги (впливу) для кожного нейрона. Радіальну базисну функцію називають так тому, що аргументом цією функції є радіусна відстань.

Вага = РБФ (відстань)

Радіальна базисна функція

ред.

Значення для нової точки визначають підсумовуванням значень виходу функцій РБФ, помножених на ваги, обчислені для кожного нейрона.

Радіальна базисна функція для нейрона має центр і радіус (також званий розкидом, англ. spread). Радіус може бути різним для кожного нейрона, а в РБМ, породжуваних DTREG, радіус може відрізнятися й у кожному вимірі.

За більшого розкиду віддалені від точки нейрони мають більший вплив.

Архітектура

ред.

РБМ мають три шари:

  • Шар входу: у шарі входу по одному нейрону для кожної змінної—передбачувача. У випадку категорійних змінних використовують N-1 нейронів, де N — кількість категорій. Нейрони входу стандартизують діапазони значень відніманням медіани та діленням на міжквартильний розмах. Потім нейрони входу передають значення кожному з нейронів прихованого шару.
  • Прихований шар: цей шар має змінну кількість нейронів (визначувану процесом тренування). Кожен нейрон складається з радіальної базисної функції з центром у точці з такою кількістю вимірів, скільки змінних—передбачувачів. Розкид (радіус) РБФ може відрізнятися для кожного виміру. Центри та розкиди визначає тренування. Коли подано вектор x значень входу з шару входу, прихований нейрон обчислює евклідову відстань цього випробувального випадку від своєї центральної точки, а потім застосовує ядрову РБФ до цієї відстані, використовуючи значення розкиду. Отримане значення передається на рівень підсумовування.
  • Рівень підсумовування: значення, що надходить із нейрона в прихованому шарі, множиться на вагу, пов'язану з цим нейроном, і додається до зважених значень інших нейронів. Ця сума стає результатом. Для задач класифікування видається по одному виходу (з окремим набором вагових коефіцієнтів та одиницею підсумовування) для кожної цільової категорії. Вихідним значенням для категорії є ймовірність того, що оцінюваний випадок має цю категорію.

Тренування

ред.

Процес тренування визначає такі параметри:

  • Кількість нейронів у прихованому шарі
  • Координати центру кожної РБФ прихованого шару
  • Радіус (розкид) кожної РБФ у кожному вимірі
  • Ваги, застосовувані до виходів РБФ, коли вони переходять на рівень підсумовування

Для тренування РБМ використовували різні методи. Один підхід спочатку використовує кластерування методом k-середніх для пошуку центрів кластерів, які потім використовують як центри для РБФ. Проте кластерування методом k-середніх обчислювально витратне й часто не породжує оптимальної кількості центрів. Інший підхід полягає у використанні випадкової підмножини тренувальних точок як центрів.

DTREG використовує алгоритм тренування, який використовує еволюційний підхід для визначання оптимальних точок центрів та розкидів для кожного нейрона. Він визначає, коли припинити додавання нейронів до мережі, відстежуючи оцінювану похибку виключення по одному (англ. LOO, leave-one-out error), і припиняючи, коли похибка LOO починає збільшуватися через перенавчання.

Обчислення оптимальних ваг між нейронами в прихованому шарі та шарі підсумовування виконують за допомогою гребеневої регресії. Ітеративна процедура обчислює оптимальний параметр лямбда регуляризації, який мінімізує похибку узагальненого перехресного затверджування (англ. generalized cross-validation, GCV).

Узагальнена регресійна нейронна мережа

ред.

Узагальнена регресійна нейронна мережа (англ. General regression neural network, GRNN) — це нейронна мережа асоціативної пам'яті, подібна до ймовірнісної нейронної мережі, але яку використовують для регресії та наближення, а не для класифікування.

Глибока мережа переконань

ред.
 
Обмежена машина Больцмана (ОМБ, англ. RBM) із повноз'єднаними видимими та прихованими вузлами. Зауважте, що з'єднань прихований—прихований та видимий—видимий немає.

Глибока мережа переконань (ГМП, англ. deep belief network, DBN) — це ймовірнісна породжувальна модель, що складається з кількох прихованих шарів. Її можливо вважати композицією простих модулів, що вчаться.[39]

ГМП можливо використовувати для породжувального попереднього тренування глибокої нейронної мережі (ГНМ, англ. deep neural network, DNN), використовуючи отримані ваги ГМП як початкові ваги ГНМ. Потім різні розрізнювальні алгоритми можуть доналаштовувати ці ваги. Це особливо корисно, коли тренувальні дані обмежені, оскільки погано встановлені початкові ваги можуть значно перешкоджати тренуванню. Ці попередньо натреновані ваги потрапляють в область простору ваг, ближчу до оптимальних ваг, ніж випадкові варіанти. Це забезпечує як покращене моделювання, так і швидшу остаточну збіжність.[40]

Рекурентна нейронна мережа

ред.

Рекурентні нейронні мережі (РНМ, англ. Recurrent neural networks, RNN) поширюють дані вперед, але також і назад, від пізніших етапів обробки до попередніх. РНМ можливо використовувати як загальні обробники послідовностей.

Повнорекурентна

ред.

Цю архітектуру розроблено в 1980-х роках. Її мережа створює орієнтоване з'єднання між кожною парою вузлів. Кожен має змінне в часі дійснозначне (більше ніж просто нуль або одиниця) збудження (вихід). Кожне з'єднання має змінювану дійснозначну вагу. Деякі з вузлів називаються міченими вузлами, деякі — вузлами виходу, решту — прихованими вузлами.

Для керованого навчання в дискретночасовій постановці тренувальні послідовності дійснозначних векторів входу стають послідовностями збудження вузлів входу, по одному вектору входу за раз. На кожному кроці часу кожен невхідний вузол обчислює своє поточне збудження як нелінійну функцію зваженої суми збуджень усіх вузлів, від яких він отримує з'єднання. Система може явно збуджувати (незалежно від сигналів входу) деякі вузли виходу в певні моменти часу. Наприклад, якщо послідовність входу ще мовленнєвий сигнал, що відповідає вимовленій цифрі, кінцевим цільовим виходом у кінці послідовності може бути мітка, яка класифікує цю цифру. Для кожної послідовності її похибка це сума відхилень усіх збуджень, обчислених мережею, від відповідних цільових сигналів. Для тренувального набору численних послідовностей загальна похибка це сума помилок усіх окремих послідовностей.

Щоби мінімізувати загальну похибку, можливо використовувати градієнтний спуск, щоби змінювати кожну вагу пропорційно її похідній відносно похибки, за умови, що нелінійні передавальні функції диференційовні. Стандартний метод називають «зворотним поширенням у часі» або ЗПЧ (англ. backpropagation through time, BPTT), це узагальнення зворотного поширення для мереж прямого поширення.[41][42] Обчислювально витратніший інтерактивний варіант називають «реальночасовим рекурентним навчанням» або РЧРН (англ. Real-Time Recurrent Learning, RTRL).[43][44] На відміну від ЗПЧ цей алгоритм локальний у часі, але не локальний у просторі.[45][46] Існує інтерактивний гібрид ЗПЧ та ЗЧРН із проміжною складністю[47][48] з варіантами для безперервного часу.[49] Основна проблема з градієнтним спуском для стандартних архітектур РНМ полягає в тому, що градієнти похибок зникають експоненційно швидко з розміром часової затримки між важливими подіями.[50][51] Ці проблеми долає архітектура довгої короткочасної пам'яті.[52]

У постановці навчання з підкріпленням жоден учитель не надає цільових сигналів. Натомість для оцінювання продуктивності час від часу використовується функція допасованості, або функція винагороди, або функція корисності, яка впливає на потік входу через вузли виходу, з'єднані з приводами, які впливають на середовище. Для оптимізації вагової матриці часто використовують варіанти еволюційного обчислення.

Гопфілда

ред.
Докладніше: Мережа Гопфілда

Мережа Гопфілда (як і подібні мережі на основі атракторів) становить історичний інтерес, хоча вона не є загальною РНМ, оскільки вона не призначена для обробки послідовностей зразків. Натомість їй потрібні стаціонарні входи. Це РНМ, у якій усі з'єднання симетричні. Вона гарантує свою збіжність. Якщо з'єднання треновано з використанням геббового навчання, мережа Гопфілда може працювати як робастна асоціативна пам'ять, стійка до змін з'єднань.

Машина Больцмана

ред.
Докладніше: Машина Больцмана

Машину Больцмана можливо розглядати як зашумлену мережу Гопфілда. Це одна з перших нейронних мереж, яка продемонструвала навчання латентних змінних (прихованих вузлів). Навчання машини Больцмана спочатку симулювалося повільно, але алгоритм контрастивного розходження пришвидшує тренування машин Больцмана та добутків експертів[en].

Самоорганізаційна карта

ред.

Самоорганізаційна карта (СОК, англ. self-organizing map, SOM) використовує некероване навчання. Набір нейронів навчається відображувати точки простору входу на координати у просторі виходу. Простір входу може мати відмінні виміри та топологію, ніж простір виходу, і СОК намагається їх зберегти.

Навчане векторне квантування

ред.

Навчане векторне квантування[en] (НВК, англ. learning vector quantization, LVQ) можливо інтерпретувати як нейромережну архітектуру. Прототипні представники класів параметризують, разом із відповідною мірою відстані, у схемі класифікації на основі відстані.

Проста рекурентна

ред.

Прості рекурентні мережі (англ. simple recurrent networks) мають три шари з додаванням набору «контекстних вузлів» на шарі входу. До цих вузлів надходять з'єднання з прихованого шару або шару виходу з фіксованою одиничною вагою.[53] На кожному часовому кроці вхідні дані поширюються стандартним прямим чином, а потім застосовується подібне до зворотного поширення правило навчання (без виконання градієнтного спуску). Фіксовані зворотні з'єднання залишають копію попередніх значень прихованих вузлів у контекстних вузлах (оскільки вони поширюються з'єднаннями до застосування правила навчання).

Резервуарне обчислення

ред.

Резервуарне обчислення (англ. reservoir computing) — це обчислювальна система, яку можливо розглядати як розширення нейронних мереж.[54] Зазвичай сигнал входу подають у фіксовану (випадкову) динамічну систему, звану резервуаром (англ. reservoir), чия динаміка відображає сигнал входу до вищої вимірності. Механізм зчитування (англ. readout) тренують відображувати цей резервуар до бажаного виходу. Тренування здійснюють лише на етапі зчитування. Одним із типів резервуарного обчислення є рідкі скінченні автомати.[55][56]

Відлуння стану

ред.

Мережа з відлунням стану (МВС, англ. echo state network, ESN) використовує розріджено з'єднаний випадковий прихований шар. Єдиною тренованою частиною мережі є ваги нейронів виходу. МВС добре відтворюють певні часові ряди.[57]

Довга короткочасна пам'ять

ред.

Довга короткочасна пам'ять (ДКЧП, англ. long short-term memory, LSTM)[52] дозволяє уникати проблеми зникання градієнта. Вона працює навіть із великими затримками між входами та може обробляти сигнали, які змішують низькочастотні та високочастотні складові. РНМ ДКЧП перевершували інші РНМ та інші методи навчання послідовностей, такі як ПММ, у таких застосуваннях як вивчення мови[58] та розпізнавання неперервного рукописного тексту.[59]

Двонапрямна

ред.

Двонапрямна РНМ, або ДРНМ (англ. bi-directional RNN, BRNN), використовує скінченну послідовність для передбачування або мічення кожного елемента послідовності на основі як минулого, так і майбутнього контексту цього елемента.[60] Це здійснюють додаванням виходів двох РНМ: одна оброблює послідовність зліва направо, інша — справа наліво. Поєднані виходи це передбачувачі надаваних учителем цільових сигналів. Ця методика виявилася особливо корисною у поєднанні з ДКЧП.[61]

Ієрархічна

ред.

Ієрархічна РНМ (англ. hierarchical RNN) поєднує елементи різними способами, щоби розкласти ієрархічну поведінку на корисні підпрограми.[62][63]

Стохастична

ред.

Відмінну форму звичайних нейронних мереж, стохастичну штучну нейронну мережу (англ. stochastic artificial neural network), використовували як наближення випадкових функцій.

Генетичний масштаб

ред.

РНМ (часто ДКЧП), де ряд розкладають на кілька масштабів, кожен з яких інформує про основну відстань між двома послідовними точками. Масштаб першого порядку складається з нормальної РНМ, другого порядку складається з усіх точок, розділених двома індексами, і так далі. РНМ N-го порядку з'єднує перший та останній вузол. Результати з усіх різних масштабів розглядають як комітетну машину[en], а пов'язані оцінки використовують генетично для наступної ітерації.

Модульна

ред.

Біологічні дослідження показали, що людський мозок працює як сукупність невеликих мереж. Це усвідомлення породило поняття модульних нейронних мереж, у яких кілька невеликих мереж співпрацюють або змагаються для розв'язання задачі.

Комітет машин

ред.

Комітет машин (КМ, англ. committee of machines, CoM) — це набір різних нейронних мереж, які разом «голосують» за певний приклад. Загалом це дає набагато кращий результат, ніж окремі мережі. Оскільки нейронні мережі страждають на локальні мінімуми, починання з тієї самої архітектури та тренування, але з використанням випадково різних початкових ваг, часто дають дуже різні результати.[джерело?] КМ прагне стабілізувати цей результат.

КМ схожий на загальний метод машинного навчання натяжкове агрегування (англ. bagging), за винятком того, що необхідну різноманітність машин у комітеті отримують тренуванням з різними початковими вагами, а не тренуванням на різних випадково вибраних підмножинах тренувальних даних.

Асоціативна

ред.

Асоціативна нейронна мережа (АСНМ, англ. associative neural network, ASNN) — це розширення комітету машин, яке поєднує декілька нейронних мереж прямого поширення та методику k-найближчих сусідів. Вона використовує кореляцію між відгуками ансамблю як міру відстані серед проаналізованих випадків для kНС. Це виправляє зміщення ансамблю нейронної мережі. Асоціативна нейронна мережа має пам'ять, яка може збігатися з тренувальним набором. Якщо стають доступними нові дані, мережа миттєво покращує свою передбачувальну здатність і забезпечує наближення даних (самонавчається) без перетреновування. Інша важлива особливість АСНМ це можливість інтерпретування результатів нейронної мережі шляхом аналізу кореляцій між випадками даних у просторі моделей.[64]

Фізична

ред.

Фізична нейронна мережа (англ. physical neural network) містить електрично регульований опірний матеріал для імітування штучних синапсів. До прикладів належить нейронна мережа ADALINE на основі мемристорів.[65] Оптична нейронна мережа це фізичне втілення штучної нейронної мережі на оптичних складових.

Динамічна

ред.

Динамічні нейронні мережі (англ. dynamic neural networks) розглядають нелінійну багатовимірну поведінку та включають (навчання) залежної від часу поведінки, такої як перехідні явища та ефекти затримки. Методики оцінювання системного процесу на основі спостережуваних даних підпадають під загальну категорію виявляння системи.

Каскадна

ред.

Каскадна кореляція (англ. cascade correlation) — це архітектура та алгоритм керованого навчання. Замість простого підлаштовування ваг у мережі з фіксованою топологією[66] каскадна кореляція починається з мінімальної мережі, а потім автоматично тренується й додає нові приховані вузли один за одним, створюючи багатошарову структуру. Щойно новий прихований вузол додано до мережі, його ваги з боку входу заморожуються. Тоді цей вузол стає постійним виявлячем ознак у мережі, доступним для отримування виходів або для створення інших, складніших виявлячів ознак. Архітектура каскадної кореляції має кілька переваг: вона швидко навчається, визначає власний розмір і топологію, зберігає створені структури, навіть якщо тренувальний набір змінюється, і не вимагає зворотного поширення.

Нейронечітка

ред.

Нейронечітка мережа (англ. neuro-fuzzy network) — це система нечіткого висновування (СНВ, англ. fuzzy inference system, FIS) в тілі штучної нейронної мережі. Залежно від типу СНВ кілька шарів імітують процеси, залучені у подібних до нечіткого висновування внесенні нечіткості (англ. fuzzification), висновуванні, агрегуванні та відновленні чіткості (англ. defuzzification). Вбудовування СНВ у загальну структуру ШНМ має перевагу використання доступних методів тренування ШНМ для знаходження параметрів нечіткої системи.

Композиційна шаблоностворювальна

ред.

Композиційні шаблоностворювальні мережі (КШСМ, англ. compositional pattern-producing networks, CPPN) — це різновид штучних нейронних мереж, які відрізняються своїм набором передавальних функцій та способом їх застосовування. У той час як типові штучні нейронні мережі часто містять лише сигмоїдні функції (й іноді гауссові), КШСМ можуть містити обидва типи функцій та багато інших. Крім того, на відміну від типових штучних нейронних мереж, КШСМ застосовують над усім простором можливих даних входу, щоби вони могли подавати повне зображення. Оскільки вони є композиціями функцій, КШСМ фактично кодують зображення з нескінченною роздільністю, і їх можливо дискретизувати для конкретного дисплея з будь-якою оптимальною роздільністю.

Мережі з пам'яттю

ред.

Мережі з пам'яттю (англ. memory networks)[67][68] включають довготривалу пам’ять[en]. Цю довготривалу пам'ять можливо читати та записувати до неї з метою використання її для передбачування. Ці моделі застосовували в контексті відповідання на питання (англ. question answering, QA), де довготривала пам'ять фактично діє як (динамічна) база знань, а виходом є текстова відповідь.[69]

У розрідженій розподіленій пам’яті[en] та ієрархічній часовій пам'яті образи, закодовані нейронними мережами, використовуються як адреси асоціативної пам'яті, причому «нейрони» по суті слугують кодувальниками та декодувальниками адрес. Проте ранні контролери таких видів пам'яті не були диференційовними.[70]

Асоціативна пам'ять з одного погляду

ред.

Цей тип мережі (англ. one-shot associative memory) може додавати нові образи без перетреновування. Це здійснюється шляхом створення спеціальної структури пам'яті, яка призначує кожен новий образ ортогональній площині за допомогою суміжно з'єднаних ієрархічних масивів.[71] Ця мережа пропонує реальночасове розпізнавання образів та високу масштабованість; це вимагає паралельної обробки й тому найкраще підходить для таких платформ, як бездротові сенсорні мережі, мережні обчислення та ГПЗП.

Ієрархічна часова пам'ять

ред.

Ієрархічна часова пам'ять (ІЧП, англ. hierarchical temporal memory, HTM) моделює деякі структурні та алгоритмічні властивості нової кори. ІЧП — біоміметична модель, що ґрунтується на теорії пам'яті — передбачування. ІЧП — це метод для виявляння та висновування високорівневих причин спостережуваних вхідних образів та послідовностей, і відтак побудови дедалі складнішої моделі світу.

ІЧП поєднує наявні ідеї щоби імітувати нову кору простою конструкцією, яка пропонує багато можливостей. ІЧП поєднує та розширює підходи, використовувані в баєсових мережах, алгоритмах просторового та часового кластерування, використовуючи при цьому деревоподібну ієрархію вузлів, поширену в нейронних мережах.

Голографічна асоціативна пам'ять

ред.

Голографічна асоціативна пам'ять (ГАП, англ. Holographic Associative Memory, HAM) — це аналогова кореляційна асоціативна система «стимул-відгук». Інформація відображається на фазове спрямування комплексних чисел. Ця пам'ять ефективна для завдань асоціативного запам'ятовування, узагальнювання та розпізнавання образів зі змінною увагою. Динамічна локалізація пошуку є центральною для біологічної пам'яті. При зоровому сприйнятті люди зосереджуються на конкретних об'єктах в образі. Люди можуть змінювати зосередження з об'єкта на об'єкт без навчання. ГАП може імітувати цю здатність, створюючи явні подання для зосереджування. Вона використовує бімодальне подання образа та схожий на голограму комплексний сферичний ваговий простір станів. ГАМ корисні для оптичного втілювання, оскільки гіперсферичні обчислення в їхній основі можливо втілювати за допомогою оптичних обчислень.[72]

Пов'язані з ДКЧП диференційовні структури пам'яті

ред.

Окрім довгої короткочасної пам'яті (ДКЧП), інші підходи також додали диференційовну пам'ять до рекурентних функцій. Наприклад:

  • Диференційовні дії проштовхування та виштовхування для мереж альтернативної пам'яті, звані нейронними стековими машинами (англ. neural stack machines)[73][74]
  • Мережі пам'яті, в яких зовнішнє диференційовне сховище керівної мережі знаходиться у швидких вагах іншої мережі[75]
  • Забувальні вентилі ДКЧП[76]
  • Автореферентні РНМ з особливими вузлами виходу для адресування та швидкого маніпулювання власними вагами РНМ на диференційовний манір (внутрішнє сховище)[77][78]
  • Навчання перетворення з необмеженою пам'яттю[79]

Нейронні машини Тюрінга

ред.

Нейронні машини Тюрінга (НМТ, англ. neural Turing machines)[80] спаровують мережі ДКЧП із зовнішніми ресурсами пам'яті, з якими вони можуть взаємодіяти за допомогою процесів уваги (англ. attentional processes). Ця зв'язана система аналогічна машині Тюрінга, але диференціюється наскрізно, що дозволяє ефективно тренувати її градієнтним спуском. Попередні результати показують, що нейронні машини Тюрінга можуть висновувати з прикладів входу та виходу прості алгоритми, такі як копіювання, впорядковування та асоціативне пригадування.

Диференційовні нейронні комп'ютери[en] (англ. differentiable neural computers, DNC) — це розширення НМТ. На задачах обробки послідовностей вони перевершили нейронні машини Тюрінга, системи довгої короткочасної пам'яті та мережі з пам'яттю.[81][82][83][84][85]

Семантичне гешування

ред.

Підходи, які подають попередній досвід безпосередньо, і використовують схожий досвід для формування локальної моделі, часто називають методами найближчого сусіда або k-найближчих сусідів.[86] В семантичному гешуванні (англ. semantic hashing) корисне глибоке навчання,[87] де з великого набору документів отримують глибоку графову модель векторів кількостей слів.[88] Документи відображуються на комірки пам'яті таким чином, що семантично схожі документи розташовуються за близькими адресами. Потім документи, схожі на документ із запиту, можливо знаходити шляхом простого доступу до всіх адрес, що відрізняються від адреси документа із запиту лише кількома бітами. На відміну від розрідженої розподіленої пам’яті[en], що оперує 1000-бітними адресами, семантичне гешування працює на 32- або 64-бітних адресах, що зустрічаються в традиційній комп'ютерній архітектурі.

Вказівникові мережі

ред.

Глибокі нейронні мережі можливо потенційно поліпшувати поглибленням та скороченням параметрів, за збереження здатності до тренування. В той час як тренування надзвичайно глибоких (наприклад, завглибшки в мільйон шарів) нейронних мереж може бути непрактичним, ЦП-подібні архітектури, такі як вказівникові мережі (англ. pointer networks),[89] та нейронні машини з довільним доступом (англ. neural random-access machines),[90] долають це обмеження завдяки застосуванню зовнішньої пам'яті з довільним доступом та інших складових, що зазвичай належать до комп'ютерної архітектури, таких як регістри, АЛП та вказівники. Такі системи працюють на векторах розподілів імовірностей, що зберігаються в комірках пам'яті та регістрах. Таким чином, ця модель повністю диференційовна, й тренується з краю в край. Ключовою характеристикою цих моделей є те, що їхня глибина, розмір їхньої короткочасної пам'яті та число параметрів можливо змінювати незалежно.

Гібриди

ред.

Кодувально—декодувальні мережі

ред.

Кодувально-декодувальні системи (англ. encoder–decoder frameworks) ґрунтуються на нейронних мережах, що відображують високоструктурований вхід на високоструктурований вихід. Цей підхід виник у контексті машинного перекладу,[91][92][93] де вхід та вихід є писаними реченнями двома природними мовами. В тій праці використовували РНМ або ЗНМ ДКЧП як кодувальник для отримання зведення про вхідне речення, і це зведення декодували умовною РНМ-моделлю мови для продукування перекладу.[94] Для цих систем є спільними будівельні блоки: вентильні (англ. gated) РНМ та ЗНМ, і треновані механізми уваги.

Інші типи

ред.

Миттєво треновані

ред.

Миттєво треновані нейронні мережі[en] (МТНН, англ. Instantaneously trained neural networks, ITNN) були натхнені явищем короткочасного навчання (англ. short-term learning), яке, здається, відбувається миттєво. У цих мережах ваги прихованого шару та шару виходу відображаються безпосередньо з даних тренувального вектора. Зазвичай вони працюють з двійковими даними, але існують версії й для неперервних даних, які потребують невеликої додаткової обробки.

Спайкові

ред.

Спайкові нейронні мережі[en] (СНМ, англ. spiking neural networks, SNN) явно враховують хронометраж вхідних даних. Вхід та вихід цієї мережі зазвичай подано у вигляді рядів спайків (дельта-функції або складнішого вигляду). СНМ може обробляти інформацію в часовій області (сигналів, які змінюються в часі). Їх часто втілюють як рекурентні мережі. СНМ також є одним із видів імпульсних комп'ютерів[en].[95]

Спайкові нейронні мережі з затримками аксональної провідності демонструють поліхронізацію, і відтак можуть мати дуже велику ємність пам'яті.[96]

СНМ та часові кореляції нейронних збірок у таких мережах використовували для моделювання поділу фігур/тла та з'єднування областей у зоровій системі.

Просторові

ред.

Просторові нейронні мережі (ПНМ, англ. spatial neural networks, SNN) становлять надкатегорію спеціалізованих нейронних мереж (НМ) для подавання та передбачування географічних явищ. Вони загалом покращують як статистичну точність, так і надійність а-просторових/класичних НМ, коли обробляють геопросторові набори даних, а також інших просторових (статистичних) моделей (наприклад, просторових регресійних моделей), коли змінні цих геопросторових наборів даних описують нелінійні зв'язки.[97][98][99] Прикладами ПНМ є поросторові нейронні мережі OSFA, SVANN та GWNN.

Неокогнітрон

ред.

Неокогнітрон (англ. neocognitron) — це ієрархічна багатошарова мережа, змодельована на основі зорової кори. Він використовує кілька типів вузлів (первинно два, звані простими[en], англ. simple, та складними[en], англ. complex, клітинами) як каскадну модель для використання в задачах розпізнавання образів.[100][101][102] Локальні ознаки виділяють S-клітини, деформацію яких допускають C-клітини. Локальні ознаки у вході поступово інтегруються та класифікуються на вищих шарах.[103] Серед різних видів неокогнітронів[104] є системи, які можуть виявляти декілька образів в одному вході за допомогою зворотного поширення для досягнення вибіркової уваги[en].[105] Його використовували для завдань розпізнавання образів, він надихнув згорткові нейронні мережі.[106]

Змішані ієрархічно—глибокі моделі

ред.

Змішані ієрархічно-глибокі моделі (англ. compound hierarchical-deep models) компонують глибокі мережі з непараметричними баєсовими моделями. Ознак можливо навчатися із застосуванням таких глибоких архітектур як ГМП,[107] глибокі машини Больцмана (ГМБ),[108] глибокі автокодувальники,[109] згорткові варіанти,[110][111] ппОМБ,[112] глибокі кодувальні мережі,[113] ГМП з розрідженим навчанням ознак,[114] РНМ,[115] умовні ГМП,[116] знешумлювальні автокодувальники.[117] Це забезпечує краще подання, швидше навчання та точніше класифікування з даними високої вимірності. Проте ці архітектури слабкі в навчанні нововведених класів на кількох прикладах, оскільки всі вузли мережі залучено до подання входу (розподілене подання) і мусить бути підлаштовувано разом (високий ступінь свободи). Обмеження ступеню свободи знижує кількість параметрів для навчання, допомагаючи навчанню нових класів з кількох прикладів. Ієрархічні баєсові (ІБ) моделі дозволяють навчатися з кількох прикладів, наприклад[118][119][120][121][122] для комп'ютерного бачення, статистики та когнітивної науки.

Змішані ІГ-архітектури мають на меті поєднання характеристик як ІБ, так і глибоких мереж. Змішана архітектура ІПД-ГМБ це ієрархічний процес Діріхле[en] (ІПД, англ. hierarchical Dirichlet process, HDP) як ієрархічна модель, що включає архітектуру ГМБ. Це повна породжувальна модель, узагальнювана з абстрактних понять, що течуть крізь шари цієї моделі, здатна синтезувати нові приклади нововведених класів, що виглядають «досить» природно. Всіх рівнів навчаються спільно, зведенням до максимуму функції внеску спільної логарифмічної ймовірності.[123]

У ГМБ з трьома прихованими шарами ймовірність видимого входу ''ν'' становить

 

де   — набір прихованих вузлів, а   — параметри моделі, що подають умови симетричної взаємодії видимі—приховані та приховані—приховані.

Навчена модель ГМБ це неорієнтована модель, яка визначає спільний розподіл  . Одним зі способів вираження навченого є умовна модель   та апріорний член  .

Тут   подає умовну модель ГМБ, яку можливо розглядати як двошарову ГМБ, але з членами зміщення, заданими станами  :

 

Глибокі передбачувальні кодувальні мережі

ред.

Глибока передбачувальна кодувальна мережа (ГПКМ, англ. deep predictive coding network, DPCN) — це передбачувальна схема кодування, що використовує спадну (англ. top-down) інформацію для емпіричного підлаштовування апріорних, необхідних для процедури висхідного (англ. bottom-up) висновування, засобами глибокої локально з'єднаної породжувальної моделі. Це працює шляхом виділяння розріджених ознак зі спостережень, що змінюються в часі, із застосуванням лінійної динамічної моделі. Потім для навчання інваріантних подань ознак застосовується стратегія агрегування (англ. pooling). Ці блоки компонуються, щоби сформувати глибоку архітектуру, і тренуються жадібним пошаровим некерованим навчанням. Шари утворюють щось на зразок марковського ланцюга, такого, що стани на будь-якому шарі залежать лише від наступного та попереднього шарів.

ГПКМ передбачують подання шару, використовуючи спадний підхід із застосуванням інформації з вищого шару та часових залежностей від попередніх станів.[124]

ГПКМ можливо розширювати таким чином, щоби утворювати згорткову мережу.[124]

Багатошарова ядрова машина

ред.

Багатошарові ядрові машини (БЯМ, англ. Multilayer Kernel Machine, MKM) — це спосіб навчання високонелінійних функцій за допомогою ітеративного застосування слабко нелінійних ядер. Вони використовують ядровий метод головних компонент[en] (ЯМГК, англ. kernel principal component analysis, KPCA)[125] як метод для жадібного пошарового передтренувального кроку глибокого некерованого навчання.[126]

 -й шар навчається подання попереднього шару  , виділяючи   головних компонент (ГК, англ. principal component, PC) виходу проєкційного шару   в області ознак, що виводить ядро. Щоби знижувати розмірність уточненого подання на кожному шарі, керована стратегія обирає найінформативніші серед ознак, виділених ЯМГК. Процес такий:

  • вишикувати   ознак відповідно до їхньої взаємної інформації з мітками класів;
  • для різних значень K та   обчислити рівень похибки класифікації методом k-найближчих сусідів (k-НС, англ. K-nearest neighbor, K-NN), використовуючи лише   найінформативніших ознак на затверджувальному наборі;
  • значення   з яким класифікатор досяг найнижчого рівня похибки, визначає число ознак, які потрібно зберегти.

Метод ЯМГК як будівельні блоки для БЯМ супроводжують деякі недоліки.

Для розуміння усного мовлення розробили простіший спосіб застосування ядрових машин для глибокого навчання.[127] Головна ідея полягає у використанні ядрової машини для наближення неглибокої нейронної мережі з нескінченним числом прихованих вузлів, і подальшому застосуванні глибокої складальної мережі для зрощування виходу цієї ядрової машини та сирого входу при побудові наступного, вищого рівня ядрової машини. Число рівнів у цій глибокій опуклій мережі є гіперпараметром системи в цілому, який повинен визначатися перехресним затверджуванням.

Див. також

ред.

Примітки

ред.
  1. University Of Southern California (16 червня 2004). Gray Matters: New Clues Into How Neurons Process Information. ScienceDaily (англ.). Цитата: «… „Дивно, що після сотні років сучасних нейронаукових досліджень ми досі не знаємо базових функцій обробки інформації нейроном“, зазначив Барлетт Мел…»
  2. Weizmann Institute of Science. (2 квітня 2007). It's Only A Game Of Chance: Leading Theory Of Perception Called Into Question. ScienceDaily (англ.). Цитата: «…„Починаючи з 1980-х років, багато нейробіологів вірили, що вони володіють ключем до того, як нарешті почати розуміти роботу мозку. Але ми надали переконливі свідчення того, що мозок може не кодувати інформацію за допомогою точних моделей діяльності.“…»
  3. University Of California – Los Angeles (14 грудня 2004). UCLA Neuroscientist Gains Insights Into Human Brain From Study Of Marine Snail. ScienceDaily (англ.). Цитата: «…„Наша робота передбачає, що мозкові механізми для формування такого роду асоціацій можуть бути надзвичайно подібними у равликів і вищих організмів… Ми не повністю розуміємо навіть дуже прості види навчання у цих тварин.“…»
  4. Yale University (13 квітня 2006). Brain Communicates In Analog And Digital Modes Simultaneously. ScienceDaily (англ.). Цитата: «…Маккормік сказав, що майбутні дослідження та моделі роботи нейронів у мозку повинні враховувати змішану аналогово-цифрову природу зв'язку. Лише завдяки глибокому розумінню цього змішаного способу передачі сигналу можна досягти дійсно глибокого розуміння мозку та його розладів, сказав він…»
  5. Ivakhnenko, Alexey Grigorevich (1968). The group method of data handling – a rival of the method of stochastic approximation. Soviet Automatic Control (англ.). 13 (3): 43—55.
  6. Ivakhnenko, A. G. (1971). Polynomial Theory of Complex Systems. IEEE Transactions on Systems, Man, and Cybernetics (англ.). 1 (4): 364—378. doi:10.1109/TSMC.1971.4308320. S2CID 17606980.
  7. Kondo, T.; Ueno, J. (2008). Multi-layered GMDH-type neural network self-selecting optimum neural network architecture and its application to 3-dimensional medical image recognition of blood vessels. International Journal of Innovative Computing, Information and Control (англ.). 4 (1): 175—187.
  8. а б Bengio, Y. (15 листопада 2009). Learning Deep Architectures for AI (PDF). Foundations and Trends in Machine Learning (англ.). 2 (1): 1—127. CiteSeerX 10.1.1.701.9550. doi:10.1561/2200000006. ISSN 1935-8237. S2CID 207178999.
  9. Liou, Cheng-Yuan (2008). Modeling word perception using the Elman network (PDF). Neurocomputing (англ.). 71 (16–18): 3150—3157. doi:10.1016/j.neucom.2008.04.030.
  10. Liou, Cheng-Yuan (2014). Autoencoder for words. Neurocomputing (англ.). 139: 84—96. doi:10.1016/j.neucom.2013.09.055.
  11. Diederik P Kingma; Welling, Max (2013). Auto-Encoding Variational Bayes (англ.). arXiv:1312.6114 [stat.ML].
  12. Boesen, A.; Larsen, L.; Sonderby, S.K. (2015). Generating Faces with Torch (англ.).
  13. Competitive probabilistic neural network (PDF Download Available). ResearchGate (англ.). Процитовано 16 березня 2017.
  14. Probabilistic Neural Networks (англ.). Архів оригіналу за 18 грудня 2010. Процитовано 22 березня 2012.
  15. Cheung, Vincent; Cannons, Kevin (10 червня 2002). An Introduction to Probabilistic Neural Networks (PDF). Probabilistic and Statistical Inference Group (англ.). Архів оригіналу (PDF) за 31 січня 2012. Процитовано 22 березня 2012.
  16. TDNN Fundamentals (англ.). Архів оригіналу за 22 березня 2017. Процитовано 30 липня 2023., глава з інтернетпосібника SNNS[de]
  17. Zhang, Wei (1990). Parallel distributed processing model with local space-invariant interconnections and its optical architecture. Applied Optics (англ.). 29 (32): 4790—7. Bibcode:1990ApOpt..29.4790Z. doi:10.1364/ao.29.004790. PMID 20577468.
  18. Zhang, Wei (1988). Shift-invariant pattern recognition neural network and its optical architecture. Proceedings of Annual Conference of the Japan Society of Applied Physics (англ.).
  19. Weng, J.; Ahuja, N.; Huang, T. S. (травень 1993). Learning recognition and segmentation of 3-D objects from 2-D images (PDF). 4th International Conf. Computer Vision (англ.). Berlin, Germany. с. 121—128.
  20. Fukushima, K. (1980). Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biol. Cybern. (англ.). 36 (4): 193—202. doi:10.1007/bf00344251. PMID 7370364. S2CID 206775608.
  21. LeCun, Yann. LeNet-5, convolutional neural networks (англ.). Процитовано 16 листопада 2013.
  22. Convolutional Neural Networks (LeNet) – DeepLearning 0.1 documentation. DeepLearning 0.1 (англ.). LISA Lab. Архів оригіналу за 28 грудня 2017. Процитовано 31 серпня 2013.
  23. LeCun та ін. (1989). Backpropagation Applied to Handwritten Zip Code Recognition. Neural Computation (англ.). 1: 541—551.
  24. LeCun, Yann (2016). Slides on Deep Learning Online (англ.).
  25. Unsupervised Feature Learning and Deep Learning Tutorial. ufldl.stanford.edu (англ.).
  26. Hinton, Geoffrey E.; Krizhevsky, Alex; Wang, Sida D. (2011), Transforming Auto-Encoders, Artificial Neural Networks and Machine Learning – ICANN 2011, Lecture Notes in Computer Science (англ.), т. 6791, Springer, с. 44—51, CiteSeerX 10.1.1.220.5099, doi:10.1007/978-3-642-21735-7_6, ISBN 9783642217340, S2CID 6138085
  27. Szegedy, Christian; Liu, Wei; Jia, Yangqing; Sermanet, Pierre; Reed, Scott E.; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2015). Going deeper with convolutions. IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2015, Boston, MA, USA, June 7–12, 2015 (англ.). IEEE Computer Society. с. 1—9. arXiv:1409.4842. doi:10.1109/CVPR.2015.7298594.
  28. Ran, Lingyan; Zhang, Yanning; Zhang, Qilin; Yang, Tao (12 червня 2017). Convolutional Neural Network-Based Robot Navigation Using Uncalibrated Spherical Images (PDF). Sensors (англ.). 17 (6): 1341. Bibcode:2017Senso..17.1341R. doi:10.3390/s17061341. ISSN 1424-8220. PMC 5492478. PMID 28604624.
  29. van den Oord, Aaron; Dieleman, Sander; Schrauwen, Benjamin (1 січня 2013). Burges, C. J. C.; Bottou, L.; Welling, M.; Ghahramani, Z.; Weinberger, K. Q. (ред.). Deep content-based music recommendation (PDF) (англ.). Curran Associates. с. 2643—2651.
  30. Collobert, Ronan; Weston, Jason (1 січня 2008). A unified architecture for natural language processing. Proceedings of the 25th international conference on Machine learning - ICML '08 (англ.). New York, NY, USA: ACM. с. 160—167. doi:10.1145/1390156.1390177. ISBN 978-1-60558-205-4. S2CID 2617020.
  31. а б в Deng, Li; Yu, Dong; Platt, John (2012). Scalable stacking and learning for building deep architectures (PDF). 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (англ.). с. 2133—2136. doi:10.1109/ICASSP.2012.6288333. ISBN 978-1-4673-0046-9. S2CID 16171497. Архів оригіналу (PDF) за 4 березня 2016. Процитовано 30 липня 2023.
  32. а б Deng, Li; Yu, Dong (2011). Deep Convex Net: A Scalable Architecture for Speech Pattern Classification (PDF). Proceedings of the Interspeech (англ.): 2285—2288. doi:10.21437/Interspeech.2011-607. S2CID 36439.
  33. David, Wolpert (1992). Stacked generalization. Neural Networks (англ.). 5 (2): 241—259. CiteSeerX 10.1.1.133.8090. doi:10.1016/S0893-6080(05)80023-1.
  34. Hutchinson, Brian; Deng, Li; Yu, Dong (2012). Tensor deep stacking networks. IEEE Transactions on Pattern Analysis and Machine Intelligence (англ.). 1—15 (8): 1944—1957. doi:10.1109/tpami.2012.268. PMID 23267198. S2CID 344385.
  35. Hinton, Geoffrey; Salakhutdinov, Ruslan (2006). Reducing the Dimensionality of Data with Neural Networks. Science (англ.). 313 (5786): 504—507. Bibcode:2006Sci...313..504H. doi:10.1126/science.1127647. PMID 16873662. S2CID 1658773.
  36. Dahl, G.; Yu, D.; Deng, L.; Acero, A. (2012). Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition. IEEE Transactions on Audio, Speech, and Language Processing (англ.). 20 (1): 30—42. CiteSeerX 10.1.1.227.8990. doi:10.1109/tasl.2011.2134090. S2CID 14862572.
  37. Mohamed, Abdel-rahman; Dahl, George; Hinton, Geoffrey (2012). Acoustic Modeling Using Deep Belief Networks. IEEE Transactions on Audio, Speech, and Language Processing (англ.). 20 (1): 14—22. CiteSeerX 10.1.1.338.2670. doi:10.1109/tasl.2011.2109382. S2CID 9530137.
  38. Achler, T.; Omar, C.; Amir, E. (2008). Shedding Weights: More With Less. International Joint Conference on Neural Networks (англ.).
  39. Hinton, G.E. (2009). Deep belief networks. Scholarpedia (англ.). 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947.
  40. Larochelle, Hugo; Erhan, Dumitru; Courville, Aaron; Bergstra, James; Bengio, Yoshua (2007). An empirical evaluation of deep architectures on problems with many factors of variation. Proceedings of the 24th international conference on Machine learning. ICML '07 (англ.). New York, NY, USA: ACM. с. 473—480. CiteSeerX 10.1.1.77.3242. doi:10.1145/1273496.1273556. ISBN 9781595937933. S2CID 14805281.
  41. Werbos, P. J. (1988). Generalization of backpropagation with application to a recurrent gas market model. Neural Networks (англ.). 1 (4): 339—356. doi:10.1016/0893-6080(88)90007-x.
  42. Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. Learning Internal Representations by Error Propagation (Звіт) (англ.). S2CID 62245742.
  43. Robinson, A. J.; Fallside, F. (1987). The utility driven dynamic error propagation network. Technical Report CUED/F-INFENG/TR.1 (PDF) (Звіт) (англ.). Cambridge University Engineering Department.
  44. Williams, R. J.; Zipser, D. (1994). Gradient-based learning algorithms for recurrent networks and their computational complexity (PDF). Back-propagation: Theory, Architectures and Applications (англ.). Hillsdale, NJ: Erlbaum. S2CID 14792754.
  45. Schmidhuber, J. (1989). A local learning algorithm for dynamic feedforward and recurrent networks. Connection Science (англ.). 1 (4): 403—412. doi:10.1080/09540098908915650. S2CID 18721007.
  46. Principe, J.C.; Euliano, N.R.; Lefebvre, W.C. Neural and Adaptive Systems: Fundamentals through Simulation (англ.).
  47. Schmidhuber, J. (1992). A fixed size storage O(n3) time complexity learning algorithm for fully recurrent continually running networks. Neural Computation (англ.). 4 (2): 243—248. doi:10.1162/neco.1992.4.2.243. S2CID 11761172.
  48. Williams, R. J. (1989). Complexity of exact gradient computation algorithms for recurrent neural networks. Technical Report Technical Report NU-CCS-89-27 (Звіт) (англ.). Boston: Northeastern University, College of Computer Science.
  49. Pearlmutter, B. A. (1989). Learning state space trajectories in recurrent neural networks (PDF). Neural Computation (англ.). 1 (2): 263—269. doi:10.1162/neco.1989.1.2.263. S2CID 16813485.
  50. Hochreiter, S. (1991). Untersuchungen zu dynamischen neuronalen Netzen (Дипломна робота Diploma) (нім.). Munich: Institut f. Informatik, Technische Univ.
  51. Hochreiter, S.; Bengio, Y.; Frasconi, P.; Schmidhuber, J. (2001). Gradient flow in recurrent nets: the difficulty of learning long-term dependencies (PDF). У Kremer, S. C.; Kolen, J. F. (ред.). A Field Guide to Dynamical Recurrent Neural Networks (англ.). IEEE Press.
  52. а б Hochreiter, S.; Schmidhuber, J. (1997). Long short-term memory. Neural Computation (англ.). 9 (8): 1735—1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. S2CID 1915014.
  53. Cruse, Holk. Neural Networks as Cybernetic Systems (PDF) (англ.) (вид. 2nd and revised).
  54. Schrauwen, Benjamin; Verstraeten, David; Campenhout, Jan Van (2007). An overview of reservoir computing: theory, applications, and implementations. European Symposium on Artificial Neural Networks ESANN (англ.). с. 471—482.
  55. Mass, Wolfgang; Nachtschlaeger, T.; Markram, H. (2002). Real-time computing without stable states: A new framework for neural computation based on perturbations. Neural Computation (англ.). 14 (11): 2531—2560. doi:10.1162/089976602760407955. PMID 12433288. S2CID 1045112.
  56. Echo state network. Scholarpedia (англ.).
  57. Jaeger, H.; Harnessing (2004). Predicting chaotic systems and saving energy in wireless communication. Science (англ.). 304 (5667): 78—80. Bibcode:2004Sci...304...78J. CiteSeerX 10.1.1.719.2301. doi:10.1126/science.1091277. PMID 15064413. S2CID 2184251.
  58. Gers, F. A.; Schmidhuber, J. (2001). LSTM recurrent networks learn simple context free and context sensitive languages. IEEE Transactions on Neural Networks (англ.). 12 (6): 1333—1340.
  59. Graves, A.; Schmidhuber, J. (2009). Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks (PDF). Advances in Neural Information Processing Systems 22, NIPS'22 (англ.). Vancouver: MIT Press. с. 545-552.
  60. Schuster, Mike; Paliwal, Kuldip K. (1997). Bidirectional recurrent neural networks. IEEE Transactions on Signal Processing (англ.). 45 (11): 2673—2681. Bibcode:1997ITSP...45.2673S. CiteSeerX 10.1.1.331.9441. doi:10.1109/78.650093. S2CID 18375389.
  61. Graves, A.; Schmidhuber, J. (2005). Framewise phoneme classification with bidirectional LSTM and other neural network architectures. Neural Networks (англ.). 18 (5–6): 602—610. CiteSeerX 10.1.1.331.5800. doi:10.1016/j.neunet.2005.06.042. PMID 16112549. S2CID 1856462.
  62. Schmidhuber, J. (1992). Learning complex, extended sequences using the principle of history compression. Neural Computation (англ.). 4 (2): 234—242. doi:10.1162/neco.1992.4.2.234. S2CID 18271205.
  63. Dynamic Representation of Movement Primitives in an Evolved Recurrent Neural Network (PDF) (англ.). Архів оригіналу (PDF) за 18 липня 2011. Процитовано 12 липня 2010.
  64. Associative Neural Network. www.vcclab.org (англ.). Процитовано 17 червня 2017.
  65. Anderson, James A.; Rosenfeld, Edward (2000). Talking Nets: An Oral History of Neural Networks (англ.). MIT Press. ISBN 9780262511117.
  66. Fahlman, Scott E.; Lebiere, Christian (29 серпня 1991). The Cascade-Correlation Learning Architecture (PDF) (англ.). Carnegie Mellon University. Архів оригіналу (PDF) за 3 травня 2013. Процитовано 4 жовтня 2014.
  67. Schmidhuber, Juergen (2014). Memory Networks (англ.). arXiv:1410.3916 [cs.AI].
  68. Schmidhuber, Juergen (2015). End-To-End Memory Networks (англ.). arXiv:1503.08895 [cs.NE].
  69. Schmidhuber, Juergen (2015). Large-scale Simple Question Answering with Memory Networks (англ.). arXiv:1506.02075 [cs.LG].
  70. Hinton, Geoffrey E. (1984). Distributed representations (англ.). Архів оригіналу за 2 травня 2016.
  71. Nasution, B.B.; Khan, A.I. (February 2008). A Hierarchical Graph Neuron Scheme for Real-Time Pattern Recognition. IEEE Transactions on Neural Networks (англ.). 19 (2): 212—229. doi:10.1109/TNN.2007.905857. PMID 18269954. S2CID 17573325.
  72. Sutherland, John G. (1 січня 1990). A holographic model of memory, learning and expression. International Journal of Neural Systems (англ.). 01 (3): 259—267. doi:10.1142/S0129065790000163.
  73. Das, S.; Giles, C.L.; Sun, G.Z. (1992). Learning Context Free Grammars: Limitations of a Recurrent Neural Network with an External Stack Memory. 14th Annual Conf. of the Cog. Sci. Soc. (англ.). с. 79.
  74. Mozer, M. C.; Das, S. (1993). A connectionist symbol manipulator that discovers the structure of context-free languages. Advances in Neural Information Processing Systems (англ.). 5: 863—870. Архів оригіналу за 6 грудня 2019. Процитовано 25 серпня 2019.
  75. Schmidhuber, J. (1992). Learning to control fast-weight memories: An alternative to recurrent nets. Neural Computation (англ.). 4 (1): 131—139. doi:10.1162/neco.1992.4.1.131. S2CID 16683347.
  76. Gers, F.; Schraudolph, N.; Schmidhuber, J. (2002). Learning precise timing with LSTM recurrent networks (PDF). JMLR (англ.). 3: 115—143.
  77. Jürgen Schmidhuber (1993). An introspective network that can learn to run its own weight change algorithm. Proceedings of the International Conference on Artificial Neural Networks, Brighton (англ.). IEE. с. 191—195.{{cite book}}: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url (посилання)
  78. Hochreiter, Sepp; Younger, A. Steven; Conwell, Peter R. (2001). Learning to Learn Using Gradient Descent. ICANN (англ.). 2130: 87—94. CiteSeerX 10.1.1.5.323.
  79. Schmidhuber, Juergen (2015). Learning to Transduce with Unbounded Memory (англ.). arXiv:1506.02516 [cs.NE].
  80. Schmidhuber, Juergen (2014). Neural Turing Machines (англ.). arXiv:1410.5401 [cs.NE].
  81. Burgess, Matt. DeepMind's AI learned to ride the London Underground using human-like reason and memory. WIRED UK (англ.). Процитовано 19 жовтня 2016.
  82. DeepMind AI 'Learns' to Navigate London Tube. PCMAG (англ.). Процитовано 19 жовтня 2016.
  83. Mannes, John (13 жовтня 2016). DeepMind's differentiable neural computer helps you navigate the subway with its memory. TechCrunch (англ.). Процитовано 19 жовтня 2016.
  84. Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago (12 жовтня 2016). Hybrid computing using a neural network with dynamic external memory. Nature (англ.). 538 (7626): 471—476. Bibcode:2016Natur.538..471G. doi:10.1038/nature20101. ISSN 1476-4687. PMID 27732574. S2CID 205251479.
  85. Differentiable neural computers | DeepMind. DeepMind (англ.). 12 жовтня 2016. Процитовано 19 жовтня 2016.
  86. Atkeson, Christopher G.; Schaal, Stefan (1995). Memory-based neural networks for robot learning. Neurocomputing (англ.). 9 (3): 243—269. doi:10.1016/0925-2312(95)00033-6.
  87. Salakhutdinov, Ruslan; Hinton, Geoffrey (2009). Semantic hashing (PDF). International Journal of Approximate Reasoning (англ.). 50 (7): 969—978.
  88. Le, Quoc V.; Mikolov, Tomas (2014). Distributed representations of sentences and documents (англ.). arXiv:1405.4053 [cs.CL].
  89. Schmidhuber, Juergen (2015). Pointer Networks (англ.). arXiv:1506.03134 [stat.ML].
  90. Schmidhuber, Juergen (2015). Neural Random-Access Machines (англ.). arXiv:1511.06392 [cs.LG].
  91. Kalchbrenner, N.; Blunsom, P. (2013). Recurrent continuous translation models. EMNLP'2013 (англ.). с. 1700—1709.
  92. Sutskever, I.; Vinyals, O.; Le, Q. V. (2014). Sequence to sequence learning with neural networks (PDF). Twenty-eighth Conference on Neural Information Processing Systems (англ.). arXiv:1409.3215.
  93. Schmidhuber, Juergen (2014). Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation (англ.). arXiv:1406.1078 [cs.CL].
  94. Schmidhuber, Juergen; Courville, Aaron; Bengio, Yoshua (2015). Describing Multimedia Content using Attention-based Encoder—Decoder Networks. IEEE Transactions on Multimedia (англ.). 17 (11): 1875—1886. arXiv:1507.01053. Bibcode:2015arXiv150701053C. doi:10.1109/TMM.2015.2477044. S2CID 1179542.
  95. Gerstner; Kistler. Spiking Neuron Models: Single Neurons, Populations, Plasticity. icwww.epfl.ch (англ.). Архів оригіналу за 4 червня 2017. Процитовано 18 червня 2017. вільно доступний інтернетпідручник
  96. Izhikevich EM (February 2006). Polychronization: computation with spikes. Neural Computation (англ.). 18 (2): 245—82. doi:10.1162/089976606775093882. PMID 16378515. S2CID 14253998.
  97. Morer I, Cardillo A, Díaz-Guilera A, Prignano L, Lozano S (2020). Comparing spatial networks: a one-size-fits-all efficiency-driven approach. Physical Review (англ.). 101 (4): 042301. doi:10.1103/PhysRevE.101.042301. hdl:2445/161417. PMID 32422764. S2CID 49564277.
  98. Gupta J, Molnar C, Xie Y, Knight J, Shekhar S (2021). Spatial variability aware deep neural networks (SVANN): a general approach. ACM Transactions on Intelligent Systems and Technology (англ.). 12 (6): 1—21. doi:10.1145/3466688. S2CID 244786699.
  99. Hagenauer J, Helbich M (2022). A geographically weighted artificial neural network. International Journal of Geographical Information Science (англ.). 36 (2): 215—235. doi:10.1080/13658816.2021.1871618. S2CID 233883395.
  100. David H. Hubel and Torsten N. Wiesel (2005). Brain and visual perception: the story of a 25-year collaboration (англ.). Oxford University Press. с. 106. ISBN 978-0-19-517618-6.
  101. Hubel, DH; Wiesel, TN (October 1959). Receptive fields of single neurones in the cat's striate cortex. J. Physiol. (англ.). 148 (3): 574—91. doi:10.1113/jphysiol.1959.sp006308. PMC 1363130. PMID 14403679.
  102. Fukushima, 1987, с. 83.
  103. Fukushima, 1987, с. 84.
  104. Fukushima, 2007.
  105. Fukushima, 1987, с. 81, 85.
  106. LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). Deep learning. Nature (англ.). 521 (7553): 436—444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442. S2CID 3074096.
  107. Hinton, G. E.; Osindero, S.; Teh, Y. (2006). A fast learning algorithm for deep belief nets (PDF). Neural Computation[en] (англ.). 18 (7): 1527—1554. CiteSeerX 10.1.1.76.1541. doi:10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950.
  108. Hinton, Geoffrey; Salakhutdinov, Ruslan (2009). Efficient Learning of Deep Boltzmann Machines (PDF) (англ.). 3: 448—455. Архів оригіналу (PDF) за 6 листопада 2015. Процитовано 25 серпня 2019.
  109. Larochelle, Hugo; Bengio, Yoshua; Louradour, Jerdme; Lamblin, Pascal (2009). Exploring Strategies for Training Deep Neural Networks. The Journal of Machine Learning Research (англ.). 10: 1—40.
  110. Coates, Adam; Carpenter, Blake (2011). Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning (PDF) (англ.): 440—445.
  111. Lee, Honglak; Grosse, Roger (2009). Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. Proceedings of the 26th Annual International Conference on Machine Learning (англ.). с. 609—616. CiteSeerX 10.1.1.149.6800. doi:10.1145/1553374.1553453. ISBN 9781605585161. S2CID 12008458.
  112. Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). Unsupervised Models of Images by Spike-and-Slab RBMs (PDF). Proceedings of the 28th International Conference on Machine Learning (англ.). Т. 10. с. 1—8. Архів оригіналу (PDF) за 4 березня 2016. Процитовано 25 серпня 2019.
  113. Lin, Yuanqing; Zhang, Tong; Zhu, Shenghuo; Yu, Kai (2010). Deep Coding Network. Advances in Neural Information Processing Systems 23 (NIPS 2010) (англ.). Т. 23. с. 1—9.
  114. Ranzato, Marc Aurelio; Boureau, Y-Lan (2007). Sparse Feature Learning for Deep Belief Networks (PDF). Advances in Neural Information Processing Systems (англ.). 23: 1—8. Архів оригіналу (PDF) за 4 березня 2016. Процитовано 25 серпня 2019.
  115. Socher, Richard; Lin, Clif (2011). Parsing Natural Scenes and Natural Language with Recursive Neural Networks (PDF). Proceedings of the 26th International Conference on Machine Learning (англ.). Архів оригіналу (PDF) за 4 березня 2016. Процитовано 25 серпня 2019.
  116. Taylor, Graham; Hinton, Geoffrey (2006). Modeling Human Motion Using Binary Latent Variables (PDF). Advances in Neural Information Processing Systems (англ.). Архів оригіналу (PDF) за 4 березня 2016. Процитовано 25 серпня 2019.
  117. Vincent, Pascal; Larochelle, Hugo (2008). Extracting and composing robust features with denoising autoencoders. Proceedings of the 25th international conference on Machine learning - ICML '08 (англ.). с. 1096—1103. CiteSeerX 10.1.1.298.4083. doi:10.1145/1390156.1390294. ISBN 9781605582054. S2CID 207168299.
  118. Kemp, Charles; Perfors, Amy; Tenenbaum, Joshua (2007). Learning overhypotheses with hierarchical Bayesian models. Developmental Science (англ.). 10 (3): 307—21. CiteSeerX 10.1.1.141.5560. doi:10.1111/j.1467-7687.2007.00585.x. PMID 17444972.
  119. Xu, Fei; Tenenbaum, Joshua (2007). Word learning as Bayesian inference. Psychol. Rev. (англ.). 114 (2): 245—72. CiteSeerX 10.1.1.57.9649. doi:10.1037/0033-295X.114.2.245. PMID 17500627.
  120. Chen, Bo; Polatkan, Gungor (2011). The Hierarchical Beta Process for Convolutional Factor Analysis and Deep Learning (PDF). Proceedings of the 28th International Conference on International Conference on Machine Learning (англ.). Omnipress. с. 361—368. ISBN 978-1-4503-0619-5.
  121. Fei-Fei, Li; Fergus, Rob (2006). One-shot learning of object categories. IEEE Transactions on Pattern Analysis and Machine Intelligence (англ.). 28 (4): 594—611. CiteSeerX 10.1.1.110.9024. doi:10.1109/TPAMI.2006.79. PMID 16566508. S2CID 6953475.
  122. Rodriguez, Abel; Dunson, David (2008). The Nested Dirichlet Process. Journal of the American Statistical Association (англ.). 103 (483): 1131—1154. CiteSeerX 10.1.1.70.9873. doi:10.1198/016214508000000553. S2CID 13462201.
  123. Ruslan, Salakhutdinov; Joshua, Tenenbaum (2012). Learning with Hierarchical-Deep Models. IEEE Transactions on Pattern Analysis and Machine Intelligence (англ.). 35 (8): 1958—71. CiteSeerX 10.1.1.372.909. doi:10.1109/TPAMI.2012.269. PMID 23787346. S2CID 4508400.
  124. а б Chalasani, Rakesh; Principe, Jose (2013). Deep Predictive Coding Networks (англ.). arXiv:1301.3541 [cs.LG].
  125. Scholkopf, B; Smola, Alexander (1998). Nonlinear component analysis as a kernel eigenvalue problem. Neural Computation (англ.). 44 (5): 1299—1319. CiteSeerX 10.1.1.53.8911. doi:10.1162/089976698300017467. S2CID 6674407.
  126. Cho, Youngmin (2012). Kernel Methods for Deep Learning (PDF) (англ.): 1—9.
  127. Deng, Li; Tur, Gokhan; He, Xiaodong; Hakkani-Tür, Dilek (1 грудня 2012). Use of Kernel Deep Convex Networks and End-To-End Learning for Spoken Language Understanding. Microsoft Research (англ.).

Література

ред.
  • Fukushima, Kunihiko (1987). A hierarchical neural network model for selective attention. У Eckmiller, R.; Von der Malsburg, C. (ред.). Neural computers (англ.). Springer-Verlag. с. 81—90.
  • Fukushima, Kunihiko (2007). Neocognitron. Scholarpedia (англ.). 2 (1): 1717. Bibcode:2007SchpJ...2.1717F. doi:10.4249/scholarpedia.1717.