Залишкова нейронна мережа

За́лишкова нейро́нна мере́жа (англ. residual neural network, ResNet) — це штучна нейронна мережа (ШНМ), яка будується на структурах, відомих за пірамідними нейронами^[en] кори головного мозку. Залишкові нейронні мережі роблять це, використовуючи про́пускові з'є́днання (англ. skip connections) або зрізання (англ. shortcuts) для перескакування через деякі шари. Типові моделі ResNet втілюють із подвійними або потрійними пропусканнями шарів, з нелінійностями (ReLU) чи пакетним унормовуванням^[en] посередині.^[1] Для навчання пропускових ваг можуть використовувати додаткову матрицю ваг; ці моделі відомі як HighwayNet. Моделі з кількома паралельними пропусками називають DenseNet.^[2] У контексті залишкових нейронних мереж незалишкову мережу можуть описувати як просту мережу (англ. plain network).

Існує дві основні причини для додавання пропускових з'єднань: задля уникання проблеми зникання градієнтів, та задля пом'якшення проблеми виродження (англ. degradation problem, насичення точності, англ. accuracy saturation), за якої додавання додаткових шарів до належно глибокої моделі призводить до більшої тренувальної похибки.^[3] Під час тренування ваги пристосовуються приглушувати вищий за течією шар^{[прояснити: ком.]} та підсилювати попередньо пропущений шар. У найпростішому випадку пристосовуються лише ваги для з'єднання сусіднього шару, без жодних явних ваг для вищого шару. Це працює найкраще, коли пропускають один нелінійний шар, або коли всі проміжні шари є лінійними. Якщо ні, то слід навчатися явної матриці ваг для пропускового з'єднання (слід використовувати HighwayNet).

Пропускання дієво спрощує мережу, використовуючи меншу кількість шарів на початкових етапах тренування^{[прояснити: ком.]}. Це прискорює навчання, зменшуючи вплив зникання градієнтів, оскільки існує менше шарів для поширення. Потім мережа поступово відновлює пропущені шари під час навчання простору ознак. Під кінець навчання, коли всі шари розгортаються, вона залишається ближчою до магістралі^{[прояснити: ком.]}, й відтак навчається швидше. Нейронна мережа без залишкових частин досліджує більше простору ознак. Це робить її вразливішою до збурень, які змушують її зіскакувати з магістралі, й вимагає додаткових тренувальних даних для надолужування.

Біологічний аналог

Мозок має структури, подібні до залишкових мереж, оскільки нейрони шостого шару кори отримують вхід із першого шару, пропускаючи проміжні шари.^[4] На рисунку це зіставлено з сигналами від апікального дендриту (3), що оминають шари, тоді як базальний дендрит (2) збирає сигнали з попереднього та/або того ж шару.^[a]^[5] Подібні структури існують і для інших шарів.^[6] Скільки шарів у корі головного мозку є подібними до шарів у штучній нейронній мережі, не зрозуміло, як і не зрозуміло, чи всі області кори головного мозку мають однакову структуру, але на великих площах вони виглядають подібними.

Пряме поширення

Для одиночних пропусків шари може бути індексовано або як з ${\textstyle \ell -2}$ до ${\textstyle \ell }$ , або як з ${\textstyle \ell }$ до ${\textstyle \ell +2}$ . (Шрифт ${\textstyle \ell }$ використано для наочності, зазвичай його пишуть як просте l.) Ці дві системи індексування є зручними при описуванні пропусків як таких, що йдуть назад, та вперед. Оскільки сигнал проходить мережею вперед, простіше описувати пропуск як ${\textstyle \ell +k}$ із заданого рівня, але як правило навчання (зворотне поширення) простіше описувати, який шар збудження ви використовуєте повторно, як ${\textstyle \ell -k}$ , де ${\textstyle k-1}$ є числом пропуску.

Для заданої вагової матриці ${\textstyle W^{\ell -1,\ell }}$ для ваг з'єднань з шару ${\textstyle \ell -1}$ до ${\textstyle \ell }$ та вагової матриці ${\textstyle W^{\ell -2,\ell }}$ для ваг з'єднань з шару ${\textstyle \ell -2}$ до ${\textstyle \ell }$ прямим поширенням через передавальну функцію буде (відома як HighwayNet)

{\begin{aligned}a^{\ell }&:=\mathbf {g} (W^{\ell -1,\ell }\cdot a^{\ell -1}+b^{\ell }+W^{\ell -2,\ell }\cdot a^{\ell -2})\\&:=\mathbf {g} (Z^{\ell }+W^{\ell -2,\ell }\cdot a^{\ell -2})\end{aligned}}

де

{\textstyle a^{\ell }}

— збудження (виходи) нейронів у шарі

{\textstyle \ell }

,

{\textstyle \mathbf {g} }

— передавальна функція шару

{\textstyle \ell }

,

{\textstyle W^{\ell -1,\ell }}

— вагова матриця для нейронів між шарами

{\textstyle \ell -1}

та

{\textstyle \ell }

, а

{\textstyle Z^{\ell }=W^{\ell -1,\ell }\cdot a^{\ell -1}+b^{\ell }}

За відсутності явної матриці ${\textstyle W^{\ell -2,\ell }}$ (що є відомим як ResNet) пряме поширення крізь передавальну функцію спрощується до

a^{\ell }:=\mathbf {g} (Z^{\ell }+a^{\ell -2})

Інший спосіб сформулювати це — підставити одиничну матрицю замість ${\textstyle W^{\ell -2,\ell }}$ , але це є справедливим лише коли розміри збігаються. Це дещо заплутано називають одиничним блоком (англ. identity block), що означає, що збудження з шару ${\textstyle \ell -2}$ передаються до шару ${\textstyle \ell }$ без зважування.

У корі головного мозку такі пропуски вперед здійснюються для декількох шарів. Зазвичай усі пропуски вперед починаються з одного й того ж шару, і послідовно з'єднуються з пізнішими шарами. У загальному випадку це буде виражено як (відоме як DenseNet)

a^{\ell }:=\mathbf {g} \left(Z^{\ell }+\sum _{k=2}^{K}W^{\ell -k,\ell }\cdot a^{\ell -k}\right)

.

Зворотне поширення

Під час навчання зворотним поширенням для нормального шляху

\Delta w^{\ell -1,\ell }:=-\eta {\frac {\partial E^{\ell }}{\partial w^{\ell -1,\ell }}}=-\eta a^{\ell -1}\cdot \delta ^{\ell }

і для шляхів пропусків (майже ідентично)

\Delta w^{\ell -2,\ell }:=-\eta {\frac {\partial E^{\ell }}{\partial w^{\ell -2,\ell }}}=-\eta a^{\ell -2}\cdot \delta ^{\ell }

.

В обох випадках

{\textstyle \eta }

є темпом навчання (

{\textstyle \eta <0)}

,

{\textstyle \delta ^{\ell }}

є сигналом похибки нейронів на шарі

{\textstyle \ell }

, а

{\textstyle a_{i}^{\ell }}

є збудженням нейронів на шарі

{\textstyle \ell }

.

Якщо шлях пропуску має незмінні ваги (наприклад, одиничну матрицю, як вище), то вони не уточнюються. Якщо їх можливо уточнювати, то це правило є звичайним правилом уточнювання зворотного поширення.

У загальному випадку може бути ${\textstyle K}$ вагових матриць шляхів пропуску, тож

\Delta w^{\ell -k,\ell }:=-\eta {\frac {\partial E^{\ell }}{\partial w^{\ell -k,\ell }}}=-\eta a^{\ell -k}\cdot \delta ^{\ell }

Оскільки правила навчання є однаковими, вагові матриці можливо об'єднувати та навчати за один крок.

Виноски

↑ Деякі дослідження показують, що тут є додаткові структури, тож це пояснення є дещо спрощеним.

Примітки

↑ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). Deep Residual Learning for Image Recognition (PDF). Proc. Computer Vision and Pattern Recognition (CVPR), IEEE. Архів оригіналу (PDF) за 12 липня 2018. Процитовано 23 квітня 2020. (англ.)
↑ Huang, Gao; Liu, Zhuang; Weinberger, Kilian Q.; van der Maaten, Laurens (2017). Densely Connected Convolutional Networks (PDF). Proc. Computer Vision and Pattern Recognition (CVPR), IEEE. Архів оригіналу (PDF) за 9 серпня 2021. Процитовано 23 квітня 2020. (англ.)
↑ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (10 грудня 2015). Deep Residual Learning for Image Recognition. arXiv:1512.03385 [cs.CV].He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015-12-10). "Deep Residual Learning for Image Recognition". arXiv:1512.03385 [cs.CV]. (англ.)
↑ Thomson, AM (2010). Neocortical layer 6, a review. Frontiers in Neuroanatomy. 4: 13. doi:10.3389/fnana.2010.00013. PMC 2885865. PMID 20556241.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)
↑ Winterer, Jochen; Maier, Nikolaus; Wozny, Christian; Beed, Prateep; Breustedt, Jörg; Evangelista, Roberta; Peng, Yangfan; D’Albis, Tiziano; Kempter, Richard (2017). Excitatory Microcircuits within Superficial Layers of the Medial Entorhinal Cortex. Cell Reports. 19 (6): 1110—1116. doi:10.1016/j.celrep.2017.04.041. PMID 28494861. (англ.)
↑ Fitzpatrick, David (1 травня 1996). The Functional Organization of Local Circuits in Visual Cortex: Insights from the Study of Tree Shrew Striate Cortex. Cerebral Cortex (англ.). 6 (3): 329—341. doi:10.1093/cercor/6.3.329. ISSN 1047-3211. PMID 8670661. (англ.)

[5] Деякі дослідження показують, що тут є додаткові структури, тож це пояснення є дещо спрощеним.

[1] He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). Deep Residual Learning for Image Recognition (PDF). Proc. Computer Vision and Pattern Recognition (CVPR), IEEE. Архів оригіналу (PDF) за 12 липня 2018. Процитовано 23 квітня 2020. (англ.)

[2] Huang, Gao; Liu, Zhuang; Weinberger, Kilian Q.; van der Maaten, Laurens (2017). Densely Connected Convolutional Networks (PDF). Proc. Computer Vision and Pattern Recognition (CVPR), IEEE. Архів оригіналу (PDF) за 9 серпня 2021. Процитовано 23 квітня 2020. (англ.)

[:0-3] He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (10 грудня 2015). Deep Residual Learning for Image Recognition. arXiv:1512.03385 [cs.CV].He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015-12-10). "Deep Residual Learning for Image Recognition". arXiv:1512.03385 [cs.CV]. (англ.)

[4] Thomson, AM (2010). Neocortical layer 6, a review. Frontiers in Neuroanatomy. 4: 13. doi:10.3389/fnana.2010.00013. PMC 2885865. PMID 20556241.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)

[6] Winterer, Jochen; Maier, Nikolaus; Wozny, Christian; Beed, Prateep; Breustedt, Jörg; Evangelista, Roberta; Peng, Yangfan; D’Albis, Tiziano; Kempter, Richard (2017). Excitatory Microcircuits within Superficial Layers of the Medial Entorhinal Cortex. Cell Reports. 19 (6): 1110—1116. doi:10.1016/j.celrep.2017.04.041. PMID 28494861. (англ.)

[7] Fitzpatrick, David (1 травня 1996). The Functional Organization of Local Circuits in Visual Cortex: Insights from the Study of Tree Shrew Striate Cortex. Cerebral Cortex (англ.). 6 (3): 329—341. doi:10.1093/cercor/6.3.329. ISSN 1047-3211. PMID 8670661. (англ.)

[1]

[2]

[3]

[4]

[a]

[5]

[6]