Передавальна функція штучного нейрона

Не плутати з Передавальна функція.

Функція активації, або передавальна функція (англ. activation function^[1]^[2]^[3]^[4]^[5], також excitation function, squashing function, transfer function^[6]) штучного нейрона — залежність вихідного сигналу штучного нейрона від вхідного.

Зазвичай передавальна функція $\phi {(x)}$ відображає дійсні числа на інтервал ${(-1,1)}$ або ${(0,1)}$ ^[1].

Більшість видів нейронних мереж для функції активації використовують сигмоїди^[2]. ADALINE і самоорганізаційні карти використовують лінійні функції активації, а радіально базисні мережі використовують радіальні базисні функції^[1].

Математично доведено, що тришаровий перцептрон з використанням сигмоїдної функції активації може апроксимувати будь-яку неперервну функцію з довільною точністю (Теорема Цибенка)^[1].

Метод зворотного поширення помилки вимагає, щоб функція активації була неперервною, нелінійною, монотонно зростаючою, і диференційовною^[1].

В задачі багатокласової^[en] класифікації нейрони останнього шару зазвичай використовують softmax як функцію активації^[3].

У хемометриці — функція, яка використовується в методі нейронної сітки для перетворення у вузлах вхідних даних з будь-якої області значень (зокрема неперервних) у чітко окреслений ряд значень (напр., в 0 чи 1).^[7]

Порівняння передавальних функцій ред.

Деякі бажані властивості передавальної функції включають:

Нелінійна — коли передавальна функція нелінійна, то, як доведено, двошарова нейронна мережа є універсальною апроксимацією функцій.^[8] Тотожна передавальна функція не має такої властивості. Коли декілька шарів використовують тотожну передавальну функцію, тоді вся мережа еквівалентна одношаровій моделі.
Неперервна диференційовність — ця властивість бажана (RELU не є неперервно диференційовною і має неоднозначне рішення для оптимізації заснованій на градієнті) для використання методів оптимізації заснованих на градієнті. Передавальна функція двійковий крок не диференційовна у 0, але диференційовна в усіх інших значення, що є проблемою для методів заснованих на градієнті.^[9]
Область визначення.
Монотонність.
Гладка функція з монотонною похідною.
Наближення до тотожної функції $f(x)=x$ в початку координат.

У наступній таблиці порівнюються деякі передавальні функції від однієї змінної $x$ з попереднього шару:

Назва	Рівняння	Похідна (по x)	Область	Порядок гладкості	Монотонність	Монотонність похідної	Наближення до Тотожної функції в початку координат
Тотожна	$f(x)=x$	$f'(x)=1$	$(-\infty ,\infty )$	$C^{\infty }$	Так	Так	Так
Двійковий крок	$f(x)={\begin{cases}0&{\text{for }}x<0\\1&{\text{for }}x\geqslant 0\end{cases}}$	$f'(x)={\begin{cases}0&{\text{for }}x\neq 0\\?&{\text{for }}x=0\end{cases}}$	$\{0,1\}$	$C^{-1}$	Так	Ні	Ні
Логістична (a.k.a. Сігмоїда або М'який крок)	$f(x)=\sigma (x)={\frac {1}{1+e^{-x}}}$ ^[1]	$f'(x)=f(x)(1-f(x))$	$(0,1)$	$C^{\infty }$	Так	Ні	Ні
TanH	$f(x)=\tanh(x)={\frac {(e^{x}-e^{-x})}{(e^{x}+e^{-x})}}$	$f'(x)=1-f(x)^{2}$	$(-1,1)$	$C^{\infty }$	Так	Ні	Так
ArcTan	$f(x)=\tan ^{-1}(x)$	$f'(x)={\frac {1}{x^{2}+1}}$	$\left(-{\frac {\pi }{2}},{\frac {\pi }{2}}\right)$	$C^{\infty }$	Так	Ні	Так
Softsign^[10]^[11]	$f(x)={\frac {x}{1+\|x\|}}$	$f'(x)={\frac {1}{(1+\|x\|)^{2}}}$	$(-1,1)$	$C^{1}$	Так	Ні	Так
Inverse square root unit (ISRU)^[12]	$f(x)={\frac {x}{\sqrt {1+\alpha x^{2}}}}$	$f'(x)=\left({\frac {1}{\sqrt {1+\alpha x^{2}}}}\right)^{3}$	$\left(-{\frac {1}{\sqrt {\alpha }}},{\frac {1}{\sqrt {\alpha }}}\right)$	$C^{\infty }$	Так	Ні	Так
Випрямлена лінійна (Rectified linear unit, ReLU)^[13]	$f(x)={\begin{cases}0&{\text{for }}x<0\\x&{\text{for }}x\geqslant 0\end{cases}}$	$f'(x)={\begin{cases}0&{\text{for }}x<0\\1&{\text{for }}x\geqslant 0\end{cases}}$	$[0,\infty )$	$C^{0}$	Так	Так	Ні
Leaky rectified linear unit (Leaky ReLU)^[14]	$f(x)={\begin{cases}0.01x&{\text{for }}x<0\\x&{\text{for }}x\geqslant 0\end{cases}}$	$f'(x)={\begin{cases}0.01&{\text{for }}x<0\\1&{\text{for }}x\geqslant 0\end{cases}}$	$(-\infty ,\infty )$	$C^{0}$	Так	Так	Ні
Parameteric rectified linear unit (PReLU)^[15]	$f(\alpha ,x)={\begin{cases}\alpha x&{\text{for }}x<0\\x&{\text{for }}x\geqslant 0\end{cases}}$	$f'(\alpha ,x)={\begin{cases}\alpha &{\text{for }}x<0\\1&{\text{for }}x\geqslant 0\end{cases}}$	$(-\infty ,\infty )$ ^[2]	$C^{0}$	Так ↔ $\alpha \geqslant 0$	Так	Так ↔ $\alpha =1$
Randomized leaky rectified linear unit (RReLU)^[16]	$f(\alpha ,x)={\begin{cases}\alpha x&{\text{for }}x<0\\x&{\text{for }}x\geqslant 0\end{cases}}$ ^[3]	$f'(\alpha ,x)={\begin{cases}\alpha &{\text{for }}x<0\\1&{\text{for }}x\geqslant 0\end{cases}}$	$(-\infty ,\infty )$	$C^{0}$	Так	Так	Ні
Exponential linear unit (ELU)^[17]	$f(\alpha ,x)={\begin{cases}\alpha (e^{x}-1)&{\text{for }}x<0\\x&{\text{for }}x\geqslant 0\end{cases}}$	$f'(\alpha ,x)={\begin{cases}f(\alpha ,x)+\alpha &{\text{for }}x<0\\1&{\text{for }}x\geqslant 0\end{cases}}$	$(-\alpha ,\infty )$	${\begin{cases}C_{1}&{\text{when }}\alpha =1\\C_{0}&{\text{otherwise }}\end{cases}}$	Так ↔ $\alpha \geqslant 0$	Так ↔ $0\leqslant \alpha \leqslant 1$	Так ↔ $\alpha =1$
Scaled exponential linear unit (SELU)^[18]	$f(\alpha ,x)=\lambda {\begin{cases}\alpha (e^{x}-1)&{\text{for }}x<0\\x&{\text{for }}x\geqslant 0\end{cases}}$ з $\lambda =1.0507$ та $\alpha =1.67326$	$f'(\alpha ,x)=\lambda {\begin{cases}\alpha (e^{x})&{\text{for }}x<0\\1&{\text{for }}x\geqslant 0\end{cases}}$	$(-\lambda \alpha ,\infty )$	$C^{0}$	Так	Ні	Ні
S-shaped rectified linear activation unit (SReLU)^[19]	$f_{t_{l},a_{l},t_{r},a_{r}}(x)={\begin{cases}t_{l}+a_{l}(x-t_{l})&{\text{for }}x\leqslant t_{l}\\x&{\text{for }}t_{l}<x<t_{r}\\t_{r}+a_{r}(x-t_{r})&{\text{for }}x\geqslant t_{r}\end{cases}}$ $t_{l},a_{l},t_{r},a_{r}$ are parameters.	$f'_{t_{l},a_{l},t_{r},a_{r}}(x)={\begin{cases}a_{l}&{\text{for }}x\leqslant t_{l}\\1&{\text{for }}t_{l}<x<t_{r}\\a_{r}&{\text{for }}x\geqslant t_{r}\end{cases}}$	$(-\infty ,\infty )$	$C^{0}$	Ні	Ні	Ні
Inverse square root linear unit (ISRLU)^[12]	$f(x)={\begin{cases}{\frac {x}{\sqrt {1+\alpha x^{2}}}}&{\text{for }}x<0\\x&{\text{for }}x\geqslant 0\end{cases}}$	$f'(x)={\begin{cases}\left({\frac {1}{\sqrt {1+\alpha x^{2}}}}\right)^{3}&{\text{for }}x<0\\1&{\text{for }}x\geqslant 0\end{cases}}$	$\left(-{\frac {1}{\sqrt {\alpha }}},\infty \right)$	$C^{2}$	Так	Так	Так
Adaptive piecewise linear (APL)^[20]	$f(x)=\max(0,x)+\sum _{s=1}^{S}a_{i}^{s}\max(0,-x+b_{i}^{s})$	$f'(x)=H(x)-\sum _{s=1}^{S}a_{i}^{s}H(-x+b_{i}^{s})$ ^[4]	$(-\infty ,\infty )$	$C^{0}$	Ні	Ні	Ні
SoftPlus^[21]	$f(x)=\ln(1+e^{x})$	$f'(x)={\frac {1}{1+e^{-x}}}$	$(0,\infty )$	$C^{\infty }$	Так	Так	Ні
Bent identity	$f(x)={\frac {{\sqrt {x^{2}+1}}-1}{2}}+x$	$f'(x)={\frac {x}{2{\sqrt {x^{2}+1}}}}+1$	$(-\infty ,\infty )$	$C^{\infty }$	Так	Так	Так
Sigmoid-weighted linear unit (SiLU)^[22] (a.k.a. Swish^[23])	$f(x)=x\cdot \sigma (x)$ ^[5]	$f'(x)=f(x)+\sigma (x)(1-f(x))$ ^[6]	$[\approx -0.28,\infty )$	$C^{\infty }$	Ні	Ні	Ні
SoftExponential^[24]	$f(\alpha ,x)={\begin{cases}-{\frac {\ln(1-\alpha (x+\alpha ))}{\alpha }}&{\text{for }}\alpha <0\\x&{\text{for }}\alpha =0\\{\frac {e^{\alpha x}-1}{\alpha }}+\alpha &{\text{for }}\alpha >0\end{cases}}$	$f'(\alpha ,x)={\begin{cases}{\frac {1}{1-\alpha (\alpha +x)}}&{\text{for }}\alpha <0\\e^{\alpha x}&{\text{for }}\alpha \geqslant 0\end{cases}}$	$(-\infty ,\infty )$	$C^{\infty }$	Так	Так	Так ↔ $\alpha =0$
Синусоїда^[25]	$f(x)=\sin(x)$	$f'(x)=\cos(x)$	$[-1,1]$	$C^{\infty }$	Ні	Ні	Так
Sinc	$f(x)={\begin{cases}1&{\text{for }}x=0\\{\frac {\sin(x)}{x}}&{\text{for }}x\neq 0\end{cases}}$	$f'(x)={\begin{cases}0&{\text{for }}x=0\\{\frac {\cos(x)}{x}}-{\frac {\sin(x)}{x^{2}}}&{\text{for }}x\neq 0\end{cases}}$	$[\approx -.217234,1]$	$C^{\infty }$	Ні	Ні	Ні
Гауссіан	$f(x)=e^{-x^{2}}$	$f'(x)=-2xe^{-x^{2}}$	$(0,1]$	$C^{\infty }$	Ні	Ні	Ні

↑ Тут,

H

це функція Гевісайда.

↑

α

є стохастичною змінною вибраною з нормального розподілу під час навчання і зафіксована як очікуване значення розподілу до часу тестування.

↑ ↑ ↑ Тут,

\sigma

— логістична функція.

↑

\alpha >0

виконується для всього інтервалу.

Наступна таблиця містить передавальні функції від декількох змінних:

Назва	Рівняння	Похідна(ні)	Область	Порядок гладкості
Softmax	$f_{i}({\vec {x}})={\frac {e^{x_{i}}}{\sum _{j=1}^{J}e^{x_{j}}}}$ for $i$ = 1, …, $J$	${\frac {\partial f_{i}({\vec {x}})}{\partial x_{j}}}=f_{i}({\vec {x}})(\delta _{ij}-f_{j}({\vec {x}}))$ ^[7]	$(0,1)$	$C^{\infty }$
Maxout^[26]	$f({\vec {x}})=\max _{i}x_{i}$	${\frac {\partial f}{\partial x_{j}}}={\begin{cases}1&{\text{for }}j={\underset {i}{\operatorname {argmax} }}\,x_{i}\\0&{\text{for }}j\neq {\underset {i}{\operatorname {argmax} }}\,x_{i}\end{cases}}$	$(-\infty ,\infty )$	$C^{0}$

↑ Тут, $\delta _{ij}$ — символ Кронекера.

Див. також ред.

Функція втрат

Примітки ред.

↑ ^а ^б ^в ^г ^д Ke-Lin Du, Swamy M. N. S., Neural Networks and Statistical Learning, Springer-Verlag London, 2014 DOI:10.1007/978-1-4471-5571-3
↑ ^а ^б James Keller, Derong Liu, and David Fogel: Fundamentals of computational intelligence: neural networks, fuzzy systems, and evolutionary computation: John Wiley and Sons, 2016, 378 pp, ISBN 978-1-110-21434-2
↑ ^а ^б Lionel Tarassenko, 2 - Mathematical background for neural computing, In Guide to Neural Computing Applications, Butterworth-Heinemann, New York, 1998, Pages 5-35, ISBN 9780340705896, http://doi.org/10.1016/B978-034070589-6/50002-6.
↑ Anthony, Martin (2001). 1. Artificial Neural Networks: 1—8. doi:10.1137/1.9780898718539.
↑ Michael Nielsen. Neural Networks and Deep Learning.
↑ Stegemann, J. A.; N. R. Buenfeld (2014). A Glossary of Basic Neural Network Terminology for Regression Problems. Neural Computing & Applications. 8 (4): 290—296. doi:10.1007/s005210050034. ISSN 0941-0643.
↑ Глосарій термінів з хімії // Й. Опейда, О. Швайка. Ін-т фізико-органічної хімії та вуглехімії ім. Л. М. Литвиненка НАН України, Донецький національний університет. — Донецьк: Вебер, 2008. — 758 с. — ISBN 978-966-335-206-0
↑ Cybenko, G.V. (2006). Approximation by Superpositions of a Sigmoidal function. У van Schuppen, Jan H. (ред.). Mathematics of Control, Signals, and Systems. Springer International. с. 303—314.
↑ Snyman, Jan (3 березня 2005). Practical Mathematical Optimization: An Introduction to Basic Optimization Theory and Classical and New Gradient-Based Algorithms. Springer Science & Business Media. ISBN 978-0-387-24348-1.
↑ Bergstra, James; Desjardins, Guillaume; Lamblin, Pascal; Bengio, Yoshua (2009). Quadratic polynomials learn better image features". Technical Report 1337. Département d’Informatique et de Recherche Opérationnelle, Université de Montréal. Архів оригіналу за 25 вересня 2018.
↑ Glorot, Xavier; Bengio, Yoshua (2010), Understanding the difficulty of training deep feedforward neural networks (PDF), International Conference on Artificial Intelligence and Statistics (AISTATS’10), Society for Artificial Intelligence and Statistics, архів оригіналу (PDF) за 1 квітня 2017
↑ ^а ^б Carlile, Brad; Delamarter, Guy; Kinney, Paul; Marti, Akiko; Whitney, Brian (2017-11-09). «Improving Deep Learning by Inverse Square Root Linear Units (ISRLUs)». arXiv:1710.09967 [cs.LG].
↑ Nair, Vinod; Hinton, Geoffrey E. (2010), Rectified Linear Units Improve Restricted Boltzmann Machines, 27th International Conference on International Conference on Machine Learning, ICML'10, USA: Omnipress, с. 807—814, ISBN 9781605589077
↑ Maas, Andrew L.; Hannun, Awni Y.; Ng, Andrew Y. (June 2013). Rectifier nonlinearities improve neural network acoustic models (PDF). Proc. ICML. 30 (1). Архів оригіналу (PDF) за 3 січня 2017. Процитовано 2 січня 2017.
↑ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015-02-06). «Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification». arXiv:1502.01852 [cs.CV].
↑ Xu, Bing; Wang, Naiyan; Chen, Tianqi; Li, Mu (2015-05-04). «Empirical Evaluation of Rectified Activations in Convolutional Network». arXiv:1505.00853 [cs.LG].
↑ Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (2015-11-23). «Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)». arXiv:1511.07289 [cs.LG].
↑ Klambauer, Günter; Unterthiner, Thomas; Mayr, Andreas; Hochreiter, Sepp (2017-06-08). «Self-Normalizing Neural Networks». arXiv:1706.02515 [cs.LG].
↑ Jin, Xiaojie; Xu, Chunyan; Feng, Jiashi; Wei, Yunchao; Xiong, Junjun; Yan, Shuicheng (2015-12-22). «Deep Learning with S-shaped Rectified Linear Activation Units». arXiv:1512.07030 [cs.CV].
↑ Forest Agostinelli; Matthew Hoffman; Peter Sadowski; Pierre Baldi (21 грудня 2014). «Learning Activation Functions to Improve Deep Neural Networks». arXiv:1412.6830 [cs.NE].
↑ Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (2011). Deep sparse rectifier neural networks (PDF). International Conference on Artificial Intelligence and Statistics.
↑ Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning
↑ Searching for Activation Functions
↑ Godfrey, Luke B.; Gashler, Michael S. (3 лютого 2016). A continuum among logarithmic, linear, and exponential functions, and its potential to improve generalization in neural networks. 7th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management: KDIR. 1602: 481—486. arXiv:1602.01321. Bibcode:2016arXiv160201321G.
↑ Gashler, Michael S.; Ashmore, Stephen C. (2014-05-09). «Training Deep Fourier Neural Networks To Fit Time-Series Data». arXiv:1405.2262 [cs.NE].
↑ Goodfellow, Ian J.; Warde-Farley, David; Mirza, Mehdi; Courville, Aaron; Bengio, Yoshua (18 лютого 2013). Maxout Networks. JMLR WCP. 28 (3): 1319—1327. arXiv:1302.4389. Bibcode:2013arXiv1302.4389G.

[KeLin-Du-2014-1] а ^б ^в ^г ^д Ke-Lin Du, Swamy M. N. S., Neural Networks and Statistical Learning, Springer-Verlag London, 2014 DOI:10.1007/978-1-4471-5571-3

[Keller-2016-2] а ^б James Keller, Derong Liu, and David Fogel: Fundamentals of computational intelligence: neural networks, fuzzy systems, and evolutionary computation: John Wiley and Sons, 2016, 378 pp, ISBN 978-1-110-21434-2

[Tarassenko-1998-3] а ^б Lionel Tarassenko, 2 - Mathematical background for neural computing, In Guide to Neural Computing Applications, Butterworth-Heinemann, New York, 1998, Pages 5-35, ISBN 9780340705896, http://doi.org/10.1016/B978-034070589-6/50002-6.

[Anthony-2001-4] Anthony, Martin (2001). 1. Artificial Neural Networks: 1—8. doi:10.1137/1.9780898718539.

[Nielsen-NN-DL-5] Michael Nielsen. Neural Networks and Deep Learning.

[Stegemann-Buenfeld-1999-6] Stegemann, J. A.; N. R. Buenfeld (2014). A Glossary of Basic Neural Network Terminology for Regression Problems. Neural Computing & Applications. 8 (4): 290—296. doi:10.1007/s005210050034. ISSN 0941-0643.

[7] Глосарій термінів з хімії // Й. Опейда, О. Швайка. Ін-т фізико-органічної хімії та вуглехімії ім. Л. М. Литвиненка НАН України, Донецький національний університет. — Донецьк: Вебер, 2008. — 758 с. — ISBN 978-966-335-206-0

[8] Cybenko, G.V. (2006). Approximation by Superpositions of a Sigmoidal function. У van Schuppen, Jan H. (ред.). Mathematics of Control, Signals, and Systems. Springer International. с. 303—314.

[9] Snyman, Jan (3 березня 2005). Practical Mathematical Optimization: An Introduction to Basic Optimization Theory and Classical and New Gradient-Based Algorithms. Springer Science & Business Media. ISBN 978-0-387-24348-1.

[10] Bergstra, James; Desjardins, Guillaume; Lamblin, Pascal; Bengio, Yoshua (2009). Quadratic polynomials learn better image features". Technical Report 1337. Département d’Informatique et de Recherche Opérationnelle, Université de Montréal. Архів оригіналу за 25 вересня 2018.

[11] Glorot, Xavier; Bengio, Yoshua (2010), Understanding the difficulty of training deep feedforward neural networks (PDF), International Conference on Artificial Intelligence and Statistics (AISTATS’10), Society for Artificial Intelligence and Statistics, архів оригіналу (PDF) за 1 квітня 2017

[isrlu-12] а ^б Carlile, Brad; Delamarter, Guy; Kinney, Paul; Marti, Akiko; Whitney, Brian (2017-11-09). «Improving Deep Learning by Inverse Square Root Linear Units (ISRLUs)». arXiv:1710.09967 [cs.LG].

[13] Nair, Vinod; Hinton, Geoffrey E. (2010), Rectified Linear Units Improve Restricted Boltzmann Machines, 27th International Conference on International Conference on Machine Learning, ICML'10, USA: Omnipress, с. 807—814, ISBN 9781605589077

[14] Maas, Andrew L.; Hannun, Awni Y.; Ng, Andrew Y. (June 2013). Rectifier nonlinearities improve neural network acoustic models (PDF). Proc. ICML. 30 (1). Архів оригіналу (PDF) за 3 січня 2017. Процитовано 2 січня 2017.

[15] He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015-02-06). «Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification». arXiv:1502.01852 [cs.CV].

[16] Xu, Bing; Wang, Naiyan; Chen, Tianqi; Li, Mu (2015-05-04). «Empirical Evaluation of Rectified Activations in Convolutional Network». arXiv:1505.00853 [cs.LG].

[17] Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (2015-11-23). «Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)». arXiv:1511.07289 [cs.LG].

[18] Klambauer, Günter; Unterthiner, Thomas; Mayr, Andreas; Hochreiter, Sepp (2017-06-08). «Self-Normalizing Neural Networks». arXiv:1706.02515 [cs.LG].

[19] Jin, Xiaojie; Xu, Chunyan; Feng, Jiashi; Wei, Yunchao; Xiong, Junjun; Yan, Shuicheng (2015-12-22). «Deep Learning with S-shaped Rectified Linear Activation Units». arXiv:1512.07030 [cs.CV].

[20] Forest Agostinelli; Matthew Hoffman; Peter Sadowski; Pierre Baldi (21 грудня 2014). «Learning Activation Functions to Improve Deep Neural Networks». arXiv:1412.6830 [cs.NE].

[21] Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (2011). Deep sparse rectifier neural networks (PDF). International Conference on Artificial Intelligence and Statistics.

[22] Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning

[23] Searching for Activation Functions

[24] Godfrey, Luke B.; Gashler, Michael S. (3 лютого 2016). A continuum among logarithmic, linear, and exponential functions, and its potential to improve generalization in neural networks. 7th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management: KDIR. 1602: 481—486. arXiv:1602.01321. Bibcode:2016arXiv160201321G.

[25] Gashler, Michael S.; Ashmore, Stephen C. (2014-05-09). «Training Deep Fourier Neural Networks To Fit Time-Series Data». arXiv:1405.2262 [cs.NE].

[26] Goodfellow, Ian J.; Warde-Farley, David; Mirza, Mehdi; Courville, Aaron; Bengio, Yoshua (18 лютого 2013). Maxout Networks. JMLR WCP. 28 (3): 1319—1327. arXiv:1302.4389. Bibcode:2013arXiv1302.4389G.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[1]

[10]

[11]

[12]

[13]

[14]

[15]

[2]

[16]

[3]

[17]

[18]

[19]

[20]

[4]

[21]

[22]

[23]

[5]

[6]

[24]

[25]

[7]

[26]