Штучна нейронна мережа: відмінності між версіями

[перевірена версія][перевірена версія]
Вилучено вміст Додано вміст
м автоматична заміна {{Не перекладено}} вікі-посиланнями на перекладені статті
InternetArchiveBot (обговорення | внесок)
Виправлено джерел: 16; позначено як недійсні: 1. #IABot (v2.0beta14)
Рядок 152:
[[Глибинна нейронна мережа|ГНМ]] може бути треновано [[Розрізнювальна модель|розрізнювально]] за допомогою стандартного алгоритму зворотного поширення ({{lang-en|backpropagation}}). Зворотне поширення — це метод обчислення [[градієнт]]у [[Функція втрат|функції втрат]] (видає витрати, пов'язані з заданим станом) по відношенню до ваг в ШНМ.
 
Основи неперервного зворотного поширення<ref name="SCHIDHUB2"/><ref name="scholarpedia2">{{cite journal|year=2015|title=Deep Learning|url=http://www.scholarpedia.org/article/Deep_Learning|journal=Scholarpedia|volume=10|issue=11|page=32832|doi=10.4249/scholarpedia.32832|last1=Schmidhuber|first1=Jürgen|authorlink=Юрген Шмідгубер|bibcode=2015SchpJ..1032832S}} {{ref-en}}</ref><ref name=":5">{{Cite journal|last=Dreyfus|first=Stuart E.|date=1990-09-01|title=Artificial neural networks, back propagation, and the Kelley-Bryson gradient procedure|url=http://arc.aiaa.org/doi/10.2514/3.25422|journal=Journal of Guidance, Control, and Dynamics|volume=13|issue=5|pages=926–928|doi=10.2514/3.25422|issn=0731-5090|bibcode=1990JGCD...13..926D}} {{ref-en}}</ref><ref name="mizutani2000">Eiji Mizutani, {{нп|Стюарт Дрейфус|Stuart Dreyfus||Stuart Dreyfus}}, Kenichi Nishio (2000). On derivation of MLP backpropagation from the Kelley-Bryson optimal-control gradient formula and its application. Proceedings of the IEEE International Joint Conference on Neural Networks (IJCNN 2000), Como Italy, July 2000. [http://queue.ieor.berkeley.edu/People/Faculty/dreyfus-pubs/ijcnn2k.pdf Online]{{Недоступне посилання|date=травень 2019 |bot=InternetArchiveBot }} {{ref-en}}</ref> було виведено в контексті [[Теорія керування|теорії керування]] {{нп|Генрі Келлі|Келлі||Henry J. Kelley}}<ref name="kelley1960">{{cite journal|year=1960|title=Gradient theory of optimal flight paths|url=http://arc.aiaa.org/doi/abs/10.2514/8.5282?journalCode=arsj|journal=Ars Journal|volume=30|issue=10|pages=947–954|doi=10.2514/8.5282|last1=Kelley|first1=Henry J.|authorlink=Генрі Келлі}} {{ref-en}}</ref> 1960 року та {{нп|Артур Брайсон|Брайсоном||Arthur E. Bryson}} 1961 року<ref name="bryson1961">{{нп|Артур Брайсон|Arthur E. Bryson||Arthur E. Bryson}} (1961, April). A gradient method for optimizing multi-stage allocation processes. In Proceedings of the Harvard Univ. Symposium on digital computers and their applications. {{ref-en}}</ref> з використанням принципів [[Динамічне програмування|динамічного програмування]]. 1962 року {{нп|Стюарт Дрейфус|Дрейфус||Stuart Dreyfus}} опублікував простіше виведення, засноване лише на [[Ланцюгове правило|ланцюговому правилі]].<ref name="dreyfus1962">{{cite journal|year=1962|title=The numerical solution of variational problems|url=https://www.researchgate.net/publication/256244271_The_numerical_solution_of_variational_problems|journal=Journal of Mathematical Analysis and Applications|volume=5|issue=1|pages=30–45|doi=10.1016/0022-247x(62)90004-5|last1=Dreyfus|first1=Stuart|authorlink=Стюарт Дрейфус}} {{ref-en}}</ref> Брайсон та {{нп|Юй-Ці Хо|Хо||Yu-Chi Ho}} описали його як метод багатоетапної оптимізації динамічних систем 1969 року.<ref>{{cite book|url={{google books |plainurl=y |id=8jZBksh-bUMC|page=578}}|title=Artificial Intelligence A Modern Approach|last2=Norvig|first2=Peter|publisher=Prentice Hall|year=2010|isbn=978-0-13-604259-4|page=578|quote=The most popular method for learning in multilayer networks is called Back-propagation.|author-link2=Пітер Норвіг|first1=Stuart J.|last1=Russell|author-link1=Стюарт Расселл}} {{ref-en}}</ref><ref name="Bryson1969">{{cite book|url={{google books |plainurl=y |id=1bChDAEACAAJ|page=481}}|title=Applied Optimal Control: Optimization, Estimation and Control|last=Bryson|first=Arthur Earl|publisher=Blaisdell Publishing Company or Xerox College Publishing|year=1969|page=481}} {{ref-en}}</ref> 1970 року {{нп|Сеппо Ліннаінмаа|Ліннаінмаа||Seppo Linnainmaa}} остаточно опублікував загальний метод [[Автоматичне диференціювання|автоматичного диференціювання]] (АД) дискретних зв'язних мереж вкладених [[Диференційовність|диференційовних]] функцій.<ref name="lin1970">{{нп|Сеппо Ліннаінмаа|Seppo Linnainmaa||Seppo Linnainmaa}} (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors. Master's Thesis (in Finnish), Univ. Helsinki, 6-7. {{ref-en}}</ref><ref name="lin1976">{{cite journal|year=1976|title=Taylor expansion of the accumulated rounding error|url=|journal=BIT Numerical Mathematics|volume=16|issue=2|pages=146–160|doi=10.1007/bf01931367|last1=Linnainmaa|first1=Seppo|authorlink=Сеппо Ліннаінмаа}} {{ref-en}}</ref> Він відповідає сучасному баченню зворотного поширення, яке є ефективним навіть коли мережі є розрідженими.<ref name="SCHIDHUB2"/><ref name="scholarpedia2"/><ref name="grie2012">{{Cite journal|last=Griewank|first=Andreas|date=2012|title=Who Invented the Reverse Mode of Differentiation?|url=http://www.math.uiuc.edu/documenta/vol-ismp/52_griewank-andreas-b.pdf|journal=Documenta Matematica, Extra Volume ISMP|volume=|pages=389–400|via=|accessdate=13 січень 2018|archiveurl=https://web.archive.org/web/20170721211929/http://www.math.uiuc.edu/documenta/vol-ismp/52_griewank-andreas-b.pdf|archivedate=21 липень 2017|deadurl=yes}} {{ref-en}}</ref><ref name="grie2008">{{cite book|url={{google books |plainurl=y |id=xoiiLaRxcbEC}}|title=Evaluating Derivatives: Principles and Techniques of Algorithmic Differentiation, Second Edition|last2=Walther|first2=Andrea|publisher=SIAM|year=2008|isbn=978-0-89871-776-1|first1=Andreas|last1=Griewank}} {{ref-en}}</ref> 1973 року Дрейфус застосував зворотне поширення для пристосування [[параметр]]ів контролерів пропорційно градієнтам похибок.<ref name="dreyfus1973">{{cite journal|year=1973|title=The computational solution of optimal control problems with time lag|url=|journal=IEEE Transactions on Automatic Control|volume=18|issue=4|pages=383–385|doi=10.1109/tac.1973.1100330|last1=Dreyfus|first1=Stuart|authorlink=Стюарт Дрейфус}} {{ref-en}}</ref> 1974 року {{нп|Пол Вербос|Вербос||Paul Werbos}} зазначив можливість застосування цього принципу до ШНМ,<ref name="werbos1974">{{нп|Пол Вербос|Paul Werbos||Paul Werbos}} (1974). Beyond regression: New tools for prediction and analysis in the behavioral sciences. PhD thesis, Harvard University. {{ref-en}}</ref> і 1982 року він застосував метод АД Ліннаінмаа до нейронних мереж способом, який широко застосовується сьогодні.<ref name="scholarpedia2"/><ref name="werbos1982">{{Cite book|url=http://werbos.com/Neural/SensitivityIFIPSeptember1981.pdf|title=System modeling and optimization|last=Werbos|first=Paul|authorlink=Пол Вербос|publisher=Springer|year=1982|isbn=|location=|pages=762–770|chapter=Applications of advances in nonlinear sensitivity analysis}} {{ref-en}}</ref> 1986 року {{нп|Девід Румельхарт|Румельхарт||David Rumelhart}}, Хінтон та {{нп|Рональд Вільямс|Вільямс||Ronald J. Williams}} зазначили, що цей метод може породжувати корисні внутрішні представлення вхідних даних в прихованих шарах нейронних мереж.<ref name=":4">{{Cite journal|last=Rumelhart|first=David E.|last2=Hinton|first2=Geoffrey E.|last3=Williams|first3=Ronald J.|title=Learning representations by back-propagating errors|url=http://www.nature.com/articles/Art323533a0|journal=Nature|volume=323|issue=6088|pages=533–536|doi=10.1038/323533a0|year=1986|bibcode=1986Natur.323..533R}} {{ref-en}}</ref> 1993 року Ван став першим<ref name="SCHIDHUB2"/> переможцем міжнародного змагання з розпізнавання образів за допомогою зворотного поширення.<ref name="wan1993">Eric A. Wan (1993). Time series prediction by using a connectionist network with internal delay lines. In SANTA FE INSTITUTE STUDIES IN THE SCIENCES OF COMPLEXITY-PROCEEDINGS (Vol. 15, pp. 195—195). Addison-Wesley Publishing Co. {{ref-en}}</ref>
 
Уточнення ваг зворотного поширення можливо здійснювати за допомогою [[Стохастичний градієнтний спуск|стохастичного градієнтного спуску]] із застосуванням наступного рівняння:
Рядок 285:
=== Глибинні складальні мережі ===
 
Глибинна складальна мережа (ГСМ, {{lang-en|deep stacking network, DSN}})<ref name="ref17">{{cite journal|last2=Yu|first2=Dong|last3=Platt|first3=John|date=2012|title=Scalable stacking and learning for building deep architectures|url=http://research-srv.microsoft.com/pubs/157586/DSN-ICASSP2012.pdf|journal=2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)|pages=2133–2136|last1=Deng|first1=Li|accessdate=13 січень 2018|archiveurl=https://web.archive.org/web/20160304120900/http://research-srv.microsoft.com/pubs/157586/DSN-ICASSP2012.pdf|archivedate=4 березень 2016|deadurl=yes}} {{ref-en}}</ref> (глибинна опукла мережа, {{lang-en|deep convex network}}) ґрунтується на ієрархії блоків спрощених нейромережевих модулів. Її було представлено 2011 року Деном та Доном.<ref name="ref16">{{cite journal|last2=Yu|first2=Dong|date=2011|title=Deep Convex Net: A Scalable Architecture for Speech Pattern Classification|url=http://www.truebluenegotiations.com/files/deepconvexnetwork-interspeech2011-pub.pdf|journal=Proceedings of the Interspeech|pages=2285–2288|last1=Deng|first1=Li}} {{ref-en}}</ref> Вона формулює навчання як {{нп|Задача опуклої оптимізації|задачу опуклої оптимізації||Convex optimization problem}} з {{нп|Вираз замкненого вигляду|розв'язком замкненого вигляду||Closed-form expression}}, підкреслюючи подібність цього механізму до {{нп|Ансамблеве навчання|складеного узагальнення||Ensemble learning}} ({{lang-en|stacked generalization}}).<ref name="ref18">{{cite journal|date=1992|title=Stacked generalization|journal=Neural Networks|volume=5|issue=2|pages=241–259|doi=10.1016/S0893-6080(05)80023-1|last1=David|first1=Wolpert}} {{ref-en}}</ref> Кожен блок ГСМ є простим модулем, який легко тренувати сам по собі [[Навчання з учителем|керованим]] чином без [[Метод зворотного поширення помилки|зворотного поширення]] для всіх блоків.<ref>{{Cite journal|last=Bengio|first=Y.|date=2009-11-15|title=Learning Deep Architectures for AI|url=http://www.nowpublishers.com/article/Details/MAL-006|journal=Foundations and Trends® in Machine Learning|language=English|volume=2|issue=1|pages=1–127|doi=10.1561/2200000006|issn=1935-8237}} {{ref-en}}</ref>
 
Кожен блок складається зі спрощеного [[Багатошаровий перцептрон|багатошарового перцептрону]] (БШП) з єдиним прихованим шаром. Прихований шар '''''h''''' має логістичні [[Сигмоїда|сигмоїдні]] [[Штучний нейрон|вузли]], а шар виходу має лінійні вузли. З'єднання між цими шарами представлено ваговою матрицею '''''U'''''; з'єднання з вхідного до прихованого шару мають вагову матрицю '''''W'''''. Цільові вектори '''''t''''' утворюють стовпчики матриці '''''T''''', а вектори вхідних даних '''''x''''' утворюють стовпчики матриці '''''X'''''. Матрицею прихованих вузлів є <math>\boldsymbol{H} = \sigma(\boldsymbol{W}^T\boldsymbol{X})</math>. Модулі тренуються по черзі, тож ваги нижчого рівня '''''W''''' на кожному етапі є відомими. Функція виконує поелементну [[Логістична функція|логістичну сигмоїдну]] дію. Кожен із блоків оцінює один і той самий клас кінцевих міток ''y'', і його оцінка поєднується з первинним входом '''''X''''', утворюючи розширений вхід для наступного блоку. Таким чином, вхід до першого блоку містить лише первинні дані, тоді як до входів блоків нижче за течією додається також і вихід попередніх блоків. Тоді навчання вагової матриці '''''U''''' вищого рівня за заданих ваг в мережі може бути сформульовано як задачу опуклої оптимізації:
Рядок 305:
=== Піково-пластинові обмежені машини Больцмана ===
 
Потреба в глибинному навчанні з [[Дійсні числа|дійснозначними]] входами, як у ґаусових обмежених машинах Больцмана, привела до ''піково-пластинових'' [[Обмежена машина Больцмана|ОМБ]] (''пп''[[Обмежена машина Больцмана|ОМБ]], {{lang-en|spike and slab Restricted Boltzmann machine, ssRBM}}), які моделюють безперервнозначні входи строго {{нп|Двійкова змінна|двійковими||Binary variable}} [[Латентна змінна|латентними змінними]].<ref name="ref30">{{cite journal|last2=Bergstra|first2=James|last3=Bengio|first3=Yoshua|date=2011|title=A Spike and Slab Restricted Boltzmann Machine|url=http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS2011_CourvilleBB11.pdf|journal=JMLR: Workshop and Conference Proceeding|volume=15|pages=233–241|last1=Courville|first1=Aaron|accessdate=13 січень 2018|archiveurl=https://web.archive.org/web/20160304112418/http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS2011_CourvilleBB11.pdf|archivedate=4 березень 2016|deadurl=yes}} {{ref-en}}</ref> Подібно до базових [[Обмежена машина Больцмана|ОМБ]] та її варіантів, піково-пластинова [[Обмежена машина Больцмана|ОМБ]] є [[Двочастковий граф|двочастковим графом]], але, як у Ґ[[Обмежена машина Больцмана|ОМБ]], видимі вузли (входи) є дійснозначними. Відмінність є в прихованому шарі, де кожен прихований вузол має змінну двійкового піку ({{lang-en|spike}}) та змінну дійснозначної пластини ({{lang-en|slab}}). Пік є дискретною [[Функція ймовірностей|масою ймовірності]] на нулі, тоді як пластина є [[густина ймовірності|густиною ймовірності]] над безперервною областю визначення;<ref name="ref32">{{cite conference|last1=Courville|first1=Aaron|last2=Bergstra|first2=James|last3=Bengio|first3=Yoshua|chapter=Unsupervised Models of Images by Spike-and-Slab RBMs|title=Proceedings of the 28th International Conference on Machine Learning|volume=10|pages=1–8|date=2011|url=http://machinelearning.wustl.edu/mlpapers/paper_files/ICML2011Courville_591.pdf|accessdate=13 січень 2018|archiveurl=https://web.archive.org/web/20160304054551/http://machinelearning.wustl.edu/mlpapers/paper_files/ICML2011Courville_591.pdf|archivedate=4 березень 2016|deadurl=yes}} {{ref-en}}</ref> їхня суміш формує [[Апріорна ймовірність|апріорне]].<ref name="ref31">{{cite journal|last2=Beauchamp|first2=J|date=1988|title=Bayesian Variable Selection in Linear Regression|journal=Journal of the American Statistical Association|volume=83|issue=404|pages=1023–1032|doi=10.1080/01621459.1988.10478694|last1=Mitchell|first1=T}} {{ref-en}}</ref>
 
Розширення пп[[Обмежена машина Больцмана|ОМБ]], що називається ''µ''-пп[[Обмежена машина Больцмана|ОМБ]], забезпечує додаткові моделювальні потужності, використовуючи додаткові члени в [[Енергетична функція|енергетичній функції]]. Один із цих членів дає моделі можливість формувати [[умовний розподіл]] пікових змінних [[Відособлений розподіл|знеособленням]] пластинових змінних за заданого спостереження.
Рядок 311:
=== Змішані ієрархічно-глибинні моделі ===
 
Змішані ієрархічно-глибинні моделі ({{lang-en|compound hierarchical-deep models, compound HD models}}) компонують глибинні мережі з непараметричними [[Баєсова мережа|баєсовими моделями]]. [[Ознака (машинне навчання)|Ознак]] можливо навчатися із застосуванням таких глибинних архітектур як [[Глибинна мережа переконань|ГМП]],<ref name="hinton20062">{{cite journal|last2=Osindero|first2=S.|last3=Teh|first3=Y.|year=2006|title=A fast learning algorithm for deep belief nets|url=http://www.cs.toronto.edu/~hinton/absps/fastnc.pdf|journal={{нп|Neural Computation (журнал)|Neural Computation||Neural Computation (journal)}}|volume=18|issue=7|pages=1527–1554|doi=10.1162/neco.2006.18.7.1527|pmid=16764513|last1=Hinton|first1=G. E.|authorlink1=Джефрі Хінтон}} {{ref-en}}</ref> [[Глибинні машини Больцмана|ГМБ]],<ref name="ref3">{{cite journal|last1=Hinton|first1=Geoffrey|last2=Salakhutdinov|first2=Ruslan|date=2009|title=Efficient Learning of Deep Boltzmann Machines|url=http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS09_SalakhutdinovH.pdf|volume=3|pages=448–455|accessdate=13 січень 2018|archiveurl=https://web.archive.org/web/20151106235714/http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS09_SalakhutdinovH.pdf|archivedate=6 листопад 2015|deadurl=yes}} {{ref-en}}</ref> глибинні автокодувальники,<ref name="ref15">{{cite journal|last2=Bengio|first2=Yoshua|last3=Louradour|first3=Jerdme|last4=Lamblin|first4=Pascal|date=2009|title=Exploring Strategies for Training Deep Neural Networks|url=http://dl.acm.org/citation.cfm?id=1577070|journal=The Journal of Machine Learning Research|volume=10|pages=1–40|last1=Larochelle|first1=Hugo}} {{ref-en}}</ref> згорткові варіанти,<ref name="ref39">{{cite journal|last2=Carpenter|first2=Blake|date=2011|title=Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning|url=http://www.iapr-tc11.org/archive/icdar2011/fileup/PDF/4520a440.pdf|journal=|volume=|pages=440–445|via=|last1=Coates|first1=Adam}} {{ref-en}}</ref><ref name="ref40">{{cite journal|last2=Grosse|first2=Roger|date=2009|title=Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations|url=http://portal.acm.org/citation.cfm?doid=1553374.1553453|journal=Proceedings of the 26th Annual International Conference on Machine Learning|pages=1–8|last1=Lee|first1=Honglak}} {{ref-en}}</ref> ппОМБ,<ref name="ref32" /> мережі глибинного кодування,<ref name="ref41">{{cite journal|last2=Zhang|first2=Tong|date=2010|title=Deep Coding Network|url=http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2010_1077.pdf|journal=Advances in Neural . . .|pages=1–9|last1=Lin|first1=Yuanqing|accessdate=13 січень 2018|archiveurl=https://web.archive.org/web/20160801032459/http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2010_1077.pdf|archivedate=1 серпень 2016|deadurl=yes}} {{ref-en}}</ref> ГМП з розрідженим навчанням ознак,<ref name="ref42">{{cite journal|last2=Boureau|first2=Y-Lan|date=2007|title=Sparse Feature Learning for Deep Belief Networks|url=http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2007_1118.pdf|journal=Advances in Neural Information Processing Systems|volume=23|pages=1–8|last1=Ranzato|first1=Marc Aurelio|accessdate=13 січень 2018|archiveurl=https://web.archive.org/web/20160304121722/http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2007_1118.pdf|archivedate=4 березень 2016|deadurl=yes}} {{ref-en}}</ref> [[Рекурентна нейронна мережа|РНМ]],<ref name="ref43">{{cite journal|last2=Lin|first2=Clif|date=2011|title=Parsing Natural Scenes and Natural Language with Recursive Neural Networks|url=http://machinelearning.wustl.edu/mlpapers/paper_files/ICML2011Socher_125.pdf|journal=Proceedings of the 26th International Conference on Machine Learning|last1=Socher|first1=Richard|accessdate=13 січень 2018|archiveurl=https://web.archive.org/web/20160304074754/http://machinelearning.wustl.edu/mlpapers/paper_files/ICML2011Socher_125.pdf|archivedate=4 березень 2016|deadurl=yes}} {{ref-en}}</ref> умовні ГМП,<ref name="ref44">{{cite journal|last2=Hinton|first2=Geoffrey|date=2006|title=Modeling Human Motion Using Binary Latent Variables|url=http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2006_693.pdf|journal=Advances in Neural Information Processing Systems|last1=Taylor|first1=Graham|accessdate=13 січень 2018|archiveurl=https://web.archive.org/web/20160304051321/http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2006_693.pdf|archivedate=4 березень 2016|deadurl=yes}} {{ref-en}}</ref> знешумлювальні автокодувальники.<ref name="ref45">{{cite journal|last2=Larochelle|first2=Hugo|date=2008|title=Extracting and composing robust features with denoising autoencoders|url=http://portal.acm.org/citation.cfm?doid=1390156.1390294|journal=Proceedings of the 25th international conference on Machine learning - ICML '08|pages=1096–1103|last1=Vincent|first1=Pascal}} {{ref-en}}</ref> Це забезпечує краще представлення, уможливлюючи швидше навчання та точнішу класифікацію із даними високої розмірності. Проте ці архітектури є слабкими в навчанні нововведених класів на кількох прикладах, оскільки всі вузли мережі залучено до представлення входу ('''{{Якір2|розподілене представлення}}'''), і мусить бути приладжувано разом (високий [[Ступені свободи (значення)|ступінь свободи]]). Обмеження ступеню свободи знижує кількість параметрів для навчання, допомагаючи навчанню нових класів з кількох прикладів. [[Ієрархічна баєсова модель|''Ієрархічні баєсові (ІБ)'' моделі]] ({{lang-en|Hierarchical Bayesian (HB) models}}) забезпечують навчання з кількох прикладів, наприклад,<ref name="ref34">{{cite journal|last2=Perfors|first2=Amy|last3=Tenenbaum|first3=Joshua|date=2007|title=Learning overhypotheses with hierarchical Bayesian models|journal=Developmental Science|volume=10|issue=3|pages=307–21|doi=10.1111/j.1467-7687.2007.00585.x|pmid=17444972|last1=Kemp|first1=Charles}} {{ref-en}}</ref><ref name="ref37">{{cite journal|last2=Tenenbaum|first2=Joshua|date=2007|title=Word learning as Bayesian inference|journal=Psychol. Rev.|volume=114|issue=2|pages=245–72|doi=10.1037/0033-295X.114.2.245|pmid=17500627|last1=Xu|first1=Fei}} {{ref-en}}</ref><ref name="ref46">{{cite journal|last2=Polatkan|first2=Gungor|date=2011|title=The Hierarchical Beta Process for Convolutional Factor Analysis and Deep Learning|url=http://machinelearning.wustl.edu/mlpapers/paper_files/ICML2011Chen_251.pdf|journal=Machine Learning . . .|last1=Chen|first1=Bo|accessdate=13 січень 2018|archiveurl=https://web.archive.org/web/20160222030940/http://machinelearning.wustl.edu/mlpapers/paper_files/ICML2011Chen_251.pdf|archivedate=22 лютий 2016|deadurl=yes}} {{ref-en}}</ref><ref name="ref47">{{cite journal|last2=Fergus|first2=Rob|date=2006|title=One-shot learning of object categories|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|volume=28|issue=4|pages=594–611|doi=10.1109/TPAMI.2006.79|pmid=16566508|last1=Fei-Fei|first1=Li}} {{ref-en}}</ref><ref name="ref48">{{cite journal|last2=Dunson|first2=David|date=2008|title=The Nested Dirichlet Process|url=http://amstat.tandfonline.com/doi/full/10.1198/016214508000000553|journal=Journal of the American Statistical Association|volume=103|issue=483|pages=1131–1154|doi=10.1198/016214508000000553|last1=Rodriguez|first1=Abel}} {{ref-en}}</ref> для [[Комп'ютерне бачення|комп'ютерного бачення]], [[Статистика|статистики]] та [[Когнітивна наука|когнітивної науки]].
 
Змішані ІГ-архітектури мають на меті поєднання характеристик як ІБ, так і глибинних мереж. Змішана архітектура ІПД-ГМБ є ''{{нп|Ієрархічний процес Діріхле|ієрархічним процесом Діріхле||Hierarchical Dirichlet process}} (ІПД)'' як ієрархічною моделлю, об'єднаною з архітектурою ГМБ. Вона є повністю [[Породжувальна модель|породжувальною моделлю]], узагальнюваною з абстрактних понять, що течуть крізь шари цієї моделі, яка є здатною синтезувати нові приклади нововведених класів, що виглядають «досить» природними. Навчання всіх рівнів відбувається спільно, зведенням до максимуму [[Функція внеску|функції внеску]] {{нп|Логарифмічна ймовірність|логарифмічної ймовірності||Log probability}}.<ref name="ref38">{{cite journal|last2=Joshua|first2=Tenenbaum|date=2012|title=Learning with Hierarchical-Deep Models|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|volume=35|issue=8|pages=1958–71|doi=10.1109/TPAMI.2012.269|pmid=23787346|last1=Ruslan|first1=Salakhutdinov}} {{ref-en}}</ref>
Рядок 489:
{{Quote|Нейронні мережі, наприклад, знаходяться в обоймі не лише тому, що їх було піднесено до високих небес (що не було?), але також і тому, що ви можете створити успішну мережу без розуміння того, як вона працює: жмут чисел, що охоплює її поведінку, за всією ймовірністю буде «непрозорою, нечитабельною таблицею... нічого не вартою, як науковий ресурс».
Незважаючи на його рішучу заяву, що наука не є технологією, Дьюдні тут, здається, ганьбить нейронні мережі як погану науку, тоді як більшість із тих, хто їх розробляє, просто намагаються бути добрими інженерами. Нечитабельна таблиця, яку може читати корисна машина, все одно буде вельми варта того, щоби її мати.{{oq|en|Neural networks, for instance, are in the dock not only because they have been hyped to high heaven, (what hasn't?) but also because you could create a successful net without understanding how it worked: the bunch of numbers that captures its behaviour would in all probability be "an opaque, unreadable table...valueless as a scientific resource".
In spite of his emphatic declaration that science is not technology, Dewdney seems here to pillory neural nets as bad science when most of those devising them are just trying to be good engineers. An unreadable table that a useful machine could read would still be well worth having.}}|Роджер Бріджмен|Roger Bridgman's defence of neural networks<ref>[http://members.fortunecity.com/templarseries/popper.html Roger Bridgman's defence of neural networks] {{Webarchive|url=https://web.archive.org/web/20120319163352/http://members.fortunecity.com/templarseries/popper.html |date=19 березень 2012 }} {{ref-en}}</ref>}}
 
Незважаючи на те, що аналізувати, чого навчилася штучна нейронна мережа, дійсно складно, робити це набагато простіше, ніж аналізувати, чого навчилася нейронна мережа біологічна. Крім того, дослідники, які беруть участь в пошуку алгоритмів навчання для нейронних мереж, поступово розкривають загальні принципи, що дозволяють машині, що вчиться, бути успішною. Наприклад, локальне й нелокальне навчання, та поверхнева й глибинна архітектура.<ref>{{cite web|url=http://www.iro.umontreal.ca/~lisa/publications2/index.php/publications/show/4|title=Scaling Learning Algorithms towards {AI} - LISA - Publications - Aigaion 2.0|publisher=}} {{ref-en}}</ref>
Рядок 586:
* {{Cite journal| author=Bhadeshia H. K. D. H. | year=1999 |title=Neural Networks in Materials Science | journal=ISIJ International | volume=39 |pages=966–979 | doi=10.2355/isijinternational.39.966 | url=http://www.msm.cam.ac.uk/phase-trans/abstracts/neural.review.pdf| issue=10}} {{ref-en}}
* {{Cite book|url=https://www.worldcat.org/oclc/33101074|title=Neural networks for pattern recognition|last=M.|first=Bishop, Christopher|date=1995|publisher=Clarendon Press|isbn=0198538499|oclc=33101074 }} {{ref-en}}
* {{cite book|title={{нп|Mathematics of Control, Signals, and Systems}}|last=Cybenko|first=G.V.|publisher=Springer International|year=2006|editor-last=van Schuppen|editor-first=Jan H.|chapter=Approximation by Superpositions of a Sigmoidal function|chapter-url={{google books |plainurl=y |id=4RtVAAAAMAAJ|page=303}}|pp=303–314}} [https://web.archive.org/web/20110719183058/http://actcomm.dartmouth.edu/gvc/papers/approx_by_superposition.pdf PDF] {{ref-en}}
* {{Cite book|url=https://www.worldcat.org/oclc/35558945|title=Yes, we have no neutrons : an eye-opening tour through the twists and turns of bad science|last=Dewdney |first=A. K.|isbn=9780471108061|oclc=35558945|year=1997|publisher=Wiley|location=New York}} {{ref-en}}
* {{Cite book|url=https://www.worldcat.org/oclc/41347061|title=Pattern classification|first=Richard O.|last=Duda|last2=Hart |first2=Peter Elliot|last3=Stork |first3=David G.|year=2001|publisher=Wiley|isbn=0471056693|oclc=41347061|edition=2}} {{ref-en}}
Рядок 616:
* [http://www.msm.cam.ac.uk/phase-trans/abstracts/neural.review.html Neural Networks in Materials Science]
* [http://www.ai-junkie.com/ann/evolved/nnt1.html A practical tutorial on Neural Networks]
* [https://web.archive.org/web/20100817033153/http://www.peltarion.com/doc/index.php?title=Applications_of_adaptive_systems Applications of neural networks]
* [https://web.archive.org/web/20150726190848/http://deeplearning4j.org/neuralnet-overview.html An Introduction to Deep Neural Networks].
* [http://people.revoledu.com/kardi/tutorial/NeuralNetwork/index.html A Tutorial of Neural Network in Excel].
* {{youtube|id=q0pm3BrIUFo |title=MIT course on Neural Networks }}
* [https://www.academia.edu/25708860/A_Concise_Introduction_to_Machine_Learning_with_Artificial_Neural_Networks A Concise Introduction to Machine Learning with Artificial Neural Networks]
* [https://web.archive.org/web/20160629121022/https://www.coursera.org/course/neuralnets Neural Networks for Machine Learning&nbsp;— a course by Geoffrey Hinton]
* [http://www.deeplearningbook.org/ Deep Learning]
* [http://ann.thwien.de Artificial Neural Network for PHP 5.x]
Рядок 633:
* [http://chipnews.gaw.ru/html.cgi/arhiv/01_08/1.htm Пошаговые примеры реализации наиболее известных типов нейронных сетей на MATLAB, Neural Network Toolbox]
* [http://www.intuit.ru/department/ds/neuronnets/ Лекции по нейронным сетям]
* [httphttps://archive.is/20121225034359/www.gafourov.narod.ru/WAR-R.HTM Статья противника применения нейронных сетей в прогнозировании цен на акции]
* [http://www.gotai.net/documents-neural_networks.aspx Подборка статей по нейронным сетям]
* [http://alife.narod.ru/ Лекции по нейроинформатике и смежным вопросам обучения машин]