Марковський процес вирішування: відмінності між версіями

[перевірена версія][неперевірена версія]
Вилучено вміст Додано вміст
→‎Посилання: +перекласти
Iryna Kyiv (обговорення | внесок)
Функція пропозицій посилань: додано 3 посилання.
Рядок 58:
: <math> V_{i+1}(s) := \max_a \left\{ \sum_{s'} P_a(s,s') \left( R_a(s,s') + \gamma V_i(s') \right) \right\}, </math>
 
де <math>i</math> є номером ітерації. [[Ітерація]] за цінностями починається з <math>i = 0</math> та <math>V_0</math> як припущення про функцію цінності. Потім виконується ітерування з повторним обчисленням <math>V_{i+1}</math> для всіх станів <math>s</math>, поки <math>V</math> не збіжиться, коли ліва сторона дорівнюватиме правій (що є [[Рівняння Беллмана|«рівнянням Беллмана»]] для цієї задачі).
 
==== Ітерація за стратегіями ====
Рядок 103:
{{Докладніше1|{{нп|Автомати з самонавчанням|||Learning automata}}}}
 
Ще одне застосування процесу МПВ в теорії [[Машинне навчання|машинного навчання]] називається автоматами з самонавчанням. Воно також є одним із типів навчання з підкріпленням, якщо середовище має стохастичний характер. Перше детальне дослідження про '''автомати з самонавчанням''' ({{lang-en|learning automata}}) здійснили {{нп|Кумпаті Нарендра|Нарендра||Kumpati S. Narendra}} та Татачар (1974), в якому їх було первісно описано явно як [[Скінченний автомат|скінченні автомати]].{{sfn|Narendra|Thathachar|1974}} Подібно до навчання з підкріпленням, алгоритм автоматів із самонавчанням також має перевагу [[розв'язання задач]], у яких імовірності або винагороди є невідомими. Відмінність автоматів із самонавчанням від ''Q''-навчання полягає в тому, що вони не включають пам'ять ''Q''-значень, а для знаходження результату навчання уточнюють ймовірності дій безпосередньо. Автомати з самонавчанням є однією зі схем навчання з суворим доведенням збіжності.{{sfn|Narendra|Thathachar|1989}}
 
В теорії автоматів із самонавчанням '''стохастичний автомат''' ({{lang-en|stochastic automaton}}) складається з:
Рядок 204:
</math>
 
<math>D(\cdot)</math> є функцією остаточної винагороди ({{lang-en|terminal reward function}}), <math>x(t)</math> є [[Вектор стану|вектором стану]] системи, <math>u(t)</math> є вектором керування системою, який ми намагаємося знайти. <math>f(\cdot)</math> показує, як стан системи змінюється з часом. Рівняння Гамільтона&nbsp;— Якобі&nbsp;— Беллмана є таким:
 
: <math>0=\text{max}_u ( r(t,x,u) +\frac{\partial V(t,x)}{\partial x}f(t,x,u)) </math>