Безмодельне навчання

У навчанні з підкріпленням безмодельний алгоритм (на відміну від заснованого на моделі) — це алгоритм, який не використовує розподіл ймовірностей переходу і функцію винагороди,^[1] що пов'язані з Марковським процесом вирішування (МПВ), відображаючим необхідну для розв'язання проблему. Розподіл ймовірностей переходу (або модель переходу) і функцію винагороди зазвичай загалом називають «моделлю» середовища (або МПВ), звідси й назва «безмодельний». Алгоритм безмодельного навчання з підкріпленням можна розглядати як «явний» алгоритм спроб і помилок.^[1] Прикладом безмодельного алгоритму може слугувати Q-навчання.

Основні алгоритми безмодельного навчання з підкріпленням ред.

Алгоритм	Опис	Модель	Стратегія	Множина дій	Простір станів	Оператор
DQN	Deep Q Network	Безмодельний	Поза стратегією	Дискретна	Безперервний	Q-значення
DDPG	Deep Deterministic Policy Gradient	Безмодельний	Поза стратегією	Безперервна	Безперервний	Q-значення
A3C	Asynchronous Advantage Actor-Critic Algorithm	Безмодельний	За стратегією	Безперервна	Безперервний	Перевага (англ. Advantage)
TRPO	Trust Region Policy Optimization	Безмодельний	За стратегією	Безперервна	Безперервний	Перевага (англ. Advantage)
PPO^[en]	Proximal Policy Optimization	Безмодельний	За стратегією	Безперервна	Безперервний	Перевага (англ. Advantage)
TD3	Twin Delayed Deep Deterministic Policy Gradient	Безмодельний	Поза стратегією	Безперервна	Безперервний	Q-значення
SAC	Soft Actor-Critic	Безмодельний	Поза стратегією	Безперервна	Безперервний	Перевага (англ. Advantage)

Примітки ред.

↑ ^а ^б Sutton, Richard S.; Barto, Andrew G. (13 листопада 2018). Reinforcement Learning: An Introduction (PDF) (вид. Second). A Bradford Book. с. 552. ISBN 0262039249. Архів оригіналу (PDF) за 19 лютого 2019. Процитовано 18 лютого 2019.

[sutton2018-1] а ^б Sutton, Richard S.; Barto, Andrew G. (13 листопада 2018). Reinforcement Learning: An Introduction (PDF) (вид. Second). A Bradford Book. с. 552. ISBN 0262039249. Архів оригіналу (PDF) за 19 лютого 2019. Процитовано 18 лютого 2019.

[1]