У навчанні з підкріпленням безмодельний алгоритм (на відміну від заснованого на моделі) — це алгоритм, який не використовує розподіл ймовірностей переходу і функцію винагороди,[1] що пов'язані з Марковським процесом вирішування (МПВ), відображаючим необхідну для розв'язання проблему. Розподіл ймовірностей переходу (або модель переходу) і функцію винагороди зазвичай загалом називають «моделлю» середовища (або МПВ), звідси й назва «безмодельний». Алгоритм безмодельного навчання з підкріпленням можна розглядати як «явний» алгоритм спроб і помилок.[1] Прикладом безмодельного алгоритму може слугувати Q-навчання.

Основні алгоритми безмодельного навчання з підкріпленням ред.

Алгоритм Опис Модель Стратегія Множина дій Простір станів Оператор
DQN Deep Q Network Безмодельний Поза стратегією Дискретна Безперервний Q-значення
DDPG Deep Deterministic Policy Gradient Безмодельний Поза стратегією Безперервна Безперервний Q-значення
A3C Asynchronous Advantage Actor-Critic Algorithm Безмодельний За стратегією Безперервна Безперервний Перевага (англ. Advantage)
TRPO Trust Region Policy Optimization Безмодельний За стратегією Безперервна Безперервний Перевага (англ. Advantage)
PPO[en] Proximal Policy Optimization Безмодельний За стратегією Безперервна Безперервний Перевага (англ. Advantage)
TD3 Twin Delayed Deep Deterministic Policy Gradient Безмодельний Поза стратегією Безперервна Безперервний Q-значення
SAC Soft Actor-Critic Безмодельний Поза стратегією Безперервна Безперервний Перевага (англ. Advantage)

Примітки ред.

  1. а б Sutton, Richard S.; Barto, Andrew G. (13 листопада 2018). Reinforcement Learning: An Introduction (PDF) (вид. Second). A Bradford Book. с. 552. ISBN 0262039249. Архів оригіналу (PDF) за 19 лютого 2019. Процитовано 18 лютого 2019.