Алгоритм SARSA: відмінності між версіями

[перевірена версія][неперевірена версія]
Вилучено вміст Додано вміст
уточнення
Zouio Her (обговорення | внесок)
Немає опису редагування
Рядок 21:
 
=== Початкові умови ({{math|''Q''(''s''<sub>0</sub>, ''a''<sub>0</sub>)}}) ===
Оскільки SARSA є ітераційним алгоритмом, він передбачає наявність початкових умов до того, як відбудеться перше оновлення. Високе (нескінченне) початкове значення, також відоме як «оптимістичні початкові умови»,<ref>{{Cite web|url=http://incompleteideas.net/book/ebook/node21.html|title=2.7 Optimistic Initial Values|website=incompleteideas.net|accessdate=2018-02-28|archive-date=5 липня 2020|archive-url=https://web.archive.org/web/20200705200840/http://www.incompleteideas.net/book/ebook/node21.html}}</ref> може заохочувати дослідження: незалежно від того, які дії виконує агент, формула оновлення призводить до того, що наступні ітерації мають більш високі значення винагороди, ніж попередні, тим самим збільшуючи ймовірність їх вибору. У 2013 році була запропонована ідея використання першої винагороди {{Mvar|r}} в якості початкових умов. При такому підході, після виконання агентом першої дії, отримана винагорода використовується як початкове значення {{Mvar|Q}}. Що при фіксованих винагородах, дозволяє навчати відразу після першого кроку. Такий метод обирання початкових умов повторює поведінку людини в багатьох експериментах з бінарним вибором.<ref>{{Cite journal|last=Shteingart|first=H|last2=Neiman|first2=T|last3=Loewenstein|first3=Y|date=May 2013|title=The Role of First Impression in Operant Learning|url=http://ratio.huji.ac.il/sites/default/files/publications/dp626.pdf|journal=J Exp Psychol Gen|volume=142|issue=2|pages=476–88|doi=10.1037/a0029550|pmid=22924882|accessdate=18 червня 2020|archive-date=26 січня 2021|archive-url=https://web.archive.org/web/20210126122611/http://ratio.huji.ac.il/sites/default/files/publications/dp626.pdf}}</ref>
Такий метод обирання початкових умов повторює поведінку людини в багатьох експериментах з бінарним вибором.<ref>{{Cite journal|last=Shteingart|first=H|last2=Neiman|first2=T|last3=Loewenstein|first3=Y|date=May 2013|title=The Role of First Impression in Operant Learning|url=http://ratio.huji.ac.il/sites/default/files/publications/dp626.pdf|journal=J Exp Psychol Gen|volume=142|issue=2|pages=476–88|doi=10.1037/a0029550|pmid=22924882|accessdate=18 червня 2020|archive-date=26 січня 2021|archive-url=https://web.archive.org/web/20210126122611/http://ratio.huji.ac.il/sites/default/files/publications/dp626.pdf}}</ref>
 
== Примітки ==