Багаторукий бандит: відмінності між версіями
[неперевірена версія] | [неперевірена версія] |
Вилучено вміст Додано вміст
Створено шляхом перекладу сторінки «Multi-armed bandit» |
оформлення |
||
Рядок 1:
[[Файл:Las_Vegas_slot_machines.jpg|праворуч|міні| Ряд ігрових автоматів у Лас-Вегасі]]
У [[Теорія ймовірностей|теорії ймовірностей]] та [[Машинне навчання|машинному навчанні]] '''задача багаторукого бандита''' (яку іноді називають '''''задачею
{{Citation|last=Gittins|first=J. C.|author-link=John C. Gittins|isbn=978-0-471-92059-5|place=Chichester|publisher=John Wiley & Sons, Ltd.|series=Wiley-Interscience Series in Systems and Optimization.|title=Multi-armed bandit allocation indices|year=1989}}
</ref><ref name="BF">
{{Citation|last=Berry|first=Donald A.|author1-link=Don Berry (statistician)|last2=Fristedt|first2=Bert|isbn=978-0-412-24810-8|place=London|publisher=Chapman & Hall|series=Monographs on Statistics and Applied Probability|title=Bandit problems: Sequential allocation of experiments|year=1985}}
</ref>. Це класична задача [[
У цій задачі кожен автомат забезпечує випадкову винагороду відповідно до [[Розподіл імовірностей|розподілу ймовірностей
{{Citation|last=Gittins|first=J. C.|author-link=John C. Gittins|isbn=978-0-471-92059-5|place=Chichester|publisher=John Wiley & Sons, Ltd.|series=Wiley-Interscience Series in Systems and Optimization.|title=Multi-armed bandit allocation indices|year=1989}}
</ref><ref name="BF">
{{Citation|last=Berry|first=Donald A.|author1-link=Don Berry (statistician)|last2=Fristedt|first2=Bert|isbn=978-0-412-24810-8|place=London|publisher=Chapman & Hall|series=Monographs on Statistics and Applied Probability|title=Bandit problems: Sequential allocation of experiments|year=1985}}
</ref>. Принципова проблема, з якою стикається гравець на кожному кроці, полягає в тому, що він має зробити вибір, між
[[Герберт Роббінс]] у 1952 році, усвідомлюючи важливість цієї задачі, побудував збіжні стратегії відбору сукупності в
== Емпірична мотивація ==
[[Файл:The_Jet_Propulsion_Laboratory_(9416811752).jpg|міні| Як потрібно розподілити наявний бюджет між цими дослідницькими інститутами, щоб максимізувати результати?]]
Проблема багаторукого бандита моделює [[Програмний агент|агента]], який одночасно намагається здобути нові знання (що називається
* [[Клінічне випробування|клінічні випробування]], які вивчають ефекти різних експериментальних методів лікування для мінімізації втрат серед пацієнтів<ref name="Gittins89">
Рядок 26 ⟶ 25:
{{Citation|first=William H.|last=Press|year=2009|title=Bandit solutions provide unified ethical models for randomized clinical trials and comparative effectiveness research|journal=Proceedings of the National Academy of Sciences|volume=106|pages=22387–22392|pmid=20018711|doi=10.1073/pnas.0912378106|number=52|pmc=2793317|postscript=.|bibcode=2009PNAS..10622387P}}
</ref><ref name="KD">Press (1986)</ref>,
* зусилля по
* створення [[Інвестиційний портфель|фінансового портфеля]]<ref name="BrochuHoffmandeFreitas">
{{Citation|last=Brochu|first=Eric|last2=Hoffman|first2=Matthew W.|last3=de Freitas|first3=Nando|arxiv=1009.5419|date=September 2010|title=Portfolio Allocation for Bayesian Optimization|bibcode=2010arXiv1009.5419B}}
Рядок 39 ⟶ 38:
</ref>.
Спочатку задача досліджувалась науковцями союзників у [[Друга світова війна|Другій світовій війні]] та виявилася настільки складною, що, за жартівливими словами {{Нп|Пітер Уіттл (математик)|Пітера Уіттла||Peter Whittle (mathematician)}}, пропонувалося скинути її над [[Німеччина|Німеччиною,]] щоб німецькі вчені також могли витрачати на неї свій час<ref name="Whittle79">
{{Citation|last=Whittle|first=Peter|author-link=Peter Whittle (mathematician)|journal=[[Journal of the Royal Statistical Society]]|series=Series B|title=Discussion of Dr Gittins' paper|volume=41|number=2|pages=148–177|year=1979|doi=10.1111/j.2517-6161.1979.tb01069.x}}
</ref>.
Рядок 46 ⟶ 45:
== Модель багаторукого бандита ==
Багаторукого бандита (коротко: ''бандит'' або БРБ) можна розглядати як сукупність [[Розподіл імовірностей|розподілів]] дійсних чисел <math>B = \{R_1, \dots ,R_K\}</math>, кожен розподіл пов'язаний з винагородами, які отримуються натисканням одного із <math>K \in \mathbb{N}^+</math> важелів. Нехай <math>\mu_1, \dots, \mu_K</math> будуть середніми значеннями, які
<math>\rho = T \mu^* - \sum_{t=1}^T \widehat{r}_t</math> ,
де <math>\mu^* = \max_k \{ \mu_k \}</math>
Стратегія ''нульового смутку''
{{Citation|url=http://bandit.sourceforge.net/Vermorel2005poker.pdf|last=Vermorel|first=Joannes|last2=Mohri|first2=Mehryar|publisher=Springer|series=In European Conference on Machine Learning|pages=437–448|title=Multi-armed bandit algorithms and empirical evaluation|year=2005}}
</ref>. Інтуїтивно зрозуміло, що стратегії нульового смутку гарантовано збігаються до (не обов'язково єдиної) оптимальної стратегії, якщо зіграно достатньо раундів.
Рядок 59 ⟶ 58:
Загальноприйнятим формулюванням є ''двійковий багаторукий бандит'' або ''багаторукий бандит Бернуллі,'' який видає винагороду одиниця з ймовірністю <math>p</math>, а в протилежному випадку винагорода дорівнює нулю.
В іншому формулюванні задачі про багаторукого бандита кожна рука представляє незалежну машину Маркова. Кожного разу, коли грається певна рука, стан цієї машини переходить у новий стан, обраний відповідно до розподілу ймовірностей станів машини Маркова. Тобто, кожного разу винагорода залежить від поточного стану машини. Для узагальнення, яке називають
{{Citation|last=Whittle|first=Peter|author-link=Peter Whittle (mathematician)|mr=974588|journal=Journal of Applied Probability|pages=287–298|title=Restless bandits: Activity allocation in a changing world|volume=25A|year=1988|doi=10.2307/3214163|jstor=3214163}}
</ref>. Також розглядаються системи, в яких кількість варіантів (щодо того, яку руку зіграти) з часом збільшується<ref name="Whittle81">
Рядок 71 ⟶ 70:
=== Оптимальні рішення ===
У статті
Пізніше в
Коли оптимальні рішення для задач про одноруких бандитів<ref> {{Cite journal|last=Averbeck|first=B.B.|year=2015|title=Theory of choice in bandit, information sampling, and foraging tasks|journal=PLOS Computational Biology|volume=11|issue=3|pages=e1004164|bibcode=2015PLSCB..11E4164A|doi=10.1371/journal.pcbi.1004164|pmc=4376795|pmid=25815510}}</ref> використовуються для оцінки вибору, який роблять тварини, через активність нейронів у [[Мигдалеподібне тіло|мигдалині]] та [[Смугасте тіло|смугастому тілі]] кодується значення, яке виводиться з цих правил, і може використовуватися для декодування, коли тварини роблять вибір між дослідженням та експлуатацією. Більше того, оптимальні стратегії краще прогнозують поведінку тварин при виборі, ніж альтернативні стратегії (описані нижче). Це свідчить про те, що оптимальні рішення для задач багаторуких бандитів є біологічно правдоподібними, незважаючи на вимоги до обчислень<ref> {{Cite journal|last=Costa|first=V.D.|last2=Averbeck|first2=B.B.|year=2019|title=Subcortical Substrates of Explore-Exploit Decisions in Primates|url=https://www.cell.com/neuron/pdfExtended/S0896-6273(19)30442-8#secsectitle0010|journal=Neuron|volume=103|issue=3|pages=533–535|doi=10.1016/j.neuron.2019.05.017|pmc=6687547|pmid=31196672}}</ref>.
Рядок 81 ⟶ 80:
==== Напіврівномірні стратегії ====
Напіврівномірні стратегії були найдавнішими (і найпростішими) стратегіями, які дають наближений
* '''Епсилон-жадібна стратегія'''<ref>Sutton, R. S. & Barto, A. G. 1998 Reinforcement learning: an introduction. Cambridge, MA: MIT Press.</ref>: Найкращий важіль вибирається з ймовірністю <math>1 - \epsilon</math>, і важіль вибирається випадково з рівною ймовірністю <math>\epsilon</math>. Типовим значенням параметра може бути <math>\epsilon = 0.1</math>, але він може сильно відрізнятися в залежності від обставин та цілей.
* '''Епсилон-перша стратегія''': Після чистої фази розвідки йде фаза чистої експлуатації. Якщо <math>N</math>
* '''Стратегія епсилон-зменшення''': Подібна до епсилон-жадібної стратегії, за винятком того, що значення <math>\epsilon</math> зменшується з проходження експерименту, що призводить до надзвичайно дослідницької поведінки на початку та надзвичайно експлуататорської поведінки на фініші.
* '''Адаптивна епсилон-жадібна стратегія, заснована на ціннісних відмінностях (VDBE)''': Подібна до стратегії зменшення епсилону, за винятком того, що епсилон зменшується відповідно до прогресу навчання замість ручного регулювання (Токіч, 2010)<ref name="Tokic2010">
{{Citation|last=Tokic|first=Michel|chapter=Adaptive ε-greedy exploration in reinforcement learning based on value differences|doi=10.1007/978-3-642-16111-7_23|pages=203–210|publisher=Springer-Verlag|series=Lecture Notes in Computer Science|title=KI 2010: Advances in Artificial Intelligence|volume=6359|year=2010|chapter-url=http://www.tokic.com/www/tokicm/publikationen/papers/AdaptiveEpsilonGreedyExploration.pdf|isbn=978-3-642-16110-0}}.
</ref>. Великі коливання оцінок вартості призводять до високого епсилону (велика розвідка, низька експлуатація); низькі коливання до низького епсилону (низька розвідка, висока експлуатація). Подальші поліпшення можуть бути досягнуті шляхом
{{Citation|last=Tokic|first=Michel|last2=Palm|first2=Günther|chapter=Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax|pages=335–346|publisher=Springer-Verlag|series=Lecture Notes in Computer Science|title=KI 2011: Advances in Artificial Intelligence|volume=7006|year=2011|chapter-url=http://www.tokic.com/www/tokicm/publikationen/papers/KI2011.pdf|isbn=978-3-642-24455-1}}.
</ref>.
* '''Адаптивна епсилон-жадібна стратегія на основі байєсівських ансамблів (Epsilon-BMC)''': Адаптивна стратегія адаптації епсилону для посилення навчання, подібного до VBDE, з монотонними гарантіями збіжності. У цьому підході параметр епсилон розглядається як очікування постеріорного розподілу, який оцінює жадібного агента (який повністю довіряє отриманій винагороді) та агента, який навчається одноманітно (який не довіряє отриманій винагороді). Докладніше див. Гімельфарб та ін., 2019.
{{Citation|last=Gimelfarb|first=Michel|last2=Sanner|first2=Scott|last3=Lee|first3=Chi-Guhn|chapter=ε-BMC: A Bayesian Ensemble Approach to Epsilon-Greedy Exploration in Model-Free Reinforcement Learning|pages=162|publisher=AUAI Press|title=Proceedings of the Thirty-Fifth Conference on Uncertainty in Artificial Intelligence|year=2019|chapter-url=http://auai.org/uai2019/proceedings/papers/162.pdf}}.
</ref>
* '''Контекстуальна-епсілон-жадібна стратегія''': Подібна до епсілон-жадібної стратегії, за винятком того, що значення <math>\epsilon</math> обчислюється з урахуванням ситуації при проходженні експерименту, що дозволяє алгоритму брати до уваги контекст. Він базується на динамічному балансуванні розвіки/експлуатації і може адаптивно збалансувати два аспекти, вирішуючи, яка ситуація є найбільш відповідною для розвідки чи експлуатації, що призводить до надзвичайно дослідницької поведінки, коли ситуація не є критичною, і дуже експлуататорської поведінки у критичній ситуації.
{{Citation|last=Bouneffouf|first=D.|last2=Bouzeghoub|first2=A.|last3=Gançarski|first3=A. L.|doi=10.1007/978-3-642-34487-9_40|chapter=A Contextual-Bandit Algorithm for Mobile Context-Aware Recommender System|title=Neural Information Processing|series=Lecture Notes in Computer Science|volume=7665|pages=324|year=2012|isbn=978-3-642-34486-2}}
</ref>
==
* {{Нп|Індекс Гіттінса|||Gittins index}}
* [[Жадібний алгоритм]]
* {{Нп|Теорія пошуку|||Search theory}}▼
* {{Нп|Стохастичне планування|||Stochastic scheduling}}▼
▲* Теорія пошуку
▲* Стохастичне планування
== Примітки ==
{{reflist}}
{{Перекласти|en|Multi-armed bandit}}
[[Категорія:Машинне навчання]]
[[Категорія:Стохастична оптимізація]]
[[Категорія:Послідовні методи]]
|