Підмайстрове навчання

У сфері штучного інтелекту підмайстрове навчання (або навчання на основі демонстрації чи імітаційне навчання) — це процес навчання шляхом спостереження експерта.[1][2] Його можна розглядати як форму навчання під керівництвом, де навчальний набір даних складається з виконання завдань учителем-демонстрацією.[2]

Підхід функції відображення ред.

Методи відображення намагаються імітувати експерта, шляхом формування прямого відображення або від станів до дій,[2] або від станів до значень винагороди[1]. Наприклад, у 2002 році дослідники використали такий підхід, щоб навчити робота AIBO базовим футбольним навичкам.[2]

Навчальний підхід із зворотним підкріпленням ред.

Навчання зі зворотним підкріпленням (IRL) — це процес виведення функції винагороди з поведінки, що спостерігається. У той час як звичайне «навчання з підкріпленням» передбачає використання винагород і покарань для вивчення поведінки, у IRL напрямок змінюється, і робот спостерігає за поведінкою людини, щоб зрозуміти, яку мету ця поведінка, здається, намагається досягти.[3] Проблему IRL можна визначити як:[4]

Дано 1) вимірювання поведінки агента в часі за різних обставин; 2) вимірювання сенсорних вхідних даних для цього агента; 3) модель фізичного середовища (включаючи тіло агента): визначте функцію винагороди, яку оптимізує агент.

Дослідник IRL Стюарт Дж. Рассел[en] припускає, що IRL можна використовувати для спостереження за людьми та спроб кодифікації їхніх складних «етичних цінностей», намагаючись створити «етичних роботів», які одного разу знатимуть, що «не варити твого кота», без необхідності казати їм цього напряму.[5] Сценарій можна змоделювати як «кооперативну інверсну навчальну гру з підкріпленням», де гравець «людина» та гравець «робот» співпрацюють, щоб забезпечити неявні цілі людини, незважаючи на те, що ці цілі явно не відомі ні людині, ні роботу.[6][7]


У 2017 році OpenAI і DeepMind застосували глибоке навчання до кооперативного навчання зворотного підкріплення в простих областях, таких як ігри Atari, і звичайні завдання роботів, такі як сальто назад. Роль людини обмежувалася відповіддю на запити робота щодо того, яка з двох різних дій є кращою. Дослідники знайшли докази того, що методи можуть бути економічно масштабованими для сучасних систем.[8][9]

Підмайстрове навчання через зворотне підкріплююче навчання (AIRP) було розроблено у 2004 році Пітером Аббілом[en], професором кафедри EE CS Берклі, та Ендрю Нґом, доцентом факультету комп’ютерних наук Стенфордського університету. AIRP має справу з «Марковським процесом прийняття рішень, де нам явно не надається функція винагороди, але замість цього ми можемо спостерігати, як експерт демонструє завдання, яке ми хочемо навчитися виконувати»[1]. AIRP використовувався для моделювання функцій винагороди у високодинамічних сценаріях, де інтуїтивно немає очевидної функції винагороди. Візьмемо, наприклад, завдання керування автомобілем. Є багато різних цілей, які виконуються одночасно - наприклад, підтримувати безпечну дистанцію, хорошу швидкість, не надто часто змінювати смугу руху тощо. Це завдання може здатися легким на перший погляд, але тривіальна функція винагороди може не збігатися з бажаною політикою.

Системний модельний підхід ред.

Системні моделі намагаються імітувати експерта, моделюючи світову динаміку.[2]

Плановий підхід ред.

Система вивчає правила, щоб пов’язувати передумови та постумови з кожною дією. В одній демонстрації 1994 року гуманоїд вивчає узагальнений план лише з двох демонстрацій повторюваного завдання зі збору м’яча.[2]

Приклад ред.

Навчання на демонстрації часто пояснюється з точки зору того, що робоча система керування роботом[en] доступна і людина-демонстратор використовує її. І справді, якщо програмне забезпечення працює, людина-оператор бере робо-руку, робить нею рух, а робот потім відтворює дію. Наприклад, він вчить робо-руку, як поставити чашку під кавоварку і натиснути кнопку запуску. У фазі відтворення робот імітує цю поведінку 1 в 1. Але це не те, як система працює всередині; це лише те, що може спостерігати глядач. Насправді навчання на демонстрації набагато складніше. Однією з перших робіт про навчання роботів-учнів (антропоморфні роботи, що навчаються шляхом імітації) була докторська дисертація Адріана Стойки в 1995 році[10].

У 1997 році експерт з робототехніки Стефан Шаал[en] працював над роботом-рукою Sarcos. Мета була проста: розв’язати задачу про розгойдування маятника. Робот сам може виконувати рух, і в результаті маятник рухається. Проблема в тому, що незрозуміло, які дії призведуть до якого руху. Це задача оптимального керування, яку можна описати математичними формулами, але її важко вирішити. Ідея Шаала полягала в тому, щоб не використовувати пошук грубою силою, а записувати рухи людини-демонстрації. Кут маятника реєструється протягом трьох секунд по осі y. Це призводить до діаграми, яка створює візерунок.[11]

Траєкторія в часі
час (секунди) кут (радіани)
0 -3.0
0.5 -2.8
1.0 -4.5
1.5 -1.0

У комп’ютерній анімації цей принцип називається сплайн-анімацією[en][12]. Це означає, що на осі абсцис задано час, наприклад 0,5 секунди, 1,0 секунди, 1,5 секунди, а на осі у – задана змінна. У більшості випадків це положення об’єкта. У перевернутому маятнику це кут.

Загальне завдання складається з двох частин: запис кута в часі та відтворення записаного руху. Етап відтворення напрочуд простий. Як вхідні дані ми знаємо, на якому кроці часу який кут має мати маятник. Переведення системи в стан називається «контролем стеження» або ПІД-регулюванням. Це означає, що у нас є траєкторія в часі, і ми повинні знайти керуючі дії, щоб відобразити систему на цю траєкторію. Інші автори називають принцип «кермовою поведінкою»[13], оскільки метою є привести робота до заданої лінії.

Дивись також ред.

Список літератури ред.

  1. а б в "Apprenticeship learning via inverse reinforcement learning". Pieter Abbeel, Andrew Ng, In 21st International Conference on Machine Learning (ICML). 2004.
  2. а б в г д е Argall, Brenna D.; Chernova, Sonia; Veloso, Manuela; Browning, Brett (May 2009). A survey of robot learning from demonstration. Robotics and Autonomous Systems. 57 (5): 469—483. doi:10.1016/j.robot.2008.10.024. S2CID 1045325.
  3. Wolchover, Natalie. This Artificial Intelligence Pioneer Has a Few Concerns. WIRED. Процитовано 22 January 2018.
  4. Russell, Stuart (1998). Learning agents for uncertain environments. Proceedings of the eleventh annual conference on Computational learning theory. с. 101—103. doi:10.1145/279943.279964.
  5. Havens, John C. (23 June 2015). The ethics of AI: how to stop your robot cooking your cat. the Guardian. Процитовано 22 January 2018.
  6. Artificial Intelligence And The King Midas Problem. Huffington Post. 12 December 2016. Процитовано 22 January 2018.
  7. Hadfield-Menell, D., Russell, S. J., Abbeel, Pieter & Dragan, A. (2016). Cooperative inverse reinforcement learning. In Advances in neural information processing systems (pp. 3909-3917).
  8. Two Giants of AI Team Up to Head Off the Robot Apocalypse. WIRED. 7 July 2017. Процитовано 29 January 2018.
  9. Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. In Advances in Neural Information Processing Systems (pp. 4302-4310).
  10. Stoica, Adrian (1995). Motion learning by robot apprentices : a fuzzy neural approach (Дипломна робота) (англ.). Victoria University of Technology.https://vuir.vu.edu.au/15323/
  11. Atkeson, Christopher G., and Stefan Schaal (1997). Learning tasks from a single demonstration. Proceedings of International Conference on Robotics and Automation (PDF). Т. 2. IEEE. с. 1706—1712. doi:10.1109/robot.1997.614389. ISBN 978-0-7803-3612-4.
  12. Baris Akgun and Maya Cakmak and Karl Jiang and Andrea L. Thomaz (2012). Keyframe-based Learning from Demonstration (PDF). International Journal of Social Robotics. 4: 343—355. doi:10.1007/s12369-012-0160-0.
  13. Reynolds, Craig W. (1999). Steering behaviors for autonomous characters. Game developers conference. с. 763—782.