Навчання з учителем

Навчання з учителем (англ. Supervised learning) — один із способів машинного навчання, в ході якого випробувана система примусово навчається за допомогою наявної множини прикладів «стимул-реакція» з метою визначення «реакції» для «стимулів», які не належать наявній множини прикладів. З точки зору кібернетики, є одним із видів кібернетичного експерименту.

Зміст

Задача навчанняРедагувати

Між входами та еталонними виходами (стимул-реакція) може існувати деяка залежність, але вона не відома. Відома лише кінцева сукупність прецедентів — пар «стимул-реакція», звана навчальною вибіркою. На основі цих даних потрібно відновити залежність (побудувати модель відносин стимул-реакція, придатних для прогнозування), тобто побудувати алгоритм, здатний для будь-якого об'єкта видати досить точну відповідь. Для вимірювання точності відповідей, так само як і в навчанні на прикладах, може вводитися функціонал якості.

Формально задача навчання може бути сформульована наступним чином: існує деяка сукупність «стимулів»   і «реакцій на стимули»  , необхідно визначити залежність між   та   таку, що в межах припустимої помилки   буде справедливим  .

Принцип постановки експериментуРедагувати

 
Навчання з учителем

Даний експеримент являє собою окремий випадок кібернетичного експерименту зі зворотним зв'язком[ru]. Постановка даного експерименту припускає наявність експериментальної системи, методу навчання і методу випробування системи або вимірювання характеристик.

Експериментальна система у свою чергу складається з випробовуваної (використовуваної) системи, простору стимулів одержуваних із зовнішнього середовища та системи управління підкріпленням (регулятора внутрішніх параметрів). Як систему управління підкріпленням можна використати автоматичний пристрій, що регулює (наприклад, термостат), або людину-оператора (вчителя), здатну реагувати на реакції випробовуваної системи і стимули зовнішнього середовища шляхом застосування особливих правил підкріплення, що змінюють стан пам'яті системи.

Розрізняють два варіанти: (1) коли реакція випробовуваної системи не змінює стан зовнішнього середовища, і (2) коли реакція системи змінює стимули зовнішнього середовища. Ці схеми вказують принципову схожість такої системи загального вигляду з біологічною нервовою системою.

Типологія завдань навчання з учителемРедагувати

Типи вхідних данихРедагувати

Типи відгуківРедагувати

Вироджені види систем управління підкріпленням («вчителів»)Редагувати

  • Система підкріплення з керуванням по реакції (R — керована система) — характеризується тим, що інформаційний канал від зовнішнього середовища до системи підкріплення не функціонує. Дана система, незважаючи на наявність системи управління, відноситься до спонтанного навчання, оскільки випробовувана система навчається автономно, під дією лише своїх вихідних сигналів незалежно від їх «правильності». При такому методі навчання для управління зміною стану пам'яті не потрібно ніякої зовнішньої інформації;
  • Система підкріплення з керуванням по стимулах (S — керована система) — характеризується тим, що інформаційний канал від випробовуваної системи до системи підкріплення не функціонує. Незважаючи на не функціонування каналу від виходів випробовуваної системи, відноситься до навчання з учителем, оскільки в цьому випадку система підкріплення (вчитель) змушує випробувану систему виробляти реакції згідно певного правила, хоча й не береться до уваги наявність істинних реакцій випробовуваної системи.

Дана відмінність дозволяє глибше поглянути на відмінності між різними способами навчання, оскільки грань між навчанням з учителем і навчанням без вчителя тонша. Крім цього, таке розходження дозволило показати для штучних нейронних мереж певні обмеження для S та R — керованих систем (див. Теорема збіжності перцептрону).

ЛітератураРедагувати