Теорія статистичного навчання

Див. також: Теорія обчислювального навчання

Ця стаття про статистичне навчання в машинному навчанні. Про його застосування в психології див. Статистичне навчання у засвоєнні мови.

Тео́рія статисти́чного навча́ння (англ. statistical learning theory) — це система машинного навчання, що тягнеться з галузей статистики та функціонального аналізу.^[1]^[2] Теорія статистичного навчання займається задачею знаходження передбачувальної функції на основі даних. Теорія статистичного навчання привела до успішних застосунків у таких областях як комп'ютерний зір, розпізнавання мовлення, біоінформатика та бейсбол.^[3]

Введення

Цілями навчання є передбачення та розуміння. Навчання поділяється на багато категорій, включно з керованим, некерованим, інтерактивним навчанням, та навчанням з підкріпленням. З точки зору теорії статистичного навчання найзрозумілішим є кероване навчання.^[4] Кероване навчання включає навчання з тренувального набору даних. Кожна точка тренувального набору є парою входу-виходу, де вхід відображується на вихід. Задача навчання полягає у виведенні такої функції відображення між входом та виходом, яку можна застосовувати для передбачення виходу з майбутнього входу.

В залежності від типу виходу, задачі керованого навчання є задачами або регресії, або класифікації. Якщо вихід набуває неперервного діапазону значень, це є задачею регресії. Якщо взяти за приклад закон Ома, регресію може бути виконувано з напругою як вхід та струмом як вихід. Регресія встановить, що функційним взаємозв'язком між напругою та струмом є така ${\frac {1}{R}}$ , що

I={\frac {1}{R}}V

Задачі класифікації — це такі, для яких вихід буде елементом із дискретної множини міток. Серед застосувань машинного навчання класифікація є дуже поширеною. Наприклад, у розпізнаванні облич зображення обличчя особи буде входом, а вихідною міткою буде ім'я особи. Вхід представлятиметься великим багатовимірним вектором, чиї елементи представлятимуть пікселі цього зображення.

Після навчання функції на основі тренувального набору даних цю функцію перевіряють на перевірному наборі даних: даних, яких не було в тренувальному наборі.

Формальний опис

Нехай $X$ буде векторним простором усіх можливих входів, а $Y$ — векторним простором усіх можливих виходів. Теорія статистичного навчання розглядає можливість існування якогось невідомого розподілу ймовірності над простором добутку $Z=X\times Y$ , тобто, що існує якийсь невідомий $p(z)=p({\vec {x}},y)$ . Тренувальний набір робиться з $n$ зразків із цього розподілу ймовірності, й записується як

S=\{({\vec {x}}_{1},y_{1}),\dots ,({\vec {x}}_{n},y_{n})\}=\{{\vec {z}}_{1},\dots ,{\vec {z}}_{n}\}

Кожен ${\vec {x}}_{i}$ є вхідним вектором з тренувальних даних, а $y_{i}$ є виходом, що йому відповідає.

За такого формулювання задача виведення складається з пошуку такої функції $f:X\mapsto Y$ , що $f({\vec {x}})\sim y$ . Нехай ${\mathcal {H}}$ буде простором функцій $f:X\to Y$ , що називається простором гіпотез. Простір гіпотез є простором функцій, пошук яким здійснюватиме алгоритм. Нехай $V(f({\vec {x}}),y)$ буде функціоналом втрат, метрикою різниці між передбаченим значенням $f({\vec {x}})$ та справжнім значенням $y$ . Очікуваний ризик визначається як

I[f]=\displaystyle \int _{X\times Y}V(f({\vec {x}}),y)\,p({\vec {x}},y)\,d{\vec {x}}\,dy

Цільова функція, найкраща можлива функція $f$ , яку може бути обрано, задається такою $f$ , яка задовольняє

I[f]=\inf _{h\in {\mathcal {H}}}I[h]

Оскільки розподіл імовірності $p({\vec {x}},y)$ є невідомим, для очікуваного ризику мусить застосовуватися замінна міра. Ця міра ґрунтується на тренувальному наборі, вибірці з цього невідомого розподілу ймовірності. Вона називається емпіричним ризиком

I_{S}[f]={\frac {1}{n}}\displaystyle \sum _{i=1}^{n}V(f({\vec {x}}_{i}),y_{i})

Алгоритм навчання, який обирає таку функцію $f_{S}$ , яка мінімізує емпіричний ризик, називається мінімізацією емпіричного ризику.

Функції втрат

Вибір функції втрат є визначальним чинником для функції $f_{S}$ , яку буде обрано алгоритмом навчання. Функція втрат також впливає й на темп збіжності алгоритму. Важливо, щоби функція втрат була опуклою.^[5]

В залежності від того, чи відноситься задача до задач регресії, чи класифікації, застосовуються різні функції втрат.

Регресія

Найзвичнішою функцією втрат для регресії є квадратична функція втрат (англ. square loss function, відома також як норма L2). Ця знайома функція втрат використовується у звичайній регресії найменших квадратів^[en]. Вона виглядає так:

V(f({\vec {x}}),y)=(y-f({\vec {x}}))^{2}

Іноді використовуються й втрати абсолютного значення (англ. absolute value loss, відомі також як норма L1):

V(f({\vec {x}}),y)=|y-f({\vec {x}})|

Класифікація

Докладніше: Статистична класифікація

Характеристична функція 0-1 є в певному сенсі найприроднішою функцією втрат для класифікації. Вона набуває значення 0, якщо передбачений вихід є таким самим, як і справжній, і набуває значення 1, якщо передбачений вихід відрізняється від справжнього. Для бінарної класифікації з $Y=\{-1,1\}$ це є

V(f({\vec {x}}),y)=\theta (-yf({\vec {x}}))

де $\theta$ є функцією Гевісайда.

Регуляризація

Це зображення представляє приклад перенавчання в машинному навчанні. Червоні точки представляють дані тренувального набору. Зелена лінія представляє справжній функційний взаємозв'язок, тоді як синя ліній показує навчену функцію, що стала жертвою перенавчання.

Головною проблемою, яка виникає в задачах машинного навчання, є перенавчання. Оскільки навчання є задачею передбачення, метою є не знайти функцію, яка найщільніше допасовується до (попередньо спостережуваних) даних, а знайти таку, яка найточніше передбачуватиме вихід від майбутнього входу. Мінімізація емпіричного ризику запускає цей ризик перенавчання: шукаючи функцію, яка точно відповідає даним, але не передбачує добре майбутній вихід.

Перенавчання є симптомом нестійких розв'язків: невелике збурення в даних тренувального набору спричинюватиме великі відхилення в навченій функції. Може бути показано, що якщо може бути гарантовано стійкість розв'язку, то узагальнення та послідовність також гарантовано.^[6]^[7] Регуляризація може розв'язувати проблему перенавчання й надавати задачі стійкості.

Регуляризації можна досягати обмеженням простору гіпотез ${\mathcal {H}}$ . Поширеним прикладом може слугувати обмеження ${\mathcal {H}}$ лінійними функціями: це можна розглядати як зведення задачі до стандартної задачі лінійної регресії. ${\mathcal {H}}$ також може бути обмежено многочленами степеню $p$ , показниковими функціями, або обмеженими функціями на L1. Обмеження простору гіпотез дозволяє уникати перенавчання, оскільки обмежує вигляд потенційних функцій, і відтак унеможливлює вибір функції, що давала би як завгодно близький до нуля емпіричний ризик.

Одним із прикладів регуляризації є Регуляризація Тихонова. Вона складається з мінімізування

{\frac {1}{n}}\displaystyle \sum _{i=1}^{n}V(f({\vec {x}}_{i},y_{i}))+\gamma \|f\|_{\mathcal {H}}^{2}

де $\gamma$ є зафіксованим додатним параметром, параметром регуляризації. Регуляризація Тихонова забезпечує існування, унікальність та стійкість розв'язку.^[8]

Див. також

Гільбертові простори відтворювального ядра^[en], є корисним варіантом для вибору ${\mathcal {H}}$ .
Методи близкісного градієнту для навчання^[en]

Примітки

↑ Trevor Hastie^[en], Robert Tibshirani, Jerome Friedman (2009) The Elements of Statistical Learning, Springer-Verlag ISBN 978-0-387-84857-0. (англ.)
↑ Mehryar Mohri^[en], Afshin Rostamizadeh, Ameet Talwalkar (2012) Foundations of Machine Learning, The MIT Press ISBN 9780262018258. (англ.)
↑ Gagan Sidhu, Brian Caffo. Exploiting pitcher decision-making using Reinforcement Learning. Annals of Applied Statistics (англ.)
↑ Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 1 [Архівовано 16 вересня 2012 у Wayback Machine.] (англ.)
↑ Rosasco, L., Vito, E.D., Caponnetto, A., Fiana, M., and Verri A. 2004. Neural computation Vol 16, pp 1063-1076 (англ.)
↑ Vapnik, V.N. and Chervonenkis, A.Y. 1971. On the uniform convergence of relative frequencies of events to their probabilities. Theory of Probability and its Applications Vol 16, pp 264-280. (англ.)
↑ Mukherjee, S., Niyogi, P. Poggio, T., and Rifkin, R. 2006. Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization. Advances in Computational Mathematics. Vol 25, pp 161-193. (англ.)
↑ Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 2 [Архівовано 16 серпня 2016 у Wayback Machine.] (англ.)

Джерела

Bousquet, Olivier; Boucheron, Stéphane; Lugosi, Gábor (2004). Bousquet, Olivier; von Luxburg, Ulrike; Rätsch, Gunnar (ред.). Introduction to Statistical Learning Theory (PDF). Advanced Lectures on Machine Learning. Т. 3176. Berlin, Heidelberg: Springer Berlin Heidelberg. с. 169—207. doi:10.1007/978-3-540-28650-9_8. ISBN 978-3-540-23122-6.

[1] Trevor Hastie^[en], Robert Tibshirani, Jerome Friedman (2009) The Elements of Statistical Learning, Springer-Verlag ISBN 978-0-387-84857-0. (англ.)

[2] Mehryar Mohri^[en], Afshin Rostamizadeh, Ameet Talwalkar (2012) Foundations of Machine Learning, The MIT Press ISBN 9780262018258. (англ.)

[3] Gagan Sidhu, Brian Caffo. Exploiting pitcher decision-making using Reinforcement Learning. Annals of Applied Statistics (англ.)

[4] Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 1 [Архівовано 16 вересня 2012 у Wayback Machine.] (англ.)

[5] Rosasco, L., Vito, E.D., Caponnetto, A., Fiana, M., and Verri A. 2004. Neural computation Vol 16, pp 1063-1076 (англ.)

[6] Vapnik, V.N. and Chervonenkis, A.Y. 1971. On the uniform convergence of relative frequencies of events to their probabilities. Theory of Probability and its Applications Vol 16, pp 264-280. (англ.)

[7] Mukherjee, S., Niyogi, P. Poggio, T., and Rifkin, R. 2006. Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization. Advances in Computational Mathematics. Vol 25, pp 161-193. (англ.)

[8] Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 2 [Архівовано 16 серпня 2016 у Wayback Machine.] (англ.)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]