Функції втрат для класифікації

У машинному навчанні та математичній оптимізації функції втрат для класифікації є обчислювальними функціями втрат, що представляють ціну, сплачену за неточність прогнозів у задачах класифікації (потрібно ідентифікувати до якої категорії належить конкретне спостереження).[1]

Баєсові функції втрат: фунція втрат 0-1 (сірий), фунція втрат Севіджа (зелений), логістична функція втрат (помаранчевий), експоненціальна функція втрат (фіолетовий), тангенсна функція втрат (коричневий), квадратична функція втрат (синій).

Дано як простір усіх можливих вхідних даних (зазвичай ), і як набір міток (можливих вихідних даних), типовою метою алгоритмів класифікації є пошук функції , яка найкраще прогнозує значення мітки для заданого входу .[2] Однак, через неповну інформацію, наявність шуму під час вимірювання, або ймовірнісні складові процесу, який досліджується, можливо для одного і того ж самого мати, як передбачення, різні .[3] В результаті, метою навчання є мінімізація очікуваних втрат (також відомих як ризик), визначених як

де  — задана функція втрат і  — функція густини ймовірності процесу, яка генерує дані. Еквівалентно цю функцію можна записати як

У рамках класифікації часто використовують функції втрат, трактовані виключно в термінах добутку справжньої мітки на передбачену мітку . Отже, їх можна визначити як функцію лише однієї змінної , таким чином з правильно обраною функцією . Вони називаються функціями втрат на основі маржі (margin-based loss functions). Вибір функції втрат на основі маржі прирівнюється до вибору . Обрання функції втрат у цій структурі впливає на оптимальну , яка мінімізує очікуваний ризик.

У разі бінарної класифікації можна спростити розрахунок очікуваного ризику за допомогою зазначеного вище інтегралу. Зокрема,

Друга рівність випливає з описаних вище властивостей. Третя рівність випливає з того факту, що 1 і −1 є єдино можливими значеннями для , а четверте — за рахунок Вираз у дужках відомий як очікуваний ризик.

Для мінімізатора можна вирішити проблему, взявши функціональну похідну від останньої рівності відносно , при цьому встановити похідну рівною 0. Це призведе до рівняння

що також є еквівалентним встановленню похідної від умовного ризику рівною нулю.

Враховуючи бінарну природу класифікації, природним відбором для функції втрат (припускаючи однакову вартість хибно позитивного та хибно негативного) буде функція втрат 0-1 (характеристична функція 0–1). Вона приймає значення 0, якщо прогнозована класифікація дорівнює класифікації істинного класу або 1, якщо прогнозована класифікація не відповідає істинному класу. Цей вибір моделюється за формулою

де позначає ступінчасту функцію Гевісайда. Однак, ця функція втрат є неопуклою і негладкою, і пошук оптимального рішення є NP-складною комбінаторною задачею оптимізації.[4] Як результат, краще розглянути сурогатні функції втрат, які підходять для часто вживаних алгоритмів навчання, оскільки вони мають і опуклі, і гладкі властивості. На додаток до їх обчислювальної керованості, можна показати, що вирішення проблеми навчання з використанням цих сурогатних функцій втрат дозволяють відновити фактичне вирішення вихідної проблеми класифікації.[5] Деякі з цих сурогатів описані нижче.

На практиці, розподіл ймовірностей є невідомим. Отже, використовуючи навчальний набір з незалежних та однаково розподілених точок вибірки

взятих з простору елементарних подій, ми прагнемо мінімізувати емпіричний ризик

як непрямий показник очікуваного ризику.[3] (Див. статистичну теорію навчання для більш детального опису.)

Узгодженість Баєса ред.

Використовуючи теорему Баєса, можна показати, що оптимальне  , тобто те, що мінімізує очікуваний ризик пов'язаний із 0-1 втратою, реалізує правило оптимального рішення Байєса для проблеми бінарної класифікації та має форму

  .

Кажуть, що функція втрат є каліброваною за класифікацією або узгодженою за Баєсом, якщо її оптимальне   є таким, що   і, таким чином, є оптимальним за правилом Баєса. Узгоджена функція втрат Баєса дозволяє нам знайти функцію оптимального рішення Баєса   шляхом безпосередньої мінімізації очікуваного ризику і без необхідності явного моделювання функцій густини ймовірності.

Для опуклої функції втрат маржі  , можна показати, що   є узгодженою за Баєсом тоді і тільки тоді, коли вона диференційована в 0 і  .[6][1] Проте цей результат не виключає існування неопуклих та узгоджених за Байєсом функцій втрат. Більш загальний результат стверджує, що узгоджені функції втрат Баєса можна створити за допомогою наступної формулювання [7]

  ,

де   — будь-яка інвертована функція така, що   і   — будь-яка диференційована строго угнута функція така, що  . Таблиця-I демонструє створені узгоджені функції втрат Баєса для деяких прикладів   і  . Зверніть увагу, що функції втрат Savage і Tangent не є опуклими. Виявилося, що такі неопуклі функції втрат корисні для боротьби з промахами в класифікації.[7][8] Для всіх функцій втрат, породжених з (2), апостеріорну ймовірність   можна знайти за допомогою функції зворотного звʼязку як  . Функції втрат, де апостеріорна ймовірність може бути відновлена за допомогою інветнованого зв'язку, називаються власними функціями втрат.

Таблиця-I
Назва функції втрат        
Експоненціальна        
Логістична        
Квадратна        
Savage        
Tangent        

Єдиний мінімізатор очікуваного ризику,  , пов'язаний з вищезгаданими функціями втрат, можна безпосередньо знайти з рівняння (1) і показати, що він дорівнює відповідній  . Це справедливо навіть для неопуклих функцій втрат і означає, що алгоритми на основі градієнтного спуску, такі як бустер градієнта[en], можна використовувати для побудови мінімізатора.

Власні функції втрат, маржа втрат та регуляризація ред.

 
(Червоний) стандартна логістична втрата ( ) і (Синій) підвищена маржа у логістичній втраті ( ).

Для власних функцій втрат маржу можна визначити як   і показати, що вона безпосередньо пов'язана з властивостями регуляризації класифікатора.[9] Зокрема, функція втрат з більшою маржою збільшує регуляризацію і дає кращі оцінки апостеріорної ймовірності. Наприклад, маржа втрат може бути збільшена для логістичних функцій втрат шляхом введення   параметра і визначення функції як  , де менший   збільшує маржу втрат. Показано, що це прямо еквівалентно зменшенню швидкості навчання при градієнтному бустері[en]   де зменшення параметру   покращує регуляризацію посиленого класифікатора. Теорія чітко дає зрозуміти, що використання швидкості навчання   зумовлює появу корректної формули для отримання апостеріорної ймовірності  .

На закінчення, обравши функцію втрат з більшою маржою (меншим  ), ми збільшуємо регуляризацію та покращуємо наші оцінки апостеріорної ймовірності, що, у свою чергу, покращує криву ROC кінцевого класифікатора.

Квадратична функція втрат ред.

Хоча квадратична функція втрат частіше використовується в регресії, її можна переписати як функцію   і використовувати для класифікації. Квадратичну функцію можна створити за допомогою (2) і Таблиці-I наступним чином

 

Функція квадратичних втрат є як опуклою, так і гладкою. Однак, квадратична функція втрат має тенденцію надмірно штрафувати промахи, що призводить до повільніших показників збіжності (що стосується складності вибірки) порівняно з функціями логістичних або шарнірних втрат.[1] Крім того, функції, які дають високі значення   для деяких   будуть погано працювати з функцією квадратичних втрат, оскільки високі значення   будуть суворо каратися, незалежно від того, чи співпадають ознаки у   і  .

Перевага функції квадратичних втрат полягає в тому, що її структура піддається легкій перехресній перевірці параметрів регуляризації. Спеціально для регуляризації Тихонова можна вирішити задачу для параметра регуляризації, використовуючи перехресну перевірку без виключення, за той самий час, що й для вирішення однієї проблеми.[10]

Мінімізатор   для квадратичної функції втрат можна знайти безпосередньо з рівняння (1) як

 

Логістична функція втрат ред.

Логістична функція втрат може бути отримана за допомогою (2) та таблиці-I наступним чином

 

Логістична функція втрат є опуклою і зростає лінійно для від'ємних значень, що робить її менш чутливою до викидів. Логістичні втрати використовуються в LogitBoost алгоритмі[en].

Мінімізатор   для логістичної функції втрат можна знайти безпосередньо з рівняння (1) як

 

Ця функція не визначена, коли   або   (що прямує до ∞ і −∞ відповідно), але передбачає плавну криву, яка зростає, коли   росте і дорівнює 0, коли  [3]

Легко перевірити, що логістична функція втрат та функція втрат від двійково перехресної ентропії (Log втрата) насправді однакові (до множення на константу  ). Функція втрат від перехресної ентропії тісно пов'язана з розходженням Кульбака–Лейблера між емпіричним і прогнозованим розподілом. Перехресні втрати ентропії є широко розповсюдженими у сучасних глибоких нейронних мережах.

Експоненціальна функція втрат ред.

Експоненціальну функцію втрат можна згенерувати за допомогою (2) та таблиці-I наступним чином

 

Експоненціальна функція втрат є опуклою і зростає експоненціально для негативних значень, що робить її більш чутливою до викидів. Експоненціальна функція втрат використовується в AdaBoost алгоритмі[en].

Мінімізатор   для експоненціальної функції втрат можна безпосередньо знайти з рівняння (1) як

 

Функція втрат Savage ред.

Функцію втрат Savage[7] можна отримати за допомогою (2) та таблиці-I наступним чином

 

Функція втрат Savage є квазіопуклою і обмеженою для великих від'ємних значень, що робить її менш чутливою до викидів. Функція втрат Savage була використана для градієнтного бустера[en] та в алгоритмі SavageBoost.

Мінімізатор   для функції втрат Savage можна безпосередньо знайти з рівняння (1) як

 

Функція втрат Tangent ред.

Тангенсну функцію втрат[11] можна отримати за допомогою (2) та таблиці-I наступним чином

 

Тангенсна функція втрат є квазіопуклою і обмеженою для великих від'ємних значень, що робить її менш чутливою до викидів. Цікаво, що тангенсна функція втрат також накладає обмежене покарання на точки, які були класифіковані як «занадто правильні». Це може допомогти у запобіганні перенавчанню набору даних. Тангенсна функція втрат використовується для градієнтного бустера[en], алгоритму TangentBoost та Alternating Decision Forests[12].

Мінімізатор   для тангенсної функції втрат можна безпосередньо знайти з рівняння (1) як

 

Завісна функція втрат ред.

Докладніше: Завісні втрати

Завісна функція втрат визначається за допомогою  , де  додатня частина[en] функції.

 

Завісна функція втрат забезпечує відносно жорстку, опуклу верхню межу для характеристичної функції 0–1. Зокрема, завісна функція втрат дорівнює характеристичній функції 0–1, коли   і  . Крім того, емпірична мінімізація ризику цієї втрати еквівалентна класичному формулюванню для методу опорного вектора (SVM). Правильно класифіковані точки, що лежать за межами мержі опорних векторів, не штрафуються, тоді як точки в межах границь або на неправильній стороні гіперплощини штрафуються лінійно порівняно з їх відстанню до правильної межі.[4]

Хоча завісна функція втрат є як опуклою, так і безперервною, вона не є гладкою (не диференційованою) при  . Отже, вона не може використовуватися з методами градієнтного спуску або методами стохастичного градієнтного спуску, які покладаються на диференційованість по всій області. Проте завісна функція втрат має субградієнт на  , що дозволяє використовувати субградієнтні методи спуску.[4] SVM, які використовують завісну функцію втрат, також можна вирішити за допомогою квадратичного програмування .

Мінімізатор   для завісної функції втрат визначається як

 

коли  , що відповідає характеристичній функції 0–1. Цей висновок робить завісну функція втрат досить привабливою, оскільки можна встановити межі як різницю між очікуваним ризиком та знаком завісної функції втрат.[1] Завісну функція втрат не можна отримати з (2), оскільки   не є оберненою.

Узагальнена плавна завісна функція втрат ред.

Узагальнена плавна завісна функція втрат з параметром   визначається як

 

де

 

Вона монотонно зростає і досягає 0, коли  .

Див. також ред.

Примітки ред.

  1. а б в г Rosasco, L.; De Vito, E. D.; Caponnetto, A.; Piana, M.; Verri, A. (2004). Are Loss Functions All the Same? (PDF). Neural Computation. 16 (5): 1063—1076. doi:10.1162/089976604773135104. PMID 15070510.
  2. Shen, Yi (2005), Loss Functions For Binary Classification and Class Probability Estimation (PDF), University of Pennsylvania, процитовано 6 грудня 2014
  3. а б в Rosasco, Lorenzo; Poggio, Tomaso (2014), A Regularization Tour of Machine Learning, MIT-9.520 Lectures Notes, т. Manuscript
  4. а б в Piyush, Rai (13 вересня 2011), Support Vector Machines (Contd.), Classification Loss Functions and Regularizers (PDF), Utah CS5350/6350: Machine Learning, процитовано 4 травня 2021
  5. Ramanan, Deva (27 лютого 2008), Lecture 14 (PDF), UCI ICS273A: Machine Learning, процитовано 6 грудня 2014
  6. Bartlett, Peter L.; Jordan, Michael I.; Mcauliffe, Jon D. (2006). Convexity, Classification, and Risk Bounds. Journal of the American Statistical Association. 101 (473): 138—156. doi:10.1198/016214505000000907. ISSN 0162-1459. JSTOR 30047445.
  7. а б в Masnadi-Shirazi, Hamed; Vasconcelos, Nuno (2008). On the Design of Loss Functions for Classification: Theory, Robustness to Outliers, and SavageBoost (PDF). Proceedings of the 21st International Conference on Neural Information Processing Systems. NIPS'08. USA: Curran Associates Inc.: 1049—1056. ISBN 9781605609492.
  8. Leistner, C.; Saffari, A.; Roth, P. M.; Bischof, H. (September 2009). On robustness of on-line boosting - a competitive study. 2009 IEEE 12th International Conference on Computer Vision Workshops, ICCV Workshops: 1362—1369. doi:10.1109/ICCVW.2009.5457451. ISBN 978-1-4244-4442-7.
  9. Vasconcelos, Nuno; Masnadi-Shirazi, Hamed (2015). A View of Margin Losses as Regularizers of Probability Estimates. Journal of Machine Learning Research. 16 (85): 2751—2795. ISSN 1533-7928.
  10. Rifkin, Ryan M.; Lippert, Ross A. (1 травня 2007), Notes on Regularized Least Squares (PDF), MIT Computer Science and Artificial Intelligence Laboratory
  11. Masnadi-Shirazi, H.; Mahadevan, V.; Vasconcelos, N. (June 2010). On the design of robust classifiers for computer vision. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition: 779—786. doi:10.1109/CVPR.2010.5540136. ISBN 978-1-4244-6984-0.
  12. Schulter, S.; Wohlhart, P.; Leistner, C.; Saffari, A.; Roth, P. M.; Bischof, H. (June 2013). Alternating Decision Forests. 2013 IEEE Conference on Computer Vision and Pattern Recognition: 508—515. doi:10.1109/CVPR.2013.72. ISBN 978-0-7695-4989-7.