Масштабування ознак

Масштабування ознак — метод нормалізації діапазону незалежних змінних або ознак даних. В опрацьовуванні даних він також відомий як нормалізація даних і зазвичай виконується під час попереднього опрацьовування.

Мотивація ред.

Через те, що діапазони значень сирих даних значно різняться, у деяких алгоритмах машинного навчання цільові функції не працюватимуть правильно без нормалізації^[en]. Наприклад, багато класифікаторів обчислюють евклідову відстань між двома точками. Якщо одна з ознак має великий діапазон значень, то відстань сильно залежатиме саме від цієї ознаки. Тому, діапазони всіх ознак треба нормалізувати так, аби внесок у результатну відстань кожної ознаки був приблизно пропорційним.

Інша причина застосування масштабування ознак полягає в тому, що градієнтний спуск збігається набагато швидше з використанням масштабування ознак, ніж без нього^[1].

Також важливо застосовувати масштабування ознак, якщо регуляризація використовується як частина функції втрат (таким чином, коефіцієнти штрафуються належним чином).

Примітки ред.

↑ Ioffe, Sergey; Christian Szegedy (2015). Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. arXiv:1502.03167 [cs.LG].

[1] Ioffe, Sergey; Christian Szegedy (2015). Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. arXiv:1502.03167 [cs.LG].

[1]