Стохастичний градієнтний спуск

Стохастичний градієнтний спуск (англ. stochastic gradient descent, incremental gradient descent) — ітеративний метод оптимізації градієнтного спуску за допомогою стохастичного наближення^[en]. Використовується для прискорення пошуку цільової функції шляхом використання обмеженого за розміром тренувального набору, який вибирається випадково при кожній ітерації.

Недавня стаття^[1] недвозначно приписує розробку метода Герберту Роббінсу та Саттону Монро (англ. Sutton Monro), які описали його у статті 1951 року «Метод стохастичного наближення» (англ. A Stochastic Approximation Method).^[2]

Основна ідея

Градієнтні методи — це широкий клас оптимізаційних алгоритмів, які використовують не лише в машинному навчанні. В даному випадку градієнтний підхід буде розглядатись як спосіб підбору векторів синаптичних ваг $w$ в лінійному класифікаторі. Нехай $y^{*}:X\to Y$ — цільова залежність, яка відома лише на об'єктах навчальної вибірки: $X^{n}=(x_{i},y_{i})_{i=1}^{n},\;y_{i}=y^{*}(x_{i})$ .

Знайдемо алгоритм $a(x,w)$ , що апроксимує залежність $y^{*}$ . У випадку лінійного класифікатора шуканий алгоритм має вигляд:

a(x,w)=\varphi \left(\sum _{j=1}^{n}w_{j}x^{j}-w_{0}\right)

,

де $\varphi (z)$ грає роль функції активації (в найпростішому випадку можна використовувати $\varphi (z)=\operatorname {sgn}(z)$ ).

Згідно з принципом мінімізації емпіричного ризику, для цього достатньо вирішити оптимізаційну задачу:

Q(w)={\frac {1}{n}}\sum _{i=1}^{n}L(a(x_{i},w),\,y_{i})\to \min _{w}

,

де $L(a,y)$ — задана функція втрат.

Позначимо через $Q_{i}(w)$ значення функції втрат на $i$ -му спостереженні. Тоді,

Q(w)={\frac {1}{n}}\sum _{i=1}^{n}Q_{i}(w).

Для мінімізації використаємо метод градієнтного спуску. Це покроковий алгоритм, на кожній ітерації якого вектор $w$ змінюється в напрямку найбільшого спадання функціоналу $Q$ (тобто в напрямку протилежному градієнту):

w:=w-\eta \nabla Q(w)=w-{\frac {\eta }{n}}\sum _{i=1}^{n}\nabla Q_{i}(w),

де $\eta$ — додатній параметр, який називається швидкістю навчання.

Існують такі підходи в реалізації градієнтного спуску:

Пакетний (batch), коли на кожній ітерації навчальна вибірка переглядається цілком, тільки після чого змінюється $w$ . Такий підхід потребує великих обчислювальних затрат та дуже добре надається при паралельних обчисленнях.
Стохастичний (stochastic/online), коли на кожній ітерації алгоритму з навчальної вибірки випадковим чином обирається лише один об'єкт. Таким чином вектор $w$ налаштовується кожен раз на новобраний об'єкт.

Алгоритм

Вхід:

$X^{n}$ — навчальна вибірка
$\eta$ — темп навчання
$\lambda$ — параметр згладжування функціоналу $Q$

Вихід:

Вектор ваг $w$

Тіло:

Ініціалізувати ваги $w_{j}$ , ( $j=0,\dots ,k$ , де $k$ — розмірність простору ознак);
Ініціалізувати поточну оцінку функціоналу:
$Q:=\sum _{i=1}^{n}L(a(x_{i},w),\,y_{i})$ ;
Повторювати:
1. Вибрати об'єкт $x_{i}$ із $X^{n}$ (наприклад, випадковим чином);
2. Обчислити вихідне значення алгоритму $a(x_{i},w)$ та помилку:
  $\varepsilon _{i}\,{:=}\,L(a(x_{i},w),y_{i})$ ;
3. Зробити крок градієнтного спуску:
  $w:=w-\eta L_{a}^{\prime }\left(a(x_{i},w),y_{i}\right)\varphi ^{\prime }\left(\langle w,x_{i}\rangle \right)x_{i}$ ;
4. Оцінити значення функціоналу:
  $Q:=(1-\lambda )Q+\lambda \varepsilon _{i}$ ;
Поки значення $Q$ не стабілізується та/або ваги $w$ не припинять змінюватись.

Порядок вибору об'єктів

Вище сказано, що у випадку стохастичного градієнтного спуску об'єкти слід обирати випадковим чином. Однак існують евристики, що направлені на покращення збіжності, які дещо модифікують звичайний випадковий вибір:

Перемішування (shuffling). Пропонується випадково обирати об'єкти, але поперемінно з різних класів. Ідея в тому, що об'єкти з різних класів скоріше за все менш «схожі», ніж об'єкти з одного класу, тому вектор $w$ буде кожного разу змінюватись сильніше.
Можливий варіант алгоритму, коли вибір кожного об'єкта нерівноймовірний, при чому ймовірність випадення об'єкта обернено пропорційна величині помилки на об'єкті. Слід зауважити, що за такої евристики метод стає дуже чутливим до шумів.

Способи ініціалізації ваг

Ініціалізувати вектор $w$ нулями. Цей спосіб використовується в багатьох системах, але не завжди є найкращим.
$w_{j}:=rand\left(-{\frac {1}{k}},{\frac {1}{k}}\right)$ , де $k$ — розмірність простору ознак. Цей метод більш вдалий, ніж попередній, якщо відповідним чином нормалізувати опис ознак. (див. «Недоліки та способи боротьби з ними».)
Ще один підхід полягає в тому, щоб вирішити вихідну задачу оптимізації у випадку статистично незалежних ознак, лінійної функції активації ( $\varphi$ ) та квадратичної функції втрат ( $L$ ). Тоді рішення має вигляд:

w_{j}:={\frac {\langle y,f_{j}\rangle }{\langle f_{j},f_{j}\rangle }}

.

Параметр згладжування

В алгоритмі для оцінки функціоналу $Q$ на кожній ітерації використовується його наближене значення за методом експоненціального згладжування, звідки $\lambda$ краще брати порядку ${\frac {1}{n}}$ . Якщо довжина вибірки надмірно велика, то $\lambda$ слід збільшувати.

Деякі окремі випадки алгоритму

Метод стохастичного градієнта (за відповідного вибору функцій активації та втрат) є узагальненням таких широко розповсюджених евристик підбору $w$ та алгоритмів класифікації:

Переваги методу

Метод пристосований для динамічного (online) навчання, коли навчальні об'єкти надходять потоком, та потрібно швидко оновлювати вектор $w$ .
Алгоритм здатен навчатись на надмірно великих вибірках за рахунок того, що випадкової підвибірки може вистачати для навчання.
Можливі різноманітні стратегії навчання. Якщо вибірка надмірно велика, або навчання відбувається динамічно, то є допустимим не зберігати навчальні об'єкти. Якщо вибірка маленька, то можна повторно подавати для навчання ті самі об'єкти.

Недоліки та способи боротьби з ними

Алгоритм може не збігатись або збігатись занадто повільно (див. «Збіжність алгоритму».)
Як правило, функціонал $Q$ має багато екстремумів та процес градієнтного спуску може «застрягти» на одному із локальних мінімумів. Для боротьби з цим використовують техніку струшування коефіцієнтів (англ. jog of weights). Вона полягає у тому, що при кожній стабілізації функціонала робити випадкові модифікації вектора $w$ в достатньо широкому околі поточного значення та запускати процес градієнтного спуску з нових точок.
За великої розмірності простору ознак $k$ та/або малої довжини вибірки $n$ можливе перенавчання, тобто класифікація стає нестійкою, і ймовірність помилки збільшується. При цьому сильно виростає норма вектора ваг. Для боротьби з цим недоліком використовують регуляризацію Тихонова. Він полягає в тому, щоб обмежити можливий ріст норми $w$ , додавши до $Q(w)$ штрафний доданок:

Q_{\tau }(w)=Q(w)+{\frac {\tau }{2}}||w||^{2}

.

В результаті правило обновлення ваг приймає вигляд:

w:=w(1-\eta \tau )-\eta \nabla Q(w)

.

Якщо функція активації має горизонтальні асимптоти, то процес може потрапити в стан «паралічу». За великих значень скалярного добутку $\langle w,x_{i}\rangle$ значення $\varphi ^{\prime }$ стає близьким до нуля і вектор $w$ перестає суттєво змінюватися. Тому звичною практикою є попередня нормалізація ознак:

x^{j}:={\frac {x^{j}-x_{\min }^{j}}{x_{\max }^{j}-x_{\min }^{j}}},\;j=1,\dots ,k

, де

x_{\min }^{j},\,x_{\max }^{j}

— відповідно мінімальне та максимальне відхилення j-ї ознаки. Якщо при цьому

w_{j}\in \left[-{\frac {1}{k}},{\frac {1}{k}}\right]

, то

\langle w,x\rangle \in [-1,1].

Відзначимо, що регуляризація також є способом попередження «паралічу».

Збіжність алгоритму

Як вже було сказано, збіжність в загальному випадку не гарантується, але встановлено, що у випадку опуклої функції $Q(w)$ та при виконанні таких трьох умов:

$\eta _{t}{\xrightarrow[{t\to \infty }]{}}0\,$ ;
$\sum _{t=1}^{\infty }\eta _{t}\,=\,\infty$ ;
$\sum _{t=1}^{\infty }\eta _{t}^{2}\,<\,\infty$

процес градієнтного спуску буде збіжним. Наприклад, можна закласти: $\eta _{t}\,=\,{\frac {\eta _{0}}{t}}$ . Проте, як свідчить практика, це не дуже вдалий спосіб.

Примітки

↑ Mei, Song (2018). A mean field view of the landscape of two-layer neural networks. Proceedings of the National Academy of Sciences. doi:10.1073/pnas.1806579115.
↑ Herbert Robbins, Sutton Monro (September 1951). A stochastic approximation method. The Annals of Mathematical Statistics. 22 (3): 400—407. JSTOR 2236626.

Література

Машинное обучение (курс лекций, К. В. Воронцов) (рос.)
Stochastic Learning (англ.)
Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). 5.9 Stochastic gradient descent. Deep Learning. MIT Press. с. 149—150. ISBN 978-0262035613. (англ.)
Bottou, Léon (2004), Stochastic Learning, Advanced Lectures on Machine Learning, LNAI, т. 3176, Springer, с. 146—168, ISBN 978-3-540-23122-6 (англ.)
Buduma, Nikhil; Locascio, Nicholas (2017), Beyond Gradient Descent, Fundamentals of Deep Learning : Designing Next-Generation Machine Intelligence Algorithms, O'Reilly (англ.)
LeCun, Yann A.; Bottou, Léon; Orr, Genevieve B.; Müller, Klaus-Robert (2012), Efficient BackProp, Neural Networks: Tricks of the Trade, Springer, с. 9—48, ISBN 978-3-642-35288-1 (англ.)
Spall, James C. (2003), Introduction to Stochastic Search and Optimization, Wiley, ISBN 978-0-471-33052-3 (англ.)
Використання стохастичного градієнту в C++, Boost, Ublas для лінійної регресії (англ.)
Алгоритми машинного навчання (англ.)
Goh (4 квітня 2017). Why Momentum Really Works. Distill.Gradient Descent, How Neural Networks Learn. 3Blue1Brown. 16 жовтня 2017 — через YouTube. Інтерактивна стаття з поясненням моментів. (англ.)

Це незавершена стаття про алгоритми.
Ви можете допомогти проєкту, виправивши або дописавши її.

Це незавершена стаття зі штучного інтелекту.
Ви можете допомогти проєкту, виправивши або дописавши її.

[1] Mei, Song (2018). A mean field view of the landscape of two-layer neural networks. Proceedings of the National Academy of Sciences. doi:10.1073/pnas.1806579115.

[2] Herbert Robbins, Sutton Monro (September 1951). A stochastic approximation method. The Annals of Mathematical Statistics. 22 (3): 400—407. JSTOR 2236626.

[1]

[2]