Перехресне затверджування

Перехре́сне затве́рджування (англ. cross-validation),^[2]^[3]^[4] іноді зване ротаці́йним оці́нюванням (англ. rotation estimation)^[5]^[6]^[7] або позави́бірковим випро́буванням (англ. out-of-sample testing), — це будь-яка з подібних методик затверджування моделі для оцінювання того, наскільки результати статистичного аналізу узагальнюватимуться на незалежний набір даних. Перехресне затверджування включає методи перевибирання^[en] й розділення вибірки, які на різних ітераціях використовують різні частини даних для випробування й тренування моделі. Його часто використовують в постановках, де метою є передбачування, й потрібно оцінити те, наскільки точно передбачувальна модель працюватиме на практиці. Також його можливо використовувати для оцінювання якості допасованої моделі й стабільності її параметрів.

В задачі передбачування зазвичай моделі дають набір відомих даних, на яких виконують тренування (тренувальний набір даних), та набір невідомих даних (або вперше бачених даних), на яких модель випробовують (званий затверджувальним або випробувальним набором даних).^[8]^[9] Метою перехресного затверджування є випробувати здатність моделі передбачувати нові дані, які не використовували при її визначенні, щоби просигналізувати про такі проблеми як перенавчання та ви́біркове упередження,^[10] і щоби дати уявлення про те, як ця модель узагальнюватиметься на незалежний набір даних (тобто, невідомий набір даних, наприклад, з реальної задачі).

Один раунд перехресного затверджування містить розбивання вибірки даних на взаємодоповнювальні піднабори, виконання аналізу на одному з піднаборів (званому тренувальним набором) та затверджування результатів на іншому піднаборі (званому затверджувальним або випробувальним набором). З метою зниження мінливості, в більшості методів виконують декілька раундів перехресного затверджування з використанням різних розбиттів, і, щоби дати оцінку передбачувальної продуктивності моделі, результати затверджування поєднують (наприклад, усереднюють) над раундами.

Коротко, перехресне затверджування поєднує (усереднює) міри допасованості в передбачуванні, щоби вивести точнішу оцінку передбачувальної продуктивності моделі.^[11]

Обґрунтування

Розгляньмо модель з одним чи більше невідомими параметрами, та набір даних, до якого цю модель можливо допасувати (тренувальний набір даних). Процес допасовування оптимізує ці параметри моделі, щоби зробити модель якнайкраще допасованою до цих тренувальних даних. Якщо незалежну вибірку затверджувальних даних взяти із тієї ж сукупності, що й тренувальні дані, то, як правило, виявиться, що ця модель не допасовується до затверджувальних даних так же добре, як вона допасовується до даних тренувальних. Розмір цієї різниці може бути великим, особливо коли розмір тренувального набору даних є малим, або коли число параметрів моделі є великим. Перехресне затверджування є одним зі способів оцінити розмір цього ефекту.

Приклад: лінійна регресія

В лінійній регресії існують дійсні значення відгуку ${\textstyle y_{1},\ldots ,y_{n}}$ , та n p-вимірних векторних коваріат x₁, …, x_n. Компоненти вектора x_i позначують через x_i1, …, x_ip. Якщо використовують найменші квадрати, щоби допасувати функцію в вигляді гіперплощини ŷ = a + β^Tx до даних (x_i, y_i)_{1 ≤ i ≤ n}, то допасованість можливо оцінювати, застосовуючи середньоквадратичну похибку (СКП, англ. mean squared error, MSE). СКП для заданих оцінюваних значень параметрів a та β на тренувальному наборі (x_i, y_i)_{1 ≤ i ≤ n} визначено як:

{\begin{aligned}{\text{MSE}}&={\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-{\hat {y}}_{i})^{2}={\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-a-{\boldsymbol {\beta }}^{T}\mathbf {x} _{i})^{2}\\&={\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-a-\beta _{1}x_{i1}-\dots -\beta _{p}x_{ip})^{2}\end{aligned}}

Якщо модель вказано правильно, то за м'яких припущень може бути показано, що математичне сподівання СКП для тренувального набору становить (n − p − 1)/(n + p + 1) < 1 на математичне сподівання СКП для затверджувального набору^[12]^{[відсутнє в джерелі]} (математичне сподівання береться над розподілом тренувальних наборів). Таким чином, допасована модель й обчислена СКП на тренувальному наборі даватимуть в результаті оптимістично упереджену оцінку того, наскільки добре ця модель допасовуватиметься на незалежному наборі даних. Цю упереджену оцінку називають внутрішньовибірковою (англ. in-sample) оцінкою допасованості, тоді як оцінку перехресного затверджування називають позавибірковою (англ. out-of-sample) оцінкою.

Оскільки в лінійній регресії можливо безпосередньо обчислювати коефіцієнт (n − p − 1)/(n + p + 1), на який тренувальна СКП недооцінює затверджувальну СКП за припущення, що модель вказано правильно, то перехресне затверджування можливо застосовувати, щоби перевіряти, чи не було модель перенавчено, в разі чого СКП у затверджувальному наборі значно перевищуватиме її очікуване значення. (Перехресне затверджування в контексті лінійної регресії також корисне тим, що його можливо використовувати, щоби обирати оптимально регуляризовану функцію витрат.)

Загальний випадок

В більшості інших регресійних процедур (наприклад, у логістичній регресії) простої формули для обчислення очікуваної позавибіркової допасованості не існує. Перехресне затверджування, відтак, є загально застосовним способом передбачувати продуктивність моделі на недоступних даних із застосуванням чисельних обчислень замість теоретичного аналізу.

Типи

Можливо вирізнити два типи перехресного затверджування: вичерпне (англ. exhaustive) та невичерпне (англ. non-exhaustive).

Вичерпне перехресне затверджування

Вичерпні методи перехресного затверджування — це такі методи перехресного затверджування, які навчаються та випробовуються на всіх можливих способах поділу первинної вибірки на тренувальний та затверджувальний набори.

Перехресне затверджування з виключенням по p

Перехресне затверджування з виключенням по p (ПЗ ВПp, англ. leave-p-out cross-validation, LpO CV) передбачає використання p спостережень як затверджувального набору, й решти спостережень як набору тренувального. Це повторюють всіма способами розрізування первинної вибірки на затверджувальний набір із p спостережень, та тренувальний набір.^[13]

Перехресне затверджування ВПp вимагає тренування та затверджування моделі $C_{p}^{n}$ разів, де n — число спостережень у первинній вибірці, й де $C_{p}^{n}$ — біноміальний коефіцієнт. Для p > 1 й для навіть помірно великого n ПЗ ВПp може стати обчислювально нездійсненним. Наприклад, за n = 100 та p = 30, $C_{30}^{100}\approx 3\times 10^{25}$ .

Варіант перехресного затверджування ВПp із p = 2, відомий як перехресне затверджування з виключенням парами, було рекомендовано як майже неупереджений метод оцінювання площі під кривою РХП бінарних класифікаторів.^[14]

Перехресне затверджування з виключенням по одному

Ілюстрація перехресного затверджування з виключенням по одному (ПЗВПО), коли n = 8 спостережень. Загалом буде натреновано та випробувано 8 моделей.

Перехресне затверджування з виключенням по одному (ПЗВПО, англ. leave-one-out cross-validation, LOOCV) — це окремий випадок перехресного затверджування з виключенням по p із p = 1. Цей процес виглядає подібним до складаного ножа, проте при перехресному затверджуванні обчислюють статистику на виключених зразках, тоді як при складаноножуванні обчислюють статистику лише для залишених зразків.

Перехресне затверджування ВПО вимагає меншого обчислювального часу, ніж ВПp, оскільки має лише $C_{1}^{n}=n$ проходів замість $C_{p}^{n}$ . Проте $n$ проходів все одно можуть вимагати вельми великого обчислювального часу, в разі чого доречнішими можуть бути інші підходи, такі як k-кратне перехресне затверджування.^[15]

Псевдокодовий алгоритм:

Вхід:

x, {вектор довжини N зі значеннями x точок входу}

y, {вектор довжини N зі значеннями y очікуваного результату}

interpolate(x_in, y_in, x_out), { повертає оцінку для точки x_out після того, як модель було натреновано на парах x_in—y_in}

Вихід:

err, {оцінка похибки передбачування}

Кроки:

 err ← 0
 for i ← 1, ..., N do
   // визначити піднабори перехресного затверджування
   x_in ← (x[1], ..., x[i − 1], x[i + 1], ..., x[N])
   y_in ← (y[1], ..., y[i − 1], y[i + 1], ..., y[N])
   x_out ← x[i]
   y_out ← interpolate(x_in, y_in, x_out)
   err ← err + (y[i] − y_out)^2
 end for
 err ← err/N

Невичерпне перехресне затверджування

Невичерпні методи перехресного затверджування не обчислюють всі способи поділу первинної вибірки. Ці методи є наближенням перехресного затверджування з виключенням по p.

k-кратне перехресне затверджування

Ілюстрація k-кратного перехресного затверджування, коли n = 12 спостережень, а k = 3. Після перетасовування даних, загалом буде натреновано й випробувано 3 моделі.

В k-кратнім перехреснім затверджуванні (англ. k-fold cross-validation) первинну вибірку випадково розбивають на k підвибірок однакового розміру, часто званих «складниками»^[16] (англ. "folds"). З цих k підвибірок одну підвибірку притримують як затверджувальні дані для випробування моделі, а решту k − 1 вибірок використовують як тренувальні дані. Потім процес перехресного затверджування повторюють k разів, використовуючи кожну з k підвибірок як затверджувальні дані рівно один раз. Відтак ці k результатів можливо усереднити, щоб отримати єдину оцінку. Перевагою цього методу перед повторюваним випадковим взяттям підвибірок (див. нижче) є те, що як для тренування, так і для затверджування використовують всі спостереження, й кожне спостереження використовують для затверджування рівно один раз. Зазвичай використовують 10-кратне затверджування,^[17] але загалом k залишається вільним параметром.

Наприклад, встановлення k = 2 призводить до 2-кратного перехресного затверджування. У 2-кратнім перехреснім затверджуванні ми випадково розкида́ємо набір даних на два набори d₀ та d₁ таким чином, що обидва мають однакові розміри (це зазвичай втілюють через перетасовування масиву даних та поділ його навпіл). Потім ми тренуємо на d₀ й затверджуємо на d₁, після чого тренуємо на d₁ й затверджуємо на d₀.

Коли k = n (числу спостережень), k-кратне перехресне затверджування рівнозначне перехресному затверджуванню з виключенням по одному.^[18]

В стратифікованім (англ. stratified) k-кратнім перехреснім затверджуванні частини обирають таким чином, щоби середнє значення відгуку було приблизно рівним в усіх частинах. У випадку бінарної класифікації це означає, що кожна частина містить приблизно однакову пропорцію двох типів міток класу.

У повторюванім (англ. repeated) перехреснім затверджуванні дані випадково ділять на k частин декілька разів. Продуктивність моделі відтак можливо усереднити над декількома проходами, але на практиці це нечасто є бажаним.^[19]

Коли розглядають багато різних статистичних моделей або моделей машинного навчання, жадібне (англ. greedy) k-кратне перехресне затверджування можуть використовувати для швидкого встановлювання найперспективніших моделей—кандидаток.^[20]

Метод притримування

В методі притримування (англ. holdout method) ми випадково призначуємо точки даних двом наборами d₀ та d₁, зазвичай званим тренувальним та випробувальним наборами відповідно. Розмір кожного з наборів довільний, хоча зазвичай випробувальний набір менший за тренувальний. Потім ми тренуємо (будуємо модель) на d₀, та випробуємо (оцінюємо її продуктивність) на d₁.

В типовім перехреснім затверджуванні усереднюють результати декількох пробігань моделювання—випробування. На противагу цьому, метод притримування, наодшибі, містить лише одне пробігання. Його слід застосовувати обережно, оскільки без такого усереднювання декількох пробігань можна досягти дуже оманливих результатів. Показник передбачувальної точності (F^*) матиме схильність бути нестійким, оскільки його не буде згладжено декількома ітераціями (див. нижче). Аналогічно, схильність бути нестійкими матимуть показники конкретної ролі, яку відіграю́ть ті чи інші передбачувальні змінні (наприклад, значення регресійних коефіцієнтів).

І хоча метод притримування може бути охарактеризовано як «найпростіший тип перехресного затверджування»,^[21] багато джерел натомість класифікують притримування як один з типів простого затверджування, а не як просту або вироджену форму затверджування перехресного.^[6]^[22]

Повторюване випадкове підвибіркове затверджування

Цей метод (англ. repeated random sub-sampling validation), відомий також як перехресне затверджування Монте-Карло,^[23] створює декілька випадкових поділів набору даних на тренувальні та затверджувальні дані.^[24] Для кожного такого поділу модель допасовують до тренувальних даних, й оцінюють її передбачувальну точність, застосовуючи затверджувальні дані. Результати відтак усереднюють над цими поділами. Перевагою цього методу (перед k-кратним перехресним затверджуванням) є те, що пропорція тренувального/затверджувального поділу не залежить від числа ітерацій (тобто, числа розбиттів). Недоліком цього методу є те, що деякі спостереження може ніколи не бути обрано до затверджувальної підвибірки, тоді як інші може бути обрано понад один раз. Іншими словами, затверджувальні піднабори можуть перекриватися. Цей метод також зазнає́ мінливості Монте-Карло, що означає, що результати варіюватимуться, якщо аналіз повторюватимуть з відмінними випадковими поділами.

З наближенням числа випадкових поділів до нескінченності результат повторюваного випадкового підвибіркового затверджування має схильність прямувати до результату перехресного затверджування з виключенням по p.

У стратифікованім варіанті цього підходу випадкові вибірки породжують таким чином, щоби середнє значення відгуку (тобто, залежної змінної в регресії) було рівним у тренувальному й випробувальному наборах. Це особливо корисно, якщо відгуки дихотомні з незбалансованим представленням двох значень відгуку в даних.

Одним з методів, що застосовують повторювану випадкову підвибірку, є RANSAC.^[25]

Вкладене перехресне затверджування

Коли перехресне затверджування використовують одночасно для обирання найкращого набору гіперпараметрів та для оцінювання похибки (й здатності до узагальнювання), необхідне вкладене перехресне затверджування (англ. nested cross-validation). Варіантів існує багато. Можливо виділити щонайменше два:

k×l-кратне перехресне затверджування

Це є істинно вкладеним варіантом, що містить зовнішній цикл з k наборів, та внутрішній цикл з l наборів. Загальний набір даних ділять на k наборів. Один по одному, обирають набір як (зовнішній) випробувальний набір, а решту k - 1 наборів поєднують у відповідний зовнішній тренувальний набір. Це повторюють для кожного з k наборів. Кожен зовнішній тренувальний набір ділять далі на l наборів. Один по одному, обирають набір як внутрішній випробувальний (затверджувальний) набір, а решту l - 1 наборів поєднують у відповідний внутрішній тренувальний набір. Це повторюють для кожного з l наборів. Внутрішні тренувальні набори використовують для допасовування параметрів моделі, тоді як зовнішній випробувальний набір використовують як затверджувальний набір, щоби забезпечити неупереджену оцінку допасованості моделі. Зазвичай, це повторюють для багатьох різних гіперпараметрів (або навіть різних типів моделей), і затверджувальний набір використовують для визначення найкращого набору гіперпараметрів (та типу моделі) для цього внутрішнього тренувального набору. Після цього нову модель допасовують до всього зовнішнього тренувального набору, використовуючи найкращий набір гіперпараметрів з внутрішнього перехресного затверджування. Продуктивність цієї моделі потім оцінюють, використовуючи зовнішній випробувальний набір.

k-кратне перехресне затверджування із затверджувальним та випробувальним наборами

Воно є одним з типів k×l-кратного перехресного затверджування, в якому l = k - 1. Одне k-кратне перехресне затверджування використовують як із затверджувальним, так і з випробувальним набором. Загальний набір даних ділять на k наборів. Один по одному, набір обирають як випробувальний. Потім, один по одному, один з наборів, що лишилися, використовують як затверджувальний набір, а решту k - 2 наборів використовують як тренувальні, поки не буде оцінено всі можливі комбінації. Подібно до k×l-кратного перехресного затверджування, тренувальний набір використовують для допасовування моделі, а затверджувальний набір використовують для оцінки моделі для кожного з наборів гіперпараметрів. Нарешті, для обраного набору параметрів використовують випробувальний набір, щоби оцінити модель із найкращим набором параметрів. Тут можливі два варіанти: або оцінювання моделі, що було натреновано на тренувальному наборі, або оцінювання нової моделі, що було допасовано до поєднання тренувального й затверджувального наборів.

Міри допасованості

Мета перехресного затверджування — оцінити очікуваний рівень допасованості моделі до набору даних, незалежних від тих, які було використано для тренування моделі. Його можливо використовувати для оцінювання кількісної міри допасованості, властивої цим даним та моделі. Наприклад, для задач бінарної класифікації кожен випадок у затверджувальному наборі є передбаченим або правильно, або неправильно. В такій ситуації для підбивання підсумку допасованості можливо використовувати рівень похибки неправильної класифікації, хоча також можливо використовувати й інші міри, такі як прогностична значущість позитивного результату. Коли передбачуване значення є розподіленим неперервно, для підсумовування похибок можливо використовувати середньоквадратичну похибку, кореневе середньоквадратичне відхилення^[en], чи медіану абсолютних відхилень.

Використання апріорної інформації

Коли користувачі застосовують перехресне затверджування для обирання доброї конфігурації $\lambda$ , вони можуть хотіти збалансовувати вибір перехресного затверджування з їхньою власною оцінкою конфігурації. Таким чином, вони можуть намагатися протистояти мінливості перехресного затверджування, коли розмір вибірки є малим, і включати доречну інформацію з попередніх досліджень. Наприклад, у вправі поєднування прогнозів перехресне затверджування можливо застосовувати для оцінювання ваг, призначуваних кожному з прогнозів. Оскільки простий рівнозважений прогноз важко перемогти, на відхилення від рівних ваг може бути запроваджено штраф.^[26] Або, якщо перехресне затверджування застосовують для призначування індивідуальних ваг спостереженням, то можливо штрафувати відхилення від рівних ваг, щоб уникати марнування потенційно доречної інформації.^[26] Гурнвеґ (2018) показує, як можливо визначити параметр налаштування $\gamma$ таким чином, щоби користувач міг інтуїтивно балансувати між точністю перехресного затверджування та просторою дотримування еталонного параметру $\lambda _{R}$ , визначеного користувачем.

Якщо $\lambda _{i}$ позначує $i$ -ту конфігурацію-кандидата, яку могло би бути обрано, то функцію втрат для мінімізування може бути визначено як

L_{\lambda _{i}}=(1-\gamma ){\mbox{ Relative Accuracy}}_{i}+\gamma {\mbox{ Relative Simplicity}}_{i}.

Відносну точність (англ. relative accuracy) може бути виражено кількісно як ${\mbox{MSE}}(\lambda _{i})/{\mbox{MSE}}(\lambda _{R})$ , так що середньоквадратичну похибку кандидата $\lambda _{i}$ роблять відносною до визначеної користувачем $\lambda _{R}$ . Член відносної простоти (англ. relative simplicity) вимірює величину, на яку $\lambda _{i}$ відхиляється від $\lambda _{R}$ , по відношенню до максимальної величини відхилення від $\lambda _{R}$ . Відповідно, відносну простоту можливо вказати як ${\frac {(\lambda _{i}-\lambda _{R})^{2}}{(\lambda _{\max }-\lambda _{R})^{2}}}$ , де $\lambda _{\max }$ відповідає значенню $\lambda$ з найбільшим допустимим відхиленням від $\lambda _{R}$ . За допомогою $\gamma \in [0,1]$ користувач встановлює, наскільки сильним є вплив еталонного параметру по відношенню до перехресного затверджування.

Можливо додавати члени відносної простоти для декількох конфігурації $c=1,2,...,C$ , вказавши функцію втрат як

L_{\lambda _{i}}={\mbox{ Relative Accuracy}}_{i}+\sum _{c=1}^{C}{\frac {\gamma _{c}}{1-\gamma _{c}}}{\mbox{ Relative Simplicity}}_{i,c}.

Гурнвеґ (2018) показує, що функцію втрат з таким компромісом точності—простоти також можливо використовувати, щоби інтуїтивно визначати стискальну оцінку^[en] на кшталт (адаптивного) LASSO та баєсової / хребтової регресії.^[26] Див. приклад у LASSO^[en].

Статистичні властивості

Припустімо, що ми обираємо міру допасованості F, й використовуємо перехресне затверджування, щоби виробити оцінку F^* математичного сподівання допасованості (англ. expected fit) EF моделі до незалежного набору даних, вибраного з тієї ж генеральної сукупності, що й тренувальні дані. Якщо ми уявимо вибирання декількох незалежних тренувальних наборів, що слідують одному й тому ж розподілові, то значення результату F^* будуть мінливими. Статистичні властивості F^* випливають із цієї мінливості.

Дисперсія F^* може бути великою.^[27]^[28] З цієї причини, якщо дві статистичні процедури порівнюють на основі перехресного затверджування, процедура з кращою оцінюваною продуктивність може насправді не бути кращою з цих двох (тобто, вона може не мати кращого значення EF). Було досягнуто певного прогресу в побудові довірчих проміжків навколо оцінок перехресного затверджування,^[27] але це вважають складною проблемою.

Обчислювальні питання

Більшість форм перехресного затверджування прямолінійні для втілення, доки доступне втілення досліджуваного методу передбачування. Зокрема, метод передбачування може бути «чорною скринькою», — немає потреби мати доступ до нутрощів його втілення. Якщо метод передбачування витратний для тренування, то перехресне затверджування може бути повільним, оскільки тренування мусить здійснюватися багаторазово. В деяких випадках, таких як найменші квадрати та ядрова регресія^[en], перехресне затверджування можливо значно прискорити, обчислюючи попередньо деякі значення, потрібні в тренуванні багаторазово, або використовуючи швидкі «правила уточнення», такі як формула Шермана — Моррісона^[en]. Проте, слід бути обережними, щоби зберегти «повне засліплення» затверджувального набору від тренувальної процедури, бо інакше може виникнути зміщення. Крайній випадок прискорення перехресного затверджування трапляється в лінійній регресії, де результати перехресного затверджування є виразом замкненого вигляду, відомим як сума квадратів похибок передбачуваних залишків (англ. prediction residual error sum of squares, PRESS^[en]).

Обмеження та неправильне використання

Перехресне затверджування видає змістовні результати лише якщо затверджувальний та тренувальний набори вибирають з однієї й тієї ж генеральної сукупності, й лише якщо людське упередження перебуває під контролем.

В багатьох застосуваннях передбачувального моделювання структура досліджуваної системи еволюціює з часом (тобто, є «нестаціонарною»). І те, й друге може привносити систематичні відмінності між тренувальним та затверджувальним наборами. Наприклад, якщо модель для передбачування вартості акцій^[en] тренують на даних за певний п'ятирічний період, то буде нереалістичним розглядати наступний п'ятирічний період як вибраний з тієї ж генеральної сукупності. Як інший приклад, розгляньмо модель, що розробляють для передбачування ризику особи отримати діагноз певної хвороби протягом наступного року. Якщо модель тренують, використовуючи дані дослідження, що охоплює лише специфічну групу населення (наприклад, молодих людей, або чоловіків), але потім застосовують до населення в цілому, то результати перехресного затверджування з тренувального набору можуть відрізнятися від дійсної передбачувальної продуктивності дуже сильно.

В багатьох застосуваннях також може бути неправильно вказано моделі, або вони можуть змінюватися залежно від упередженості моделювальника та/або випадкового вибору. Коли таке трапляється, може виникати ілюзія, що система змінюється в зовнішніх вибірках, тоді як причина полягає в тому, що модель пропустила критичний передбачувач, та/або включила передбачувач, збитий з пантелику. Нові дані свідчать, що перехресне затверджування саме по собі є не дуже передбачувальним для зовнішньої застосовності, тоді як один з видів експериментального затверджування, відомий як обмінне вибирання (англ. swap sampling), що контролює людське упередження, може мати щодо неї значно кращу передбачувальну здатність.^[29] Як визначено цим великим дослідженням MAQC-II для 30 000 моделей, обмінне вибирання містить в собі перехресне затверджування в тому сенсі, що передбачування випробовують на незалежних тренувальній та затверджувальній вибірках. До того ж, моделі також і розробляють на цих незалежних вибірках, і моделювальниками, що не знають одні про одних. Коли між цими моделями, розробленими на цих обмінюваних тренувальному та затверджувальному наборах, є невідповідність, що трапляється доволі часто, MAQC-II показує, що це значно краще передбачуватиме погану зовнішню продуктивність, ніж традиційне перехресне затверджування.

Причиною успішності обмінного вибирання є вбудований контроль людських упереджень в побудові моделей. На додачу до занадто великої віри у передбачування, яка може варіюватися між моделювальниками, і вести до поганої зовнішньої застосовності через ці сплутані впливи моделювальників, ось іще деякі неправильні способи використання перехресного затверджування:

Виконання початкового аналізу для встановлювання найінформативніших ознак із застосуванням всього набору даних, якщо обирання ознак або налаштування моделі вимагає процедура моделювання: це мусить бути повторювано на кожному тренувальному наборі. Інакше передбачування безумовно будуть зміщені вгору.^[30] Якщо для вирішування, яку ознаку використовувати, застосовувати перехресне затверджування, то для виконання обирання ознак на кожному тренувальному наборі мусить виконуватися внутрішнє перехресне затверджування (англ. inner cross-validation).^[31]
Виконання центрування за середнім значенням, перемасштабування, зниження розмірності, усунення викидів або будь-якої іншої попередньої обробки даних, залежної від них, за допомогою всього набору даних. Хоч це й дуже поширено на практиці, було показано, що це привносить зміщення в оцінки перехресного затверджування.^[32]
Дозволяння деяким з тренувальних даних входити й до випробувального набору: це може ставатися через «двійникування» (англ. "twinning") в наборі даних, за якого в ньому міститься якась кількість повністю або майже ідентичних зразків. Двійникування до деякої міри завжди має місце навіть в ідеально незалежних тренувальних та затверджувальних вибірках. Це відбувається через те, що деякі зі спостережень тренувальної вибірки матимуть значення передбачувальних змінних, майже ідентичні до спостережень затверджувальної вибірки. І деякі з них корелюватимуть з ціллю на рівні, кращому за випадковий, в одному й тому ж напрямку як у тренуванні, так і в затверджуванні, будучи насправді керованими збуреними передбачувачами з поганою зовнішньою застосовністю. Якщо таку перехресно затверджену модель буде обрано з k-кратного набору, то спрацює людське підтверджувальне упередження, визначивши цю модель затвердженою. Ось чому традиційне перехресне затверджування потребує доповнення контролем людського упередження та збитого з пантелику визначення моделі, такого як обмінне вибирання, та перспективне дослідження.

Перехресне затверджування для моделей часових рядів

Через важливість порядку даних, для моделей часових рядів перехресне затверджування^{[уточнити]} може бути проблематичним. Доречнішим підходом може бути застосування ковзного перехресного затверджування (англ. rolling cross-validation).^[33]

Проте, якщо продуктивність описано єдиною зведеною статистикою, то, можливо, працюватиме підхід, описаний Політісом та Романо як стаціонарна натяжка^[en].^[34] Статистиці натяжки потрібно приймати проміжок часового ряду й повертати зведену статистику на ньому. Виклик стаціонарної натяжки потребує вказування доречної середньої довжини проміжку.

Застосування

Перехресне затверджування можливо використовувати для порівнювання продуктивності різних процедур передбачувального моделювання. Наприклад, припустімо, що нас цікавить оптичне розпізнавання символів, і для розпізнавання справжнього символу з зображення рукописного символу ми розглядаємо використання або опорновекторної машини (ОВМ), або k-найближчих сусідів (kНС). Застосувавши перехресне затверджування, ми можемо отримати емпіричні оцінки, що порівнюють ці два методи в термінах їхніх відповідних часток неправильно класифікованих символів. І навпаки, внутрішньовибіркова оцінка не надаватиме потрібної величини (тобто, похибки узагальнювання).^[35]

Перехресне затверджування також можливо застосовувати в обиранні змінних.^[36] Припустімо, що ми використовуємо рівні експресії 20 білків, щоби передбачувати, чи відреагує пацієнт з раком на певні ліки. Однією з практичних цілей буде визначити, яку підмножину з 20 ознак слід використовувати для вироблення найкращої передбачувальної моделі. Для більшості процедур моделювання, якщо ми порівнюємо підмножини ознак, використовуючи внутрішньовибіркові рівні похибки, найкраща продуктивність досягатиметься при використанні всіх 20 ознак. Проте за перехресного затверджування модель із найкращою допасованістю в загальному випадку включатиме лише підмножину ознак, які вважаються справді інформативними.

Нещодавнім розширенням медичної статистики стало її застосування в метааналізі. Вона формує основу статистики обґрунтованості (англ. validation statistic), Vn, яку використовують, щоби випробовувати статистичну обґрунтованість підсумкових оцінок метааналізу.^[37] Її також використовували в метааналізі у звичнішому сенсі, для оцінювання правдоподібної похибки передбачування результатів метааналізу.^[38]

Див. також

Вікісховище має мультимедійні дані за темою: Перехресне затверджування

Зауваження та примітки

↑ Piryonesi S. Madeh; El-Diraby Tamer E. (1 березня 2020). Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index. Journal of Infrastructure Systems (англ.). 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512. S2CID 213782055.
↑ Allen, David M (1974). The Relationship between Variable Selection and Data Agumentation and a Method for Prediction. Technometrics (англ.). 16 (1): 125—127. doi:10.2307/1267500. JSTOR 1267500.
↑ Stone, M (1974). Cross-Validatory Choice and Assessment of Statistical Predictions. Journal of the Royal Statistical Society, Series B (Methodological) (англ.). 36 (2): 111—147. doi:10.1111/j.2517-6161.1974.tb00994.x. S2CID 62698647.
↑ Stone, M (1977). An Asymptotic Equivalence of Choice of Model by Cross-Validation and Akaike's Criterion. Journal of the Royal Statistical Society, Series B (Methodological) (англ.). 39 (1): 44—47. doi:10.1111/j.2517-6161.1977.tb01603.x. JSTOR 2984877.
↑ Geisser, Seymour (1993). Predictive Inference (англ.). New York, NY: Chapman and Hall. ISBN 978-0-412-03471-8.
↑ ^а ^б Kohavi, Ron (1995). A study of cross-validation and bootstrap for accuracy estimation and model selection. Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence (англ.). San Mateo, CA: Morgan Kaufmann. 2 (12): 1137—1143. CiteSeerX 10.1.1.48.529.
↑ Devijver, Pierre A.; Kittler, Josef (1982). Pattern Recognition: A Statistical Approach (англ.). London, GB: Prentice-Hall. ISBN 0-13-654236-0.
↑ Galkin, Alexander (28 листопада 2011). What is the difference between test set and validation set? (англ.). Процитовано 10 жовтня 2018.
↑ Newbie question: Confused about train, validation and test data! (англ.). Архів оригіналу за 14 березня 2015. Процитовано 14 листопада 2013.{{cite web}}: Обслуговування CS1: bot: Сторінки з посиланнями на джерела, де статус оригінального URL невідомий (посилання)
↑ Cawley, Gavin C.; Talbot, Nicola L. C. (2010). On Over-fitting in Model Selection and Subsequent Selection Bias in Performance Evaluation (PDF). Journal of Machine Learning Research (англ.). 11: 2079—2107.
↑ Grossman, Robert; Seni, Giovanni; Elder, John; Agarwal, Nitin; Liu, Huan (2010). Ensemble Methods in Data Mining: Improving Accuracy Through Combining Predictions. Synthesis Lectures on Data Mining and Knowledge Discovery (англ.). Morgan & Claypool. 2: 1—126. doi:10.2200/S00240ED1V01Y200912DMK002.
↑ Trippa, Lorenzo; Waldron, Levi; Huttenhower, Curtis; Parmigiani, Giovanni (March 2015). Bayesian nonparametric cross-study validation of prediction methods. The Annals of Applied Statistics (англ.). 9 (1): 402—428. arXiv:1506.00474. Bibcode:2015arXiv150600474T. doi:10.1214/14-AOAS798. ISSN 1932-6157. S2CID 51943497.
↑ Celisse, Alain (1 жовтня 2014). Optimal cross-validation in density estimation with the $L^{2}$-loss. The Annals of Statistics (англ.). 42 (5): 1879—1910. arXiv:0811.0802. doi:10.1214/14-AOS1240. ISSN 0090-5364. S2CID 17833620.
↑ Airola, A.; Pahikkala, T.; Waegeman, W.; De Baets, Bernard; Salakoski, T. (1 квітня 2011). An experimental comparison of cross-validation techniques for estimating the area under the ROC curve. Computational Statistics & Data Analysis (англ.). 55 (4): 1828—1844. doi:10.1016/j.csda.2010.11.018.
↑ Molinaro, A. M.; Simon, R.; Pfeiffer, R. M. (1 серпня 2005). Prediction error estimation: a comparison of resampling methods. Bioinformatics (англ.). 21 (15): 3301—3307. doi:10.1093/bioinformatics/bti499. ISSN 1367-4803. PMID 15905277.
↑ fold // Англійсько-українсько-англійський словник наукової мови (фізика та споріднені науки). Частина І англійсько-українська / уклад. О. Кочерга, Є. Мейнарович. — 2010.
↑ McLachlan, Geoffrey J.; Do, Kim-Anh; Ambroise, Christophe (2004). Analyzing microarray gene expression data (англ.). Wiley.
↑ Elements of Statistical Learning: data mining, inference, and prediction. 2nd Edition. web.stanford.edu (англ.). Процитовано 4 квітня 2019.
↑ Vanwinckelen, Gitte (2 жовтня 2019). On Estimating Model Accuracy with Repeated Cross-Validation (англ.). с. 39—44. ISBN 9789461970442.
↑ Soper, Daniel S. (2021). Greed Is Good: Rapid Hyperparameter Optimization and Model Selection Using Greedy k-Fold Cross Validation (PDF). Electronics (англ.). 10 (16): 1973. doi:10.3390/electronics10161973.
↑ Cross Validation (англ.). Процитовано 11 листопада 2012.
↑ Arlot, Sylvain; Celisse, Alain (2010). A survey of cross-validation procedures for model selection. Statistics Surveys (англ.). 4: 40—79. arXiv:0907.4728. doi:10.1214/09-SS054. S2CID 14332192. In brief, CV consists in averaging several hold-out estimators of the risk corresponding to different data splits.
↑ Dubitzky, Werner; Granzow, Martin; Berrar, Daniel (2007). Fundamentals of data mining in genomics and proteomics (англ.). Springer Science & Business Media. с. 178.
↑ Kuhn, Max; Johnson, Kjell (2013). Applied Predictive Modeling (англ.). New York, NY: Springer New York. doi:10.1007/978-1-4614-6849-3. ISBN 9781461468486.
↑ Cantzler, H. Random Sample Consensus (RANSAC) (англ.). Institute for Perception, Action and Behaviour, Division of Informatics, University of Edinburgh. Архів оригіналу за 4 лютого 2023.
↑ ^а ^б ^в Hoornweg, Victor (2018). Science: Under Submission (англ.). Hoornweg Press. ISBN 978-90-829188-0-9.
↑ ^а ^б Efron, Bradley; Tibshirani, Robert (1997). Improvements on cross-validation: The .632 + Bootstrap Method. Journal of the American Statistical Association^[en] (англ.). 92 (438): 548—560. doi:10.2307/2965703. JSTOR 2965703. MR 1467848.
↑ Stone, Mervyn (1977). Asymptotics for and against cross-validation. Biometrika^[en] (англ.). 64 (1): 29—35. doi:10.1093/biomet/64.1.29. JSTOR 2335766. MR 0474601.
↑ Consortium, MAQC (2010). The Microarray Quality Control (MAQC)-II study of common practices for the development and validation of microarray-based predictive models. Nature Biotechnology (англ.). London: Nature Publishing Group. 28 (8): 827—838. doi:10.1038/nbt.1665. PMC 3315840. PMID 20676074.
↑ Bermingham, Mairead L.; Pong-Wong, Ricardo; Spiliopoulou, Athina; Hayward, Caroline; Rudan, Igor; Campbell, Harry; Wright, Alan F.; Wilson, James F.; Agakov, Felix; Navarro, Pau; Haley, Chris S. (2015). Application of high-dimensional feature selection: evaluation for genomic prediction in man. Sci. Rep. (англ.). 5: 10312. Bibcode:2015NatSR...510312B. doi:10.1038/srep10312. PMC 4437376. PMID 25988841.
↑ Varma, Sudhir; Simon, Richard (2006). Bias in error estimation when using cross-validation for model selection. BMC Bioinformatics (англ.). 7: 91. doi:10.1186/1471-2105-7-91. PMC 1397873. PMID 16504092.
↑ Moscovich, Amit; Rosset, Saharon (1 вересня 2022). On the Cross-Validation Bias due to Unsupervised Preprocessing. Journal of the Royal Statistical Society Series B: Statistical Methodology (англ.). 84 (4): 1474—1502. arXiv:1901.08974. doi:10.1111/rssb.12537. S2CID 215745385.
↑ Bergmeir, Christopher; Benitez, Jose (2012). On the use of cross-validation for time series predictor evaluation. Information Sciences (англ.). 191: 192—213. doi:10.1016/j.ins.2011.12.028 — через Elsevier Science Direct.
↑ Politis, Dimitris N.; Romano, Joseph P. (1994). The Stationary Bootstrap. Journal of the American Statistical Association (англ.). 89 (428): 1303—1313. doi:10.1080/01621459.1994.10476870. hdl:10983/25607.
↑ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome H. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction (англ.). Springer. ISBN 978-0-387-84884-6.
↑ Picard, Richard; Cook, Dennis (1984). Cross-Validation of Regression Models. Journal of the American Statistical Association (англ.). 79 (387): 575—583. doi:10.2307/2288403. JSTOR 2288403.
↑ Willis BH, Riley RD (2017). Measuring the statistical validity of summary meta-analysis and meta-regression results for use in clinical practice. Statistics in Medicine (англ.). 36 (21): 3283—3301. doi:10.1002/sim.7372. PMC 5575530. PMID 28620945.
↑ Riley RD, Ahmed I, Debray TP, Willis BH, Noordzij P, Higgins JP, Deeks JJ (2015). Summarising and validating test accuracy results across multiple studies for use in clinical practice. Statistics in Medicine (англ.). 34 (13): 2081—2103. doi:10.1002/sim.6471. PMC 4973708. PMID 25800943.

[:1-1] Piryonesi S. Madeh; El-Diraby Tamer E. (1 березня 2020). Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index. Journal of Infrastructure Systems (англ.). 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512. S2CID 213782055.

[2] Allen, David M (1974). The Relationship between Variable Selection and Data Agumentation and a Method for Prediction. Technometrics (англ.). 16 (1): 125—127. doi:10.2307/1267500. JSTOR 1267500.

[3] Stone, M (1974). Cross-Validatory Choice and Assessment of Statistical Predictions. Journal of the Royal Statistical Society, Series B (Methodological) (англ.). 36 (2): 111—147. doi:10.1111/j.2517-6161.1974.tb00994.x. S2CID 62698647.

[4] Stone, M (1977). An Asymptotic Equivalence of Choice of Model by Cross-Validation and Akaike's Criterion. Journal of the Royal Statistical Society, Series B (Methodological) (англ.). 39 (1): 44—47. doi:10.1111/j.2517-6161.1977.tb01603.x. JSTOR 2984877.

[5] Geisser, Seymour (1993). Predictive Inference (англ.). New York, NY: Chapman and Hall. ISBN 978-0-412-03471-8.

[Kohavi95-6] а ^б Kohavi, Ron (1995). A study of cross-validation and bootstrap for accuracy estimation and model selection. Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence (англ.). San Mateo, CA: Morgan Kaufmann. 2 (12): 1137—1143. CiteSeerX 10.1.1.48.529.

[Devijver82-7] Devijver, Pierre A.; Kittler, Josef (1982). Pattern Recognition: A Statistical Approach (англ.). London, GB: Prentice-Hall. ISBN 0-13-654236-0.

[8] Galkin, Alexander (28 листопада 2011). What is the difference between test set and validation set? (англ.). Процитовано 10 жовтня 2018.

[Newbie_question:_Confused_about_train,_validation_and_test_data!-9] Newbie question: Confused about train, validation and test data! (англ.). Архів оригіналу за 14 березня 2015. Процитовано 14 листопада 2013.{{cite web}}: Обслуговування CS1: bot: Сторінки з посиланнями на джерела, де статус оригінального URL невідомий (посилання)

[10] Cawley, Gavin C.; Talbot, Nicola L. C. (2010). On Over-fitting in Model Selection and Subsequent Selection Bias in Performance Evaluation (PDF). Journal of Machine Learning Research (англ.). 11: 2079—2107.

[:0-11] Grossman, Robert; Seni, Giovanni; Elder, John; Agarwal, Nitin; Liu, Huan (2010). Ensemble Methods in Data Mining: Improving Accuracy Through Combining Predictions. Synthesis Lectures on Data Mining and Knowledge Discovery (англ.). Morgan & Claypool. 2: 1—126. doi:10.2200/S00240ED1V01Y200912DMK002.

[12] Trippa, Lorenzo; Waldron, Levi; Huttenhower, Curtis; Parmigiani, Giovanni (March 2015). Bayesian nonparametric cross-study validation of prediction methods. The Annals of Applied Statistics (англ.). 9 (1): 402—428. arXiv:1506.00474. Bibcode:2015arXiv150600474T. doi:10.1214/14-AOAS798. ISSN 1932-6157. S2CID 51943497.

[13] Celisse, Alain (1 жовтня 2014). Optimal cross-validation in density estimation with the $L^{2}$-loss. The Annals of Statistics (англ.). 42 (5): 1879—1910. arXiv:0811.0802. doi:10.1214/14-AOS1240. ISSN 0090-5364. S2CID 17833620.

[14] Airola, A.; Pahikkala, T.; Waegeman, W.; De Baets, Bernard; Salakoski, T. (1 квітня 2011). An experimental comparison of cross-validation techniques for estimating the area under the ROC curve. Computational Statistics & Data Analysis (англ.). 55 (4): 1828—1844. doi:10.1016/j.csda.2010.11.018.

[15] Molinaro, A. M.; Simon, R.; Pfeiffer, R. M. (1 серпня 2005). Prediction error estimation: a comparison of resampling methods. Bioinformatics (англ.). 21 (15): 3301—3307. doi:10.1093/bioinformatics/bti499. ISSN 1367-4803. PMID 15905277.

[16] // Англійсько-українсько-англійський словник наукової мови (фізика та споріднені науки). Частина І англійсько-українська / уклад. О. Кочерга, Є. Мейнарович. — 2010.

[McLachlan-17] McLachlan, Geoffrey J.; Do, Kim-Anh; Ambroise, Christophe (2004). Analyzing microarray gene expression data (англ.). Wiley.

[18] Elements of Statistical Learning: data mining, inference, and prediction. 2nd Edition. web.stanford.edu (англ.). Процитовано 4 квітня 2019.

[19] Vanwinckelen, Gitte (2 жовтня 2019). On Estimating Model Accuracy with Repeated Cross-Validation (англ.). с. 39—44. ISBN 9789461970442.

[soper-20] Soper, Daniel S. (2021). Greed Is Good: Rapid Hyperparameter Optimization and Model Selection Using Greedy k-Fold Cross Validation (PDF). Electronics (англ.). 10 (16): 1973. doi:10.3390/electronics10161973.

[21] Cross Validation (англ.). Процитовано 11 листопада 2012.

[22] Arlot, Sylvain; Celisse, Alain (2010). A survey of cross-validation procedures for model selection. Statistics Surveys (англ.). 4: 40—79. arXiv:0907.4728. doi:10.1214/09-SS054. S2CID 14332192. In brief, CV consists in averaging several hold-out estimators of the risk corresponding to different data splits.

[mccv-23] Dubitzky, Werner; Granzow, Martin; Berrar, Daniel (2007). Fundamentals of data mining in genomics and proteomics (англ.). Springer Science & Business Media. с. 178.

[24] Kuhn, Max; Johnson, Kjell (2013). Applied Predictive Modeling (англ.). New York, NY: Springer New York. doi:10.1007/978-1-4614-6849-3. ISBN 9781461468486.

[25] Cantzler, H. Random Sample Consensus (RANSAC) (англ.). Institute for Perception, Action and Behaviour, Division of Informatics, University of Edinburgh. Архів оригіналу за 4 лютого 2023.

[Hoornweg2018SUS-26] а ^б ^в Hoornweg, Victor (2018). Science: Under Submission (англ.). Hoornweg Press. ISBN 978-90-829188-0-9.

[Efron97-27] а ^б Efron, Bradley; Tibshirani, Robert (1997). Improvements on cross-validation: The .632 + Bootstrap Method. Journal of the American Statistical Association^[en] (англ.). 92 (438): 548—560. doi:10.2307/2965703. JSTOR 2965703. MR 1467848.

[Stone77-28] Stone, Mervyn (1977). Asymptotics for and against cross-validation. Biometrika^[en] (англ.). 64 (1): 29—35. doi:10.1093/biomet/64.1.29. JSTOR 2335766. MR 0474601.

[29] Consortium, MAQC (2010). The Microarray Quality Control (MAQC)-II study of common practices for the development and validation of microarray-based predictive models. Nature Biotechnology (англ.). London: Nature Publishing Group. 28 (8): 827—838. doi:10.1038/nbt.1665. PMC 3315840. PMID 20676074.

[Bermingham-intro-30] Bermingham, Mairead L.; Pong-Wong, Ricardo; Spiliopoulou, Athina; Hayward, Caroline; Rudan, Igor; Campbell, Harry; Wright, Alan F.; Wilson, James F.; Agakov, Felix; Navarro, Pau; Haley, Chris S. (2015). Application of high-dimensional feature selection: evaluation for genomic prediction in man. Sci. Rep. (англ.). 5: 10312. Bibcode:2015NatSR...510312B. doi:10.1038/srep10312. PMC 4437376. PMID 25988841.

[31] Varma, Sudhir; Simon, Richard (2006). Bias in error estimation when using cross-validation for model selection. BMC Bioinformatics (англ.). 7: 91. doi:10.1186/1471-2105-7-91. PMC 1397873. PMID 16504092.

[32] Moscovich, Amit; Rosset, Saharon (1 вересня 2022). On the Cross-Validation Bias due to Unsupervised Preprocessing. Journal of the Royal Statistical Society Series B: Statistical Methodology (англ.). 84 (4): 1474—1502. arXiv:1901.08974. doi:10.1111/rssb.12537. S2CID 215745385.

[33] Bergmeir, Christopher; Benitez, Jose (2012). On the use of cross-validation for time series predictor evaluation. Information Sciences (англ.). 191: 192—213. doi:10.1016/j.ins.2011.12.028 — через Elsevier Science Direct.

[34] Politis, Dimitris N.; Romano, Joseph P. (1994). The Stationary Bootstrap. Journal of the American Statistical Association (англ.). 89 (428): 1303—1313. doi:10.1080/01621459.1994.10476870. hdl:10983/25607.

[35] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome H. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction (англ.). Springer. ISBN 978-0-387-84884-6.

[Picard84-36] Picard, Richard; Cook, Dennis (1984). Cross-Validation of Regression Models. Journal of the American Statistical Association (англ.). 79 (387): 575—583. doi:10.2307/2288403. JSTOR 2288403.

[37] Willis BH, Riley RD (2017). Measuring the statistical validity of summary meta-analysis and meta-regression results for use in clinical practice. Statistics in Medicine (англ.). 36 (21): 3283—3301. doi:10.1002/sim.7372. PMC 5575530. PMID 28620945.

[38] Riley RD, Ahmed I, Debray TP, Willis BH, Noordzij P, Higgins JP, Deeks JJ (2015). Summarising and validating test accuracy results across multiple studies for use in clinical practice. Statistics in Medicine (англ.). 34 (13): 2081—2103. doi:10.1002/sim.6471. PMC 4973708. PMID 25800943.

[2]

[3]

[4]

[5]

[6]

[7]

[1]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]