Коефіцієнт кореляції рангу Кендала

У статистиці коефіцієнт кореляції рангу Кендала, як правило, називають -коефіцієнт (тау-коефіцієнт) Кендла. Він використовується у статистиці для вимірювання зв'язку між двома величинами. -тест — це непараметричний тест статистичних гіпотез залежності на основі -коефіцієнта. Зокрема, він є мірою рангової кореляції, тобто подібності упорядкування даних, коли вони упорядкуванні за своєю величиною. Цей коефіцієнт названий на честь Моріса Кендала, який розробив теорію, в якій використовував цей коефіцієнт, в 1938 році, хоча Густав Фехнер запропонував аналогічну міру в контексті часових рядів ще в 1897 році.

ОзначенняРедагувати

Нехай   — набір спостережень спільних випадкових величин X і Y відповідно, так що всі значення (xк) і (yк) не є однаковими для будь-якого k=1..n. Будь-яка пара спостережень (xi, yi) і (xj, yj) називається узгодженою, якщо узгоджені ряди для обох елементів: тобто, якщо xi> xj та yi> yj або якщо xi <xj та yi <yj . Вони називаються неузгодженими (або дисонуючими), якщо xi> xj та yi< yj або якщо xi <xj та yi >yj. Якщо xi =xj або yi = yj, то пара не є ні узгодженою ні неузгодженою.

  — коефіцієнт Кендалла визначається наступним чином:

 

Де   — кількість узгоджених пар,   — кількість неузгоджених пар.
Властивості
Знаменник — це загальна кількість пар, таким чином коефіцієнт знаходить в діапазоні  . Якщо узгодженість між двома величинами X та Y є ідеальною (тобто дві величини збігаються), то коефіцієнт має значення 1. Якщо розбіжність між двома величинами X та Y є ідеальною (тобто вони мають різні порядки зростання), то коефіцієнт дорівнює −1. Якщо X та Y незалежні, то коефіцієнт буде прямувати до нуля.

Перевірка гіпотезиРедагувати


Коефіцієнт рангу Кендала часто використовується для статистичної оцінки в перевірці статистичних гіпотез для визначення чи можуть дві змінні розглядатись як статистично залежні. Цей тест є непараметричний, так як він не залежить від будь-яких припущень про розподіл X або Y або розподіл (x, y). При нульовій гіпотезі незалежності X і Y, вибірковий розподіл τ має очікуване значення -нуль. Точний розподіл не може бути охарактеризований з точки зору спільних розподілів, але може вираховуватись для малих вибірок; для більших вибірок, поширеним є використання наближення для нормального розподілу з математичним сподіванням рівним нулю і дисперсією випадкової величини.

Облік зв'язківРедагувати

Пара {(xi, yi), (xj, yj)}, як кажуть, зв'язані, якщо xi = xi або yi=yj; зв'язні пари не є ні узгодженими ні неузгодженими. Якщо пов'язанні пари виникають в даних, коефіцієнт може бути змінений декількома способами, щоб тримати його в діапазоні [-1, 1]:

 -a

Статистична величина  -a перевіряє міру узгодженості таблиці всіх пар (xi, yi),. Обидві змінні повинні бути порядковим.

 -b

Статистична величина  -b, на відміну від  -a, вносить зміни в зв'язки. Значення  -b знаходяться в діапазоні від −1 до +1. Нульове значення свідчить про відсутність узгодженості.  -b коефіцієнт визначається таким чином:

 

Де:

 

 = кількість узгоджених пар
 = кількість неузгоджених пар
 = кількість зв'язків величин в i — тій групі зв'язків першої величини
 = зв'язків величин в j- тій групі зв'язків другої величини

 -c

 -c відрізняється від  -b тим, що більш підходить для прямокутних ніж для квадратних таблиць.

ПрикладРедагувати


Коли дві величини є статистично незалежними, то розподіл   не можна легко описати виходячи з відомих розподілів. Проте, для   наступна величина —   — наближено розподілена у вигляді нормального розподілу, якщо зміні є статистично незалежними:
 


Таким чином, щоб перевірити чи є дві змінні залежними, обчислюють   та знаходять кумулятивну ймовірність для стандартного нормального розподілу на -| |.

  має той самий розподіл, що й   розподіл і приблизно дорівнює стандартному нормальному розподілу, коли величини статистично незалежні:

 


Де

 

ПосиланняРедагувати