[перевірена версія][неперевірена версія]
Вилучено вміст Додано вміст
Tolsai (обговорення | внесок)
Функція пропозицій посилань: додано 3 посилання.
Рядок 156:
Деякі використовувані міри кореляції можуть бути невизначеними для певних спільних розподілів {{mvar|X}} та {{mvar|Y}}. Наприклад, коефіцієнт кореляції Пірсона визначено в термінах [[Момент (математика)|моментів]], і, отже, буде не визначено, якщо не визначено моменти. Завжди визначено міри залежності, які ґрунтуються на [[Квантиль|квантилях]]. Статистики на основі вибірки, призначені оцінювати генеральні міри залежності, можуть мати або не мати бажаних статистичних властивостей, наприклад бути [[Незміщена оцінка|незміщеними]] та [[Слушна оцінка|асимптотично слушними]], залежно від просторової структури сукупності, з якої було вибрано дані.
 
Чутливість до розподілу даних можливо використовувати як перевагу. Наприклад, {{нп|Масштабна кореляція|масштабну кореляцію||Scaled correlation}} розроблено так, щоби використовувати чутливість до діапазону задля вихоплювання кореляції між швидкими складовими [[Часовий ряд|часових рядів]].<ref name="Nikolicetal">{{Cite journal|last=Nikolić|first=D|last2=Muresan|first2=RC|last3=Feng|first3=W|last4=Singer|first4=W|year=2012|title=Scaled correlation analysis: a better way to compute a cross-correlogram|journal=European Journal of Neuroscience|language=en|volume=35|issue=5|pages=1–21|doi=10.1111/j.1460-9568.2011.07987.x|pmid=22324876}}</ref> Шляхом контрольованого зменшення діапазону значення кореляції на довгому часовому масштабі відфільтровуються, й виявляються лише кореляції на коротких часових масштабах.
 
== Кореляційні матриці ==
Рядок 164:
: <math>c_{ij}:=\operatorname{corr}(X_i,X_j)=\frac{\operatorname{cov}(X_i,X_j)}{\sigma_{X_i}\sigma_{X_j}},\quad \text{if}\ \sigma_{X_i}\sigma_{X_j}>0.</math>
 
Таким чином, всі її діагональні елементи однаково [[Одиниця (число)|одиничні]]. Якщо всі використовувані міри кореляції є коефіцієнтами кореляції Пірсона, то кореляційна матриця така же, як і [[коваріаційна матриця]] [[Стандартизована змінна|стандартизованих випадкових змінних]] <math>X_i / \sigma(X_i)</math> для <math>i = 1, \dots, n</math>. Це стосується як генеральної кореляційної матриці (у цьому випадку <math>\sigma</math>&nbsp;— генеральне стандартне відхилення), так і ви́біркової кореляційної матриці (у цьому випадку <math>\sigma</math> позначує вибіркове стандартне відхилення). Отже, кожна з них обов'язково є [[Додатно напіввизначена матриця|додатно напіввизначеною матрицею]]. Більше того, кореляційна матриця строго [[Додатно визначена матриця|додатно визначена]], якщо жодна змінна не може мати всі свої значення точно породженими як [[лінійна функція]] значень інших.
 
Кореляційна матриця симетрична, оскільки кореляція між <math>X_i</math> та <math>X_j</math> це те саме, що й кореляція між <math>X_j</math> та <math>X_i</math>.
Рядок 203:
На сусідньому зображенні показано [[Точкова діаграма|діаграми розсіювання]] [[Квартет Анскомбе|квартету Анскомбе]], набору з чотирьох різних пар змінних, створеного {{нп|Френсіс Анскомбе|Френсісом Анскомбе||Francis Anscombe}}.<ref>{{Cite journal|last=Anscombe|first=Francis J.|year=1973|title=Graphs in statistical analysis|url=https://archive.org/details/sim_american-statistician_1973-02_27_1/page/17|journal=The American Statistician|language=en|volume=27|issue=1|pages=17–21|doi=10.2307/2682899|jstor=2682899}}</ref> Чотири змінні <math>y</math> мають однакове середнє значення (7,5), дисперсію (4,12), кореляцію (0,816) та лінію регресії (<math display="inline">y=3+0.5x</math>). Проте, як видно на цих графіках, розподіл змінних дуже різний. Перші (вгорі ліворуч) видаються розподіленими нормально й відповідають тому, що можна було би очікувати, розглядаючи дві змінні, які корелюють, й дотримуються припущення нормальності. Другі (вгорі праворуч) розподілено не нормально, і хоча й можливо спостерігати очевидний взаємозв'язок між цими двома змінними, він не є лінійним. У цьому випадку коефіцієнт кореляції Пірсона не вказує, що існує точна функційна залежність: лише ступінь, до якого цей взаємозв'язок можливо наблизити лінійним співвідношенням. У третьому випадку (внизу ліворуч) лінійна залежність є ідеальною, за винятком одного [[Викид (статистика)|викиду]], який чинить достатній вплив, щоби знизити коефіцієнт кореляції з 1 до 0,816. Нарешті, четвертий приклад (унизу праворуч) показує інший приклад, коли одного викиду достатньо для отримання високого коефіцієнта кореляції, навіть якщо взаємозв'язок між двома змінними не є лінійним.
 
Ці приклади показують, що коефіцієнт кореляції як [[зведена статистика]] не здатен замінити візуальне дослідження даних. Іноді кажуть, що ці приклади демонструють, що кореляція Пірсона передбачає, що дані мають [[нормальний розподіл]], але це правильно лише частково.<ref name="thirteenways"/> Кореляцію Пірсона можливо точно розрахувати для будь-якого розподілу, який має скінченну [[Коваріаційна матриця|коваріаційну матрицю]], що включає більшість розподілів, які зустрічаються на практиці. Проте, [[Достатня статистика|достатньою статистикою]] коефіцієнт кореляції Пірсона (взятий разом із вибірковим середнім значенням та дисперсією) є лише в тому випадку, якщо дані взято з [[Багатовимірний нормальний розподіл|багатовимірного нормального розподілу]]. В результаті, коефіцієнт кореляції Пірсона повністю характеризує зв'язок між змінними [[тоді й лише тоді]], коли дані вибирають із багатовимірного нормального розподілу.
 
== Двовимірний нормальний розподіл ==