Корелограма

(Перенаправлено з Коррелограмма)

Корелограма

На малюнку — графік, що показує 100 випадкових чисел з «прихованою» функцією синус, автокореляція (корелограма) рядів на дні.
Приклад корелограми

В аналізі даних корелограмою називається зображення статистики кореляції. Наприклад, в аналізі часових рядів, корелограма, також знана як автокореляційна діаграма, являє собою графік зразка автокореляцій , в порівнянні з , (часові затримки).

Якщо використовується взаємно-кореляційна функція, результат називають поперечною корелограмою. Корелограми є широко використовуваним інструментом для перевірки випадковості в наборі даних. Випадковість знаходиться шляхом обчислення автокореляції для значень даних при різних часових затримках. Якщо випадково, такі автокореляції будуть близькі до нуля для будь-яких і всіх розділень часових затримок. Якщо невипадкове, то один або більше з автокореляції буде істотно відмінна від нуля.

Крім того, корелограми використовують в ідентифікації системи для Box-Jenkins моделі авторегресії ковзного середнього часового ряду. Автокореляція повинна бути близькою до нуль-випадковості, якщо аналітик не перевіряє випадковість, то справедливість багатьох з статистичних висновків попадає під сумнів. Корелограми є чудовим способом перевірки такої випадковості.

Застосування ред.

Корелограми допомагають знайти відповіді на такі питання:

  • Чи дані насправді випадкові?
  • Чи спостереження пов'язані з суміжними спостереженнями?
  • Чи пов'язані спостереження з двічі зсунутим спостереженням?
  • Чи є спостережуваний часовий ряд — білим шумом?
  • Чи є спостережуваний часовий ряд — синусоїдою?
  • Чи є спостережуваний часовий ряд — авторегресивним?
  • Якою є модель, що підходить для спостереження за часовим рядом?
  • Чи є модель :  дійсною та достатньою?
  • Чи є значення   дійсним?

Значення ред.

Випадковість (разом з фіксованою моделлю, фіксованими змінними та фіксованим розподілом) є одним з чотирьох припущень, які лежать в основі всіх процесів вимірювань. Припущення випадковості дуже важливе з таких причин:

  • Більшість стандартних статистичних тестів залежать від випадковості. Валідність результатів тесту прямо пов'язане з тим, чи є дійсною припущена випадковість.
  • Багато формул в статистиці залежать від випадковості припущення, найбільш поширеною є формула для визначення стандартного відхилення:

 , Де S — це стандартне відхилення даних. Не зважаючи на те, що ця формула дуже поширення, її результати не мають цінності, якщо не триматися припущеної випадковості.

  • Для одновимірних даних, за замовчуванням:  

Якщо дані не є випадковими, ця модель — некоректна та не є дійсною, тому оцінки параметрів стають безглуздими.

Оцінка автокореляцій ред.

Коефіцієнт автокореляції:

 ,

де ch — автоковаріаційна функція.

 

c0 — дисперсія функції

 

Отримане значення rh буде в діапазоні від −1 до 1.

Альтернативні оцінки ред.

Інколи використовують наступну формулу для автоваріації функції:

 

Хоча це визначення має менший відхил, (1/N) має деякі бажані статистичні властивості. Цю формулу часто використовують в літературі про статистику.

Статистичні висновки ред.

В один графік можна провести верхню та нижню межі для автокореляції за рівнем значущості:  , з   як передбачувана автокореляція для запізнення  . Якщо автокореляція вище (нижче), ніж ця верхня (нижня) межа, то нульова гіпотеза, тобто що немає автокореляції в самій затримці та за її межами відкидається на рівні значущості. Цей тест є наближеним і припускає, що часовий ряд є гаусовим. У наведеній вище z1-α/2 квантиль нормального розподілу; SE — стандартна помилка, яка може бути обчислена за формулою Бартлетта:

 
  for  

На картинці вище ми можемо відкинути нульову гіпотезу про те, що немає автокореляції між часовими точками, які є суміжними (запізнення = 1). Для інших періодів ніхто не може відкинути нульову гіпотезу про відсутність автокореляції.

Слід зазначити, що існують дві різні формули для генерації області впевненості:
1. Якщо корелограми використовується для перевірки випадковості (тобто не має часової залежності між даними), то краще використати наступну формулу:   де N є розмір вибірки, Z є квантиль функція стандартного нормального розподілу і α є рівень значущості. У цьому випадку, довірчі інтервали мають фіксовану довжину, яка залежить від розміру вибірки.
2. Корелограми також використовуються на стадії ідентифікації моделі для установки моделей типу ARIMA. У цьому випадку модель ковзного середнього значення визначений для даних і наступні області впевненості повинні бути сформовані:   де к-запізнення. У цьому випадку довірчі інтервали зростають в міру збільшення затримки.

Програмне забезпечення ред.

Корелограми доступні у більшості статистичного програмного забезпечення загального призначення. Для створення такого типу графіка в R можна використовувати функції ACF і PACF.

Див. також ред.