Статисти́чна моде́ль — абстрактна схема відношень між величинами, що характеризують властивості реального процесу, розробка якої здійснюється неформальним шляхом. Статистична модель являє собою процес генерування даних, часто в значно ідеалізованій формі.

У статистичній моделі поєднується інформація двох типів:

  • апріорі логічно обґрунтованих гіпотез щодо природи та характеру властивостей процесу, співвідношень і взаємозв'язків між ними;
  • емпіричних даних, які характеризують ці властивості.

Статистична модель зазвичай визначається за допомогою математичних рівнянь, які відносяться до однієї/кількох випадкових величин і інших невипадкових змінних. Таким чином, «модель є формальним поданням теорії» (Херман Адер з посиланням на Кеннет Болльна).

В цілому, статистичні моделі є частиною фундаменту статистичного висновування.

Визначення

ред.

Статистична модель — це пара змінних ( ), де   — це множина спостережень (наприклад простір елементарних подій), а   — множина ймовірних розподілів на  .

Передбачається, що існує «істинний» розподіл ймовірностей, викликаний процесом, який генерує спостережувані дані. Виберемо   так, щоб зобразити множину розподілу, яка містить апроксимуючий розподіл. Немає строгої необхідності, щоб   містив дійсний розподіл, та й на практиці це трапляється рідко. Дійсно, як Burnham & Anderson константували, «Модель є спрощенням або наближенням до дійсності, а отже, не буде відображати всю реальність» — звідки і з'явилося твердження, що «всі моделі є неправильними».

Множина   є у більшості випадків параметризованою:  . Множина   визначає параметри моделі.

Параметризація зазвичай потрібна, аби мати різні значення параметрів, що приводять до різних розподілів, тобто   має виконуватися (іншими словами, вона повинна бути ін'єктивною). Параметризація, яка задовольняє умови, може бути ідентифікованою.

Загальні зауваження

ред.

Статистична модель являє собою особливий клас математичної моделі. Статистичну модель від інших математичних моделей відрізняє те, що статистична модель не є детермінованою. Таким чином, у статистичній моделі, визначеної за допомогою математичних рівнянь, деякі зі змінних не мають конкретних значень, проте натомість мають розподіл імовірностей, тобто деякі змінні є стохастичними.

Статистичні моделі часто використовуються навіть тоді, коли змодельований фізичний процес є детермінованим. Так, наприклад, підкидання монети, детермінований процес, але наразі він моделюється як стохастичний (через процес Бернуллі).

Статистичні моделі мають 3 основні цілі, згідно з теорією Konishi & Kitagawa:

  • Передбачення
  • Отримання інформації
  • Опис стохастичних структур

Обсяг моделі

ред.

Нехай, ми маємо статистичну модель: ( ), де  . Модель називається параметричною, якщо   є обмеженою величиною. У позначеннях вказуємо, що   де d — додатнє ціле число (також можна вказати   — область дійсних чисел або ж інші області). У даному випадку, d називається величиною моделі.

Наприклад, якщо ми припускаємо, що дані ми беремо з одновимірного розподілу Гауса, тоді ми отримаємо:

 

У цьому прикладі, величина d = 2.

Вкладені моделі

ред.

Дві статистичні моделі є вкладеними, якщо перша модель може бути перетворена у другу шляхом накладення обмежень на параметри першої моделі. Наприклад, множину всіх розподілів Гауса має, вкладену в нього, множину розподілу Гауса з нульовим сподаванням: ми обмежуємо сподівання в множині всіх розподілів Гауса, щоб отримати розподіл з нульовим середнім розподілом.

Порівняння моделей

ред.

Передбачається, що існує «істинний» розподіл ймовірностей спостережуваних даних, викликаний процесом, генеруючим дані. Вибір моделі залежить від елементів з  , яких апроксимація є найближчою до точного розв'язку.

Моделі можуть бути зіставлені один з одним для порівняння за допомогою пошукового аналізу даних або перевірки статистичних гіпотез. У пошуковому аналізі різноманітність моделей формулються і оцінюються залежно від того, наскільки добре кожна з моделей описує дані. При перевірці статистичних гіпотез раніше сформулювана модель/моделі порівнюються з існуючими. Загальні критерії для порівняння моделей включають коефіцієнт детермінації, коефіцієнт Баєса, і перевірка відношенням правдоподібності.

Коніші і Кітагава констатували: «Більшість проблем статистичного висновування можна вважати проблемами, пов'язаними з статистичним моделюванням. Вони, як правило, формулюються як порівняння декількох статистичних моделей ..».

Джерела та література

ред.
  • Єріна А. М. Статистичне моделювання та прогнозування: Навч. посібник. — К. : КНЕУ, 2001. — 170 с.(укр.)
  • Adèr, H.J. (2008), Modelling, у Adèr, H.J.; Mellenbergh, G.J. (ред.), Advising on Research Methods: a consultant's companion, Huizen, The Netherlands: Johannes van Kessel Publishing, с. 271—304.
  • Burnham, K. P.; Anderson, D. R. (2002), Model Selection and Multimodel Inference (вид. 2nd), Springer-Verlag, ISBN 0-387-95364-7.
  • Cox, D.R. (2006), Principles of Statistical Inference, Cambridge University Press.
  • Konishi, S.; Kitagawa, G. (2008), Information Criteria and Statistical Modeling, Springer.
  • McCullagh, P. (2002), What is a statistical model?, Annals of Statistics, 30: 1225—1310, doi:10.1214/aos/1035844977.

Див. також

ред.