Логістична регресія

статистична модель

Логістична регресія (англ. logistic regression) або лоґіт-регресія (англ. logit model[1]) — статистичний регресійний метод, що застосовують у випадку, коли залежна змінна є бінарною[en], тобто може набувати тільки двох значень (0 або 1). При запровадженні порогового значення може знаходити застосування у класифікуванні.

Приклади ред.

Прикладом може слугувати класифікація електронних листів на «спам» або «не спам». Метод також використовується у медицині, наприклад, для визначення чи є пухлина злоякісною, чи доброякісною.

Визначення логістичної моделі ред.

Нехай є деяка випадкова величина   що може набувати лише двох значень, які, як правило, позначаються цифрами 0 і 1. Нехай ця величина залежить від деякої множини пояснювальних змінних   Залежність   від   можна визначити ввівши додаткову змінну y*, де   Тоді:

 

При визначенні логістичної моделі стохастичний доданок   вважається випадковою величиною з логістичним розподілом ймовірностей. Відповідно для певних конкретних значень змінних   одержується відповідне значення   і ймовірність того, що   така:

 

Передостання рівність випливає з симетричності логістичного розподілу,   позначає логістичну функцію — функцію розподілу логістичного розподілу:

 

Таким чином для конкретного значення   випадкова величина   має розподіл Бернуллі:  

Логіт-модель задовольняє наступній умові:

 

Оцінка параметрів ред.

Оцінка параметрів   на основі деякої вибірки  , де   — вектор значень незалежних змінних, а   — відповідне їм значення   як правило здійснюється за допомогою методу максимальної правдоподібності, згідно з яким вибираються параметри  , що максимізують значення функції правдоподібності на вибірці:

 

Максимізація функції правдоподібності еквівалентна максимізації її логарифма:

 

Для максимізації цієї функції може бути застосований, наприклад, метод градієнтного спуску, метод Ньютона чи стохастичний градієнтний спуск.

Примітки ред.

  1. David A. Freedman (2009). Statistical Models: Theory and Practice. Cambridge University Press. с. 128.
 
Логістична функція:  .

Див. також ред.

Література ред.

  • Alan. Agresti: Categorical Data Analysis. Wiley-Interscience, Nowy Jork, 2002. ISBN 0-471-36093-7.
  • T. Amemiya: Advanced Econometrics. Harvard University Press, 1985. ISBN 0-674-00560-0.
  • N. Balakrishnan: Handbook of the Logistic Distribution. Marcel Dekker, Inc., 1991. ISBN 978-0-8247-8587-1.
  • William H. Green: Econometric Analysis, fifth edition. Prentice Hall, 2003. ISBN 0-13-066189-9.
  • Hosmer, David W., Stanley Lemeshow (2000). Applied Logistic Regression, 2nd ed.. New York; Chichester, Wiley. ISBN 0-471-35632-8.
  • Kleinbaum D.G., Logistic regression. A self-learning text, Springer-Verlag, 1994.