Наївний баєсів класифікатор

Наївний баєсів класифікатор — ймовірнісний класифікатор, що використовує теорему Баєса для визначення ймовірності приналежності спостереження (елемента вибірки) до одного з класів при припущенні (наївному) незалежності змінних.

Тобто, якщо на основі значень змінних можна однозначно визначити, до якого класу належить спостереження, баєсів класифікатор повідомить ймовірність приналежності до цього класу.

У проміжних же випадках, коли спостереження може з різною ймовірністю належати до різних класів, результатом роботи класифікатора буде вектор, компоненти якого є ймовірностями приналежності до того чи іншого класу.

Можна бачити, що ідеальний баєсів класифікатор в якомусь сенсі є оптимальним. Його результат не може бути поліпшений, тому що в усіх випадках, коли можлива однозначна відповідь, він її дасть — а в тих випадках, коли відповідь неоднозначна, результат кількісно характеризує міру цієї неоднозначності.

Разом з тим, в оптимальності криється і основний недолік ідеального баєсового класифікатора: для його побудови потрібна вибірка, що містить всі можливі комбінації змінних — а розмір такої вибірки експоненціально зростає із зростанням числа змінних (див. «прокляття розмірності»). Для подолання описаної вище проблеми на практиці використовують наївний баєсів класифікатор — класифікатор, побудований на основі припущення про незалежність змінних, тобто припущення про те, що використання цього припущення дозволяє не вивчати взаємодію всіх можливих поєднань змінних, обмежившись лише впливом кожної змінної окремо на приналежність образу до одного з класів.

Перевагою цього підходу є те, що вимоги до розміру вибірки скорочуються від експоненційних до лінійних. Недоліком — те, що модель є точною лише у випадку, коли виконується припущення про незалежність. В іншому випадку, щиро кажучи, обчислені ймовірності вже не є точними (і навіть більше того, їх сума може не дорівнювати одиниці, через що потрібно нормувати результат). Однак на практиці незначні відхилення від незалежності призводять лише до незначного зниження точності, і навіть у разі істотної залежності між змінними результат роботи класифікатора продовжує корелювати з істинною приналежністю образу до класів. При цьому переваги класифікатора (висока швидкість роботи, простота і масштабованість, помірні вимоги до пам'яті) часто переважують недоліки.

Див. також ред.

Література ред.

  • Domingos, Pedro & Michael Pazzani (1997) «On the optimality of the simple Bayesian classifier under zero-one loss». Machine Learning, 29:103-137. (also online at CiteSeer: [1])
  • Rish, Irina. (2001). «An empirical study of the naive Bayes classifier». IJCAI 2001 Workshop on Empirical Methods in Artificial Intelligence. (available online: PDF, PostScript)
  • Hand, DJ, & Yu, K. (2001). «Idiot's Bayes — not so stupid after all?» International Statistical Review. Vol 69 part 3, pages 385—399. ISSN 0306-7734.
  • Mozina M, Demsar J, Kattan M, & Zupan B. (2004). «Nomograms for Visualization of Naive Bayesian Classifier». In Proc. of PKDD-2004, pages 337—348.
  • Maron, M. E. (1961). «Automatic Indexing: An Experimental Inquiry.» Journal of the ACM (JACM) 8(3):404-417. (available online: PDF)
  • Minsky, M. (1961). «Steps toward Artificial Intelligence.» Proceedings of the IRE 49(1):8-30.
  • McCallum, A. and Nigam K. «A Comparison of Event Models for Naive Bayes Text Classification». In AAAI/ICML-98 Workshop on Learning for Text Categorization, pp. 41-48. Technical Report WS-98-05. AAAI Press. 1998. (available online: PDF)
  • Субботин С. В., Большаков Д. Ю. Применение байесовского классификатора для распознавания классов целей. // «Журнал Радиоэлектроники», 2006, № 4 (available online)