Медіа́на (англ. median) — в статистиці це величина ознаки, що розташована посередині ранжованого ряду вибірки[1], тобто — це величина, що розташована в середині ряду величин, розташованих у зростальному або спадному порядку[2]; в теорії ймовірності — характеристика розподілення випадкової величини.

Медіана ділить ряд значень ознаки на дві рівні частини, по обидві частини від неї розміщується однакова кількість одиниць сукупності.[1] Медіана є квантилем порядку 1/2. Позначається як або .

ВизначенняРедагувати

Медіаною функції розподілу   називається таке число  , що:[3]

 ,

або:[4]

 ,

тобто, ймовірність того, що випадкова величина матиме значення більше або менше за медіану однакова і дорівнює 1/2.

Якщо функція розподілу строго монотонна, то медіана визначається однозначно, в протилежному випадку, розв'язком рівняння   є відрізок  . З точки зору теорії ймовірностей, значення з цього відрізку можна не розглядати. Таким чином, неоднозначність цього рівняння неістотна. Аби уникнути пов'язаних з цієї неоднозначностей проблем, медіаною можна вважати найменший корінь рівняння:  .[3]

З геометричної точки зору, вертикальна пряма  , що проходить через точку з абсцисою   ділить площу фігури під кривою функції розподілу на дві рівні частини.[4]

Скінченна множина чиселРедагувати

Медіану скінченної множини чисел можна знайти впорядкувавши їх в порядку зростання, від найменшого числа до найбільшого.

Якщо кількість чисел непарна, обирається те що знаходиться по середині. Наприклад, нехай існує такий набір чисел

1, 3, 3, 6, 7, 8, 9

Цей список містить сім чисел. Медіаною є четверте із них, що є числом 6.

Якщо кількість спостережень парна, тоді не існує єдиного значення по середині; тоді медіану зазвичай визначають як середнє значення між двома числами по середині.[5][6] Наприклад, для наступного набору

1, 2, 3, 4, 5, 6, 8, 9

медіана є середнім значенням для двох чисел по середині: вона дорівнюватиме (4 + 5)/2, тобто 4.5 або  .

Для знаходження позиції середнього числа в вибірці із n послідовно впорядкованих чисел використовується формула (n + 1) ÷ 2. Ця формула повертає або позицію середнього числа (для непарної кількості значень) або знаходиться по середині між двома точками. Наприклад, при кількості в 14 значень, формула поверне 7.5, тоді медіану необхідно розраховувати як середнє значення між сьомим і восьмим значенням. Таким чином медіану можна представити наступною формулою:

 
Порівняння різних загальних середніх значень на прикладі вибірки вибірки { 1, 2, 2, 3, 4, 7, 9 }
Тип Опис Приклад Результат
Середнє арифметичне Сума всіх значень вибірки поділена на кількість цих елементів вибірки:   (1+2+2+3+4+7+9) / 7 4
Медіана Середнє значення, що відокремлює більшу половину і меншу половину вибірки 1, 2, 2, 3, 4, 7, 9 3
Мода Значення, що зустрічається у вибірці найчастіше 1, 2, 2, 3, 4, 7, 9 2

Найчастіше медіану застосовують для скошених (не симетричних) розподілів, де вона дозволяє підсумувати різницю від арифметичного середнього. Розглянемо мультимножину { 1, 2, 2, 2, 3, 14 }. В даному випадку медіана дорівнює 2, (так само як і мода), і її можна розглядати як більш придатний індикатор центральної тенденції (що менш чутливий до зміщення при наявності виключно великого значення серед даних) ніж арифметичне середнє, що дорівнює 4.

Медіана — дуже популярна міра підсумкової статистики, оскільки її просто зрозуміти і легко розрахувати, а також вона більш стійка до можливих наявних викидів у вибірці, в порівнянні із середнім значенням. Часто зустрічається твердження про емпіричний зв'язок між відносним знаходженням середнього значення і медіани для скошених розподілів, що насправді не є вірним в загальному випадку.[7] Однак, існує багато залежностей між абсолютною різницею між ними.

ІсторіяРедагувати

Поняття медіани походить з книги Едварда Райта про навігацію («Помилки в навігації» 1599 року), в розділі з приводу визначення розташування за допомогою компаса. Він зрозумів, що вірогідніше всього, це значення може бути правильним в серіях спостережень.

У 1757 році Роджер Джосеф Бошкович розвивав регресивний метод, заснований на нормі L1 і на медіані[8]. У 1774 році Лаплас запропонував використати медіану як стандартний оцінювач значення пізнішого pdf. Специфічні критерії мали мінімізувати очікувану величину помилки;   , де α* — оцінка, і α — справжня цінність.

Критерій Лапласа був загалом знехтуваний протягом 150 років на користь найменшого методу квадратів Гауса і Легенгре, який мінімізує значення  , щоб отримати середину[9]. Поширення як типового означення, так і типової медіани були визначені Лапласом на початку 1800 року[10]. Антуан Августин Курно в 1843 році був першим, хто використав термін «медіана», як значення, яке ділить розподіл вірогідності на дві рівні частини.

Густав Теодор Фішнер використовував медіану (Centralwerth) в соціологічних і психологічних явищах[11].

Густав Фішнер популяризував медіану у формальному аналізі даних, хоча це вперше зробив Лаплас[11]. Франциск Гальтон вжив англійський термін «медіана» в 1881 році,[12] раніше використовуючи «середина найбільшого значення» (1869 рік) і як «середина» в 1880 році.

Медіана варіаційного рядуРедагувати

Медіаною називають варіанту, що ділить варіаційний ряд на дві частини з рівною кількістю варіант. Якщо кількість варіант непарна ( ), то  , у випадку парної кількості варіант ( ), медіана дорівнює:[13]

 .

Наприклад, для ряду 2 3 5 6 7 медіана дорівнює 5; для ряду 2 3 5 6 7 9 медіана дорівнює (5 + 6)/2 = 5.5.

Розподіл імовірностейРедагувати

 
Геометрична візуалізація моди, медіани і середнього значення довільної функції густини імовірностей.[14]

Для будь-якого розподілу імовірностей в множині дійсних чисел R із кумулятивною функцією розподілу F, не залежно від того чи є це будь-яким з неперервних розподілів імовірності, зокрема абсолютно неперервний розподіл (що має функцію густини імовірності), або дискретний розподіл імовірностей, медіаною за визначенням є будь-яке дійсне число m яке задовольняє наступним нерівностям:

 

або, еквівалентні нерівності

 

в яких використовується інтеграл Лебега-Стілтьєса. Для будь-якого абсолютно неперервного розподілу імовірностей із функцією густини імовірностей ƒ, медіана задовольняє умовам:

 

Будь-який розподіл імовірностей в множині R має принаймні одну медіану, але в окремих випадках може існувати більше ніж одна медіана. Зокрема, якщо розподіл імовірностей дорівнює нулю в інтервалі [ab], а кумулятивна функція розподілу в точці a приймає значення 1/2, будь-яке значення між a і b також буде медіаною.

Медіани окремих розподілівРедагувати

Медіани певних типів розподілів можна легко розрахувати за допомогою їх параметрів; крім того, цей розрахунок існує навіть для деяких розподілів, яким бракує можливості добре визначити середнє, наприклад для розподілу Коші:

СукупностіРедагувати

Властивість оптимальностіРедагувати

Середня абсолютна похибка дійсної змінної c відносно випадкової величини X визначається як:

 

За умови, що розподіл імовірностей величини X є таким, що вищенаведене сподівання існує, тоді m є медіаною величини X тоді і тільки тоді, коли m мінімізує середню абсолютну похибку відносно X.[15] Зокрема, m є вибірковою медіаною, тоді і лише тоді, коли m мінімізує арифметичне середнє абсолютне відхилення.

У більш загальному випадку, медіана визначається як мінімум наступного виразу

 

Це визначення медіани на основі оптимізації є корисним у статистичному аналізі даних, наприклад, у кластеризації k-медіан.

Одномодальні розподілиРедагувати

 
Порівняння середнього, медіані і моди двох Логнормальних розподілів із різним коефіцієнтом асиметрії.

Для випадку із одномодальним розподілом можна показати що медіана   і середнє   знаходяться не далі ніж на величину (3/5)1/2 ≈ 0.7746 стандартних відхилень одне від одного.[16] У символьній формі це виглядає так:

 

де |·| це абсолютне значення.

Аналогічне відношення існує для медіани і моди: вони знаходяться в межах 31/2 ≈ 1.732 стандартних відхилень одна від одної:

 

Нерівність, що пов'язує середнє значення і медіануРедагувати

Якщо розподіл має скінченну дисперсію, тоді відстань між медіаною і середнім обмежена величиною одного стандартного відхилення.

Ця межа була доведена,[17] за допомогою подвійного використання нерівності Єнсена, як наведено далі. Маємо

 

Перша і третя нерівність були отримані з нерівності Єнсена, що застосована до функції із абсолютним значенням і квадратичної функції, кожна з яких є опуклою. Друга нерівність отримана з факту, що медіана мінімізує функцію абсолютного відхилення[en]

 

Також доведення можна отримати із нерівності Кантеллі[en].[18] Цей результат можна узагальнити аби отримати мультиваріативний варіант нерівності,[19] наступним чином:

 

де m є просторовою медіаною, яка мінімізує функцію   Просторова медіана є унікальною коли два або більшу кількість вимірів вибірки.[20][21] В аналогічному доведенні використовують односторонню нерівність Чебишова; вона з'являється у нерівності параметрів розташування і масштабу розподілу.

Медіана як об'єктивний оцінювачРедагувати

Гаус зауважив, що будь-який об'єктивний оцінювач мінімізує ризик (очікувану втрату) відносно функції помилкової втрати. На думку Лапласа, медіана, як об'єктивний оцінювач мінімізує ризик відносно функції втрати абсолютного відхилення. Інші функції втрати застосовують в статистичній теорії, особливо при перевірці статистичної надійності. Теорію об'єктивного оцінювача, започаткував Джордж Браун в 1947 році[22].

Оцінка одного розмірного параметра θ, буде об'єктивним оцінювачем для медіани, якщо, для сталої θ, медіана поширення оцінки знаходиться в значенні θ , тобто, відхилення трапляються не так часто.

Подальші властивості медіани, як об'єктивного оцінювача були досліджені[23][24][25][26]. Зокрема, медіана, як об'єктивний оцінювач існує у випадках, де неможливо максимуму вірогідності. Медіани, як об'єктивні оцінювачі інваріантні під один-до-одного, перетвореннями.

ПриміткиРедагувати

  1. а б Социологический энциклопедический словарь / Ред.-координатор Г. В. Осипов.-М., 1998. Архів оригіналу за 4 травня 2014. Процитовано 23 листопада 2010. 
  2. Медіана [Архівовано 4 травня 2014 у Wayback Machine.] — Розум.org.ua
  3. а б Козлов М. В., Прохоров А. В. (1987). Введение в математическую статистику. Изд-во МГУ. 
  4. а б Кремер Н. Ш. (2004). Теория вероятностей и математическая статистика. Юнити. ISBN 5-238-00573-3. 
  5. Weisstein, Eric W. Statistical Median(англ.) на сайті Wolfram MathWorld.
  6. Simon, Laura J.; "Descriptive statistics" [Архівовано 2010-07-30 у Wayback Machine.], Statistical Education Resource Kit, Pennsylvania State Department of Statistics
  7. Journal of Statistics Education, v13n2: Paul T. von Hippel. amstat.org. Архів оригіналу за 14 жовтня 2008. Процитовано 21 червня 2018. 
  8. Stigler, S. M. (1986). The History of Statistics: The Measurement of Uncertainty Before 1900. Harvard University Press. ISBN 0674403401.
  9. Jaynes, E.T. (2007). Probability theory: the logic of science (5. print. ed.). Cambridge [u.a.]: Cambridge Univ. Press. p. 172. ISBN 978-0-521-59271-0.
  10. Laplace PS de (1818) Deuxième supplément à la Théorie Analytique des Probabilités, Paris, Courcier.
  11. а б Keynes, J.M. (1921) A Treatise on Probability. Pt II Ch XVII § 5 (p 201) (2006 reprint, Cosimo Classics, ISBN 9781596055308 : multiple other reprints).
  12. Galton F (1881) «Report of the Anthropometric Committee» pp 245–260. Report of the 51st Meeting of the British Association for the Advancement of Science.
  13. Гмурман В. Е. (2003). Теория вероятностей и математическая статистика (вид. 9-те). Высшая школа. 
  14. AP Statistics Review - Density Curves and the Normal Distributions. Архів оригіналу за 2 квітня 2015. Процитовано 16 березня 2015. 
  15. Stroock, Daniel (2011). Probability Theory. Cambridge University Press. с. 43. ISBN 978-0-521-13250-3. 
  16. An Error Occurred Setting Your User Cookie. siam.org. Архів оригіналу за 29 квітня 2019. Процитовано 22 червня 2018. 
  17. Mallows, Colin (August 1991). Another comment on O'Cinneide. The American Statistician 45 (3): 257. doi:10.1080/00031305.1991.10475815. 
  18. K.Van Steen Notes on probability and statistics. Архів оригіналу за 2 лютого 2017. Процитовано 22 червня 2018. 
  19. Piché, Robert (2012). Random Vectors and Random Sequences. Lambert Academic Publishing. ISBN 978-3659211966. 
  20. Kemperman, Johannes H. B. (1987). The median of a finite measure on a Banach space: Statistical data analysis based on the L1-norm and related methods. У Dodge, Yadolah. Papers from the First International Conference held at Neuchâtel, August 31–September 4, 1987 (Amsterdam: North-Holland Publishing Co.): 217–230. MR 949228. 
  21. Milasevic, Philip; Ducharme, Gilles R. (1987). Uniqueness of the spatial median. Annals of Statistics 15 (3): 1332–1333. MR 902264. doi:10.1214/aos/1176350511. 
  22. Brown, George W. (1947). «On Small-Sample Estimation». Annals of Mathematical Statistics 18 (4): 582–585. doi:10.1214/aoms/1177730349. JSTOR 2236236.
  23. Lehmann, Erich L. (1951). «A General Concept of Unbiasedness». Annals of Mathematical Statistics 22 (4): 587–592. doi:10.1214/aoms/1177729549.JSTOR 2236928.
  24. Birnbaum, Allan (1961). «A Unified Theory of Estimation, I». Annals of Mathematical Statistics 32 (1): 112–135. doi:10.1214/aoms/1177705145. JSTOR 2237612.
  25. van der Vaart, H. Robert (1961). «Some Extensions of the Idea of Bias». Annals of Mathematical Statistics 32 (2): 436–447. doi:10.1214/aoms/1177705051.JSTOR 2237754. MR 125674.
  26. Pfanzagl, Johann; with the assistance of R. Hamböker (1994). Parametric Statistical Theory. Walter de Gruyter. ISBN 3-11-013863-8. MR 1291393.

Див. такожРедагувати

ПосиланняРедагувати