Валідність (статистика)

Валідність — це основна міра, якою концепція, висновок або вимір є обґрунтованими і, ймовірно, точно відповідають реальному світу.[1][2] Слово «валідний» походить від латинського validus, що означає «сильний». Валідність інструменту вимірювання (наприклад, тесту в освіті) — це міра, в якому інструмент вимірює те, що, як і стверджує, вимірює.[3] Валідність ґрунтується на міцності набору різних типів доказів (наприклад, очевидна валідність, конструктивна валідність тощо), які більш детально описані нижче.

У психометрії валідність має особливе застосування, відоме як валідність тесту: «міра, в якій докази та теорія підтверджують інтерпретації результатів тестів» («що випливає з запропонованого використання тестів»).[4]

Загальновизнано, що концепція наукової валідності розглядає природу реальності в термінах статистичних вимірювань і є епістемологічним і філософським питанням, а також питанням вимірювання. Використання терміну в логіці є більш вузьким, пов'язаним із зв'язком між передумовою та висновком аргументу. У логіці валідність відноситься до властивості аргументу, відповідно до якого, якщо передумови істинні, то істинність висновку випливає з необхідності. Висновок аргументу є істинним, якщо аргумент обґрунтований, тобто якщо аргумент дійсний і його передумови істинні. Навпаки, «наукова чи статистична валідність» — це не дедуктивне твердження, яке обов'язково зберігає істину, а індуктивне твердження, яке залишається істинним чи хибним у невизначений спосіб. Ось чому «наукова або статистична валідність» — це твердження, яке кваліфікується як сильне або слабке за своєю природою, воно ніколи не є необхідним і безумовно правдивим. Це призводить до того, що заяви про «наукову або статистичну валідність» стають відкритими для тлумачення щодо того, що насправді означають факти.

Валідність важлива, оскільки вона може допомогти визначити, які типи тестів використовувати, і переконатися, що дослідники використовують методи, які є не тільки етичними та економічно ефективними, але й методами, які дійсно вимірюють ідею чи логічні побудови, про які йдеться.

Валідність тесту ред.

Валідність (точність) ред.

Валідність[5] оцінки — це міра, якою вона вимірює те, що повинна вимірювати. Це не те саме, що надійність[en], тобто ступінь, в якій вимірювання дає дуже стабільні результати. У межах дійсності вимірювання не завжди має бути подібним, як щодо надійності. Однак лише тому, що міра є надійною, вона не обов'язково є дійсною. Наприклад, ваги, які відхиляються від стандарту ваги у 2 кг, є надійними, але невалідними. Тест не може бути валідним, якщо він не надійний. Валідність також залежить від вимірювання, яке вимірює те, для чого воно було розроблено, а не щось інше.[6] Валідність (подібно до надійності) — поняття відносне; валідність не є ідеєю «все або нічого». Існує багато різних типів валідності.

Конструктивна валідність ред.

Конструктивна валідність[en] стосується міри, в якій операційні дії конструкції (наприклад, практичні тести, розроблені на основі теорії) вимірюють конструкцію, як це визначено теорією. Вона охоплює всі інші типи валідності. Наприклад, міра, в якій тест вимірює інтелект, є питанням конструктивної валідності. Міра інтелекту припускає, серед іншого, що міра пов'язана з речами, з якими вона повинна бути пов'язана (конвергентна валідність[en]), а не пов'язана з речами, з якими вона не повинна бути пов'язана (дискримінантна валідність[en]).[7]

Докази конструктивної валідності включають емпіричну та теоретичну підтримку для інтерпретації конструкції. Такі лінії доказів включають статистичний аналіз внутрішньої структури тесту, включаючи зв'язки між відповідями на різні завдання тесту. Вони також включають зв'язки між тестом і показниками інших конструкцій. Як розуміється в даний час, конструктивна валідність не відрізняється від підтримки змістовної теорії конструкції, для вимірювання якої призначений тест. Таким чином, експерименти, спрямовані на виявлення аспектів причинно-наслідкової ролі конструкції, також сприяють створенню доказів валідності.[7]

Змістовна валідність ред.

Змістовна валідність[en] — це нестатистичний тип валідності, який передбачає «систематичне дослідження змісту теста, щоб визначити, чи охоплює він репрезентативну вибірку досліджуваної області поведінки» (Anastasi & Urbina, 1997 p. 114). Наприклад, чи містить опитувальник IQ пункти, що охоплюють усі галузі інтелекту, які обговорюються в науковій літературі?

Підтвердження валідності змісту передбачає міру відповідності змісту тесту домену, пов'язаному з конструкцією. Наприклад, тест на вміння складати два числа повинен включати ряд комбінацій цифр. Тест лише з однозначними чи парними числами не матиме належного покриття предметної області. Докази, пов'язані з вмістом, зазвичай включають експерта з предметної області, який оцінює елементи тесту відповідно до специфікацій тесту. Експерти повинні звернути увагу на будь-які культурні відмінності. Наприклад, коли анкета для оцінки водіння береться з Англії, експерти повинні звернути увагу на правостороннє керування у Великій Британії. Деякі дослідження виявили, що це буде критично важливо для отримання дійсної анкети.[8] Перш ніж перейти до остаточного заповнення анкет, дослідник повинен перевірити валідність елементів щодо кожної конструкції або змінної та відповідно змінити інструменти вимірювання на основі думки експерта з предметної області.

Тест має валідність вмісту, вбудовану в нього шляхом ретельного вибору елементів, які потрібно включити (Anastasi & Urbina, 1997). Елементи вибираються таким чином, щоб вони відповідали специфікаціям тесту, які складаються шляхом ретельного вивчення предметної області (Foxcroft, Paterson, le Roux & Herbst (2004, стор. 49))[9]. Експерти зможуть переглянути елементи та прокоментувати, чи охоплюють елементи репрезентативну вибірку домену поведінки.

Очевидна валідність ред.

Очевидна валідність[en] — це оцінка того, чи тест вимірює певний критерій; це не гарантує, що тест дійсно вимірює явища в цій області. Вимірювання можуть мати високу валідність, але коли тест, здається, не вимірює те, для вимірювання чого він створювався, то він має низьку очевидну валідність. Справді, коли тест піддається фальшуванню (симуляції), низька очевидна валідність може зробити тест більш достовірним. Враховуючи, що можна отримати більш коректні відповіді з нижчою очевидною валідністю, іноді важливо створити враження, ніби існує низька валідність при застосуванні вимірювань.

Очевидна валідність дуже тісно пов'язана з вмістовною валідністю. У той час як валідність вмісту залежить від теоретичної основи для припущення, чи тест оцінює всі сфери певного критерію (наприклад, чи дає оцінка навичок додавання хорошу оцінку математичним навичкам? Щоб відповісти на це питання, вам слід знати, які різні види арифметичних навичок включають математичні навички) очевидна валідність пов'язана з тим, чи є тест хорошим показником чи ні. Це судження робиться на «обличчі» тесту, тому його також може оцінити аматор.

Очевидна валідність є відправною точкою, але її ніколи не можна вважати вірогідною для будь-якої конкретної мети, оскільки «експерти» помилялися раніше — Malleus Malificarum (Молот відьом) не мав жодної підтримки для своїх висновків, окрім самооцінки, явна компетентність двох «експертів» у «виявленні чаклунства», але це було використано як «випробування» для засудження та спалення на вогнищі десятків тисяч чоловіків і жінок як «відьом».[10]

Критеріальна валідність ред.

Критеріальна валідність[en] передбачає кореляцію між тестом і змінною критерію (або змінними), прийнятими як репрезентативні для конструкції. Іншими словами, він порівнює тест з іншими показниками або результатами (критеріями), які вже вважаються валідними. Наприклад, тести відбору співробітників часто перевіряють показники продуктивності роботи (критерій), а тести IQ — показники академічної успішності (критерій).

Якщо дані тестування та дані критеріїв збираються одночасно, це називається одночасним доказом валідності. Якщо тестові дані збираються спочатку для того, щоб передбачити дані критеріїв, які будуть зібрані пізніше, — це називається доказом прогностичної валідності.

Узгоджена валідність ред.

Узгоджена валідність[en] означає ступінь, в якому операціоналізація корелює з іншими показниками тієї самої конструкції, які вимірюються одночасно. Коли показник порівнюється з іншим показником того самого типу, вони будуть пов'язані (або корельовані). Повертаючись до прикладу тесту відбору, це означало б, що тести проводяться для поточних співробітників, а потім співвідносяться з їхніми оцінками відносно продуктивності.

Прогностична валідність ред.

Прогностична валідність[en] означає міру, в якій операціоналізація може передбачити (або співвіднести з) інші показники тієї самої конструкції, які будуть виміряні в якийсь час у майбутньому. Знову ж таки, у прикладі тесту відбору це означало б, що тести проводяться для претендентів, усіх кандидатів приймають на роботу, їх результати перевіряються пізніше, а потім їхні бали за двома показниками співвідносяться.

Прогностична валідність — це також коли вимірювання передбачає зв'язок між тим, що вимірюється, та чимось іншим; передбачення того, чи відбудеться інша річ у майбутньому. Висока кореляція між очікуваними прогнозованими та фактичними результатами є найвагомішим доказом валідності.

Експериментальна валідність ред.

Валідність ідей експериментальних досліджень є фундаментальною частиною наукового методу[2] і питанням дослідницької етики. Без валідних ідей неможливо зробити дійсні наукові висновки.

Валідність статистичного висновку ред.

Валідність статистичного висновку[en] — це міра, в якій висновки про взаємозв'язки між змінними, заснованими на даних, є правильними або «обґрунтованими». Спочатку це сталося виключно з тим, що був перевірений статистичний висновок про взаємозв'язки змінних, але тепер спостерігається рух до «розумних» висновків, в яких використовуються: кількісні, статистичні та якісні дані.[11]

Валідність статистичних висновків включає забезпечення використання адекватних процедур вибірки, відповідних статистичних тестів і надійних процедур вимірювання.[12] Оскільки цей тип валідності пов'язаний виключно зі зв'язком між змінними, зв'язок може бути виключно кореляцією.

Внутрішня валідність ред.

Внутрішня валідність — це індуктивна оцінка ступеня, в якій можна зробити висновки щодо причинно-наслідкових зв'язків, заснованих на використаних показниках, умовах дослідження і всього плану в цілому. Хороші експериментальні методи, у яких вплив незалежної змінної на залежну змінну вивчається в строго контрольованих умовах, зазвичай дозволяють досягти вищого рівня внутрішньої валідності, ніж, наприклад, плани для одного випадку.

Вісім типів змішувальних змінних можуть заважати внутрішній валідності (тобто спробі відокремити причинно-наслідкові зв'язки):

  1. Історія — конкретні події, що відбуваються між першим і другим вимірюванням на додаток до експериментальних змінних.
  2. Дозрівання — процеси всередині учасників як функція плину часу (не специфічно для конкретних подій), наприклад, старіння, голодування, більша втома тощо.
  3. Тестування — вплив проходження тесту на результати другого тестування.
  4. Прилади — зміни в калібруванні вимірювального інструменту або зміни в спостерігачах чи самописцях можуть викликати зміни в отриманих вимірюваннях.
  5. Статистична регресія — відбір на основі крайніх показників.
  6. Відбір — систематичні помилки, що виникають у результаті диференційованого відбору респондентів до груп порівняння.
  7. Експериментальна смертність — диференціальна втрата респондентів із груп порівняння.
  8. Взаємодія відбору та дозрівання — проявляється у багатогрупових квазіекспериментальних планах.

Зовнішня валідність ред.

Зовнішня валідність — це міра, в якій (внутрішньо дійсні) результати дослідження можна вважати вірними для інших випадків, наприклад, для інших людей, місць або часу. Іншими словами, мова йде про те, чи можна результати обґрунтовано узагальнити. Якби те саме дослідження було проведено в інших випадках, чи отримало б воно такі ж результати?

Основним фактором у цьому є те, чи є вибірка дослідження (наприклад, учасники дослідження) репрезентативною для загальної сукупності за відповідними параметрами. Інші фактори, що загрожують зовнішній валідності:

  1. Реактивний або взаємодіючий ефект тестування — попередній тест може збільшити бали після тесту.
  2. Ефекти взаємодії відхилень відбору та експериментальної змінної.
  3. Реактивні ефекти експериментальних заходів — узагальнення щодо впливу експериментальної змінної на людей, які піддаються її впливу в неекспериментальних умовах.
  4. Втручання, пов'язане з кількома обробками — явище, коли наслідки попередніх обробок неможливо стерти.

Екологічна валідність ред.

Екологічна валідність — це міра, в якій результати дослідження можна застосувати до ситуацій реального життя за межами дослідницьких умов. Це питання тісно пов'язане із зовнішньою валідністю, але охоплює питання про те, якою мірою експериментальні результати відображають те, що можна спостерігати в реальному світі (екологія = наука про взаємодію між організмом і його середовищем). Щоб бути екологічно валідними, методи, матеріали та налаштування дослідження мають наближатися до реальної життєвої ситуації, яка досліджується.

Екологічна валідність частково пов'язана з проблемою експерименту та спостереження. Як правило, у науці існує дві сфери дослідження: спостережна (пасивна) та експериментальна (активна). Метою планів експериментів є перевірка причинно-наслідкового зв'язку, щоб ви могли зробити висновок, що А викликає Б або Б викликає А. Але іноді етичні та/або методологічні обмеження заважають вам провести експеримент (наприклад, як ізоляція впливає на когнітивне функціонування дитини?). Тоді ви все ще можете проводити дослідження, але воно є не причинно-наслідковим, а кореляційним. Ви можете лише зробити висновок, що A відбувається разом із Б. Обидва методи мають свої сильні та слабкі сторони.

Відношення до внутрішньої валідності ред.

На перший погляд, здається, що внутрішня та зовнішня валідність суперечать одна одній — щоб отримати план експерименту, вам потрібно контролювати всі заважаючі змінні, тому ви часто проводите свій експеримент у лабораторних умовах. Здобуваючи внутрішню валідність (виключаючи заважаючі змінні, зберігаючи їх постійними), ви втрачаєте екологічну або зовнішню валідність, оскільки створюєте штучні лабораторні умови. З іншого боку, за допомогою спостережних досліджень ви не можете контролювати заважаючі змінні (низька внутрішня валідність), але ви можете вимірювати в природному (екологічному) середовищі, у місці, де зазвичай відбувається поведінка. Однак, роблячи це, ви жертвуєте внутрішньою достовірністю.

Проте очевидне протиріччя між внутрішньою і зовнішньою валідністю є лише поверхневим. Питання про те, чи результати конкретного дослідження поширюються на інших людей, місця чи часи, виникає лише тоді, коли хтось дотримується стратегії індуктивістського дослідження. Якщо метою дослідження є дедуктивна перевірка теорії, ми маємо справу лише з факторами, які можуть підірвати точність дослідження, тобто загрозою внутрішній валідності. Іншими словами, релевантність зовнішньої та внутрішньої валідності для дослідження залежить від цілей дослідження. Крім того, змішування дослідницьких цілей із питаннями валідності може призвести до проблеми взаємної внутрішньої валідності, коли теорії здатні пояснити лише явища в штучних лабораторних умовах, але не реальний світ.[13][14]

Діагностична валідність ред.

У психіатрії існує особлива проблема з оцінкою валідності самих діагностичних категорій[en]. У цьому контексті:

  • валідність вмісту може стосуватися симптомів і діагностичних критеріїв;
  • узгоджена валідність може визначатися різними корелятами або маркерами, а також, можливо, відповіддю на лікування;
  • прогностична валідність може стосуватися головним чином діагностичної стабільності в часі;
  • дискримінантна валідність може включати відмежування від інших розладів.

У 1970 році Робінс і Гузе запропонували те, що мало стати впливовими формальними критеріями для встановлення достовірності психіатричних діагнозів. Вони перерахували п'ять критеріїв:[15]

  • чіткий клінічний опис (включаючи профілі симптомів, демографічні характеристики та типові провокатори)
  • лабораторні дослідження (включаючи психологічні тести, рентгенологію та патологоанатомічні дослідження)
  • відмежування від інших розладів (за допомогою критеріїв виключення)
  • подальші дослідження, що демонструють характерний перебіг (включаючи докази діагностичної стабільності)
  • сімейні дослідження, що демонструють групування сімей

Вони були включені до критеріїв Фейгнера[en] та діагностичних критеріїв дослідження[en], які з тих пір лягли в основу систем класифікації DSM та ICD.

Кендлер у 1980 році розрізняв:[15]

  • антецедентні валідатори (сімейна агрегація, преморбідна особистість і провокаційні фактори)
  • паралельні валідатори (включаючи психологічні тести)
  • прогностичні валідатори (послідовність діагностики в часі, частота рецидивів і одужань, відповідь на лікування)

Ненсі Андреасен[en] (1995) перерахувала кілька додаткових валідаторів — молекулярна генетика та молекулярна біологія, нейрохімія, нейроанатомія[en], нейрофізіологія та когнітивна нейронаука — усі вони потенційно здатні пов'язувати симптоми та діагнози з їхніми нейронними субстратами.[15]

Кендалл і Яблонскі (2003) підкреслили важливість розрізнення між валідністю та корисністю і стверджували, що діагностичні категорії, визначені їхніми синдромами, слід вважати валідними, лише якщо було показано, що вони є окремими сутностями з природними межами, які відокремлюють їх від інших розладів.[15]

Кендлер (2006) підкреслив, що для того, щоб бути корисним, критерій валідації повинен бути достатньо чутливим, щоб підтвердити більшість синдромів, які є справжніми розладами, і водночас бути достатньо конкретним, щоб визнати недійсними більшість синдромів, які не є справжніми розладами. Виходячи з цього, він стверджує, що критерій Робінса та Ґюза щодо «спадковості» є недостатньо конкретним, оскільки більшість психологічних і фізичних рис людини підпадають під нього, наприклад, довільний синдром, що включає суміш «ріст понад 183 см, руде волосся і великий ніс» буде виявлено, що він «передається в родині» і є «спадковим», але це не слід вважати доказом того, що це розлад. Крім того, Кендлер припустив, що «есенціалістські» генні моделі психічних розладів і надія на те, що ми зможемо підтвердити категоричні психіатричні діагнози виключно в результаті відкриття генів, неправдоподібні.[16]

У Федеральній судовій системі Сполучених Штатів валідність і надійність доказів оцінюється за стандартом Daubert. Перрі та Ліхтенвальд (2010) є відправною точкою для обговорення широкого кола питань надійності та валідності в їх аналізі протиправного засудження за вбивство.[17]

Див. також ред.

Список літератури ред.

  1. Brains, Willnat, Manheim, Rich 2011. Empirical Political Analysis 8th edition. Boston, MA: Longman p. 105
  2. а б Campbell, Donald T. (1957). Factors relevant to the validity of experiments in social settings. Psychological Bulletin (англ.). 54 (4): 297—312. doi:10.1037/h0040950. ISSN 1939-1455. PMID 13465924.
  3. Kelley, Truman Lee (1927). Interpretation of Educational Measurements. Yonkers-on-Hudson, NY: World Book Company. с. 14. The problem of validity is that of whether a test really measures what it purports to measure...
  4. American Educational Research Association, Psychological Association, & National Council on Measurement in Education. (1999). Standards for Educational and Psychological Testing. Washington, DC: American Educational Research Association.
  5. National Council on Measurement in Education. http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorV [Архівовано 2017-07-22 у Wayback Machine.]
  6. Kramer, Geoffrey P., Douglas A. Bernstein, and Vicky Phares. Introduction to clinical psychology. 7th ed. Upper Saddle River, NJ: Pearson Prentice Hall, 2009. Print.
  7. а б Cronbach, Lee J.; Meehl, Paul E. (1955). Construct validity in psychological tests. Psychological Bulletin. 52 (4): 281—302. doi:10.1037/h0040957. ISSN 0033-2909. PMID 13245896. S2CID 5312179. {{cite journal}}: |hdl-access= вимагає |hdl= (довідка)
  8. Arghami, Shirazeh; Sadeghi, Gholamreza; Abbasi Chenari, Mohsen (2020). Psychometric properties re-evaluation of the Persian version of Manchester driving behavior questionnaire. Iran Occupational Health. 17 (8): 1—19.
  9. Foxcroft, C., Paterson, H., le Roux, N., & Herbst, D. Human Sciences Research Council, (2004). 'Psychological assessment in South Africa: A needs analysis: The test use patterns and needs of psychological assessment practitioners: Final Report: July. Retrieved from website: http://www.hsrc.ac.za/research/output/outputDocuments/1716_Foxcroft_Psychologicalassessmentin%20SA.pdf
  10. The most common estimates are between 40,000 and 60,000 deaths. Brian Levack (The Witch Hunt in Early Modern Europe) multiplied the number of known European witch trials by the average rate of conviction and execution, to arrive at a figure of around 60,000 deaths. Anne Lewellyn Barstow (Witchcraze) adjusted Levack's estimate to account for lost records, estimating 100,000 deaths. Ronald Hutton (Triumph of the Moon) argues that Levack's estimate had already been adjusted for these, and revises the figure to approximately 40,000.
  11. Cozby, Paul C.. Methods in behavioral research. 10th ed. Boston: McGraw-Hill Higher Education, 2009. Print.
  12. Jonathan Javid (6 листопада 2015). Measurement validity and reliability. slideshare.net. Процитовано 23 березня 2018.
  13. Lin, Hause; Werner, Kaitlyn M.; Inzlicht, Michael (16 лютого 2021). Promises and Perils of Experimentation: The Mutual-Internal-Validity Problem. Perspectives on Psychological Science (англ.). 16 (4): 854—863. doi:10.1177/1745691620974773. ISSN 1745-6916. PMID 33593177.
  14. Schram, Arthur (1 червня 2005). Artificiality: The tension between internal and external validity in economic experiments. Journal of Economic Methodology. 12 (2): 225—237. doi:10.1080/13501780500086081. ISSN 1350-178X.
  15. а б в г Kendell, R; Jablensky, A (2003). Distinguishing between the validity and utility of psychiatric diagnoses. The American Journal of Psychiatry. 160 (1): 4—12. doi:10.1176/appi.ajp.160.1.4. PMID 12505793.
  16. Kendler, KS (2006). Reflections on the relationship between psychiatric genetics and psychiatric nosology. The American Journal of Psychiatry. 163 (7): 1138—46. doi:10.1176/appi.ajp.163.7.1138. PMID 16816216.
  17. Perri, FS; Lichtenwald, TG (2010). The Precarious Use Of Forensic Psychology As Evidence: The Timothy Masters Case (PDF). Champion Magazine (July): 34—45.