Відбір вибірки (статистика)

В математичній статистиці, забезпеченні якості, методології опитування відбір вибірки (або вибирання, англ. sampling) — це вибирання підмножини (статистичної вибірки) об'єктів із генеральної сукупності з метою оцінювання характеристик генеральної сукупності в цілому. Двома головними перевагами відбирання є те, що, порівняно з обмірюванням всієї генеральної сукупності, витрати на вибірці є нижчими, і збирання даних є швидшим.

Кожне спостереження є вимірюванням однієї або декількох властивостей (таких як вага, положення, колір) об'єктів спостереження, які розрізняють як незалежні об'єкти або особи. У вибиранні для обстеження^[en], щоби підлаштуватися до дизайну вибирання, зокрема, стратифікованого вибирання, до даних можуть застосовуватися ваги.^[1] Для ведення цієї діяльності застосовуються результати з теорії ймовірностей та теорії статистики. Відбирання широко застосовують для збирання інформації про населення в бізнесових та медичних дослідженнях.^[2] Для визначення того, чи виробнича партія матеріалу відповідає нормативним вимогам, застосовують вибіркове обстежування^[en].

Опис

Метод відбору вибірки також є ефективним для пов'язання статистичних властивостей вибірки з цілями моделювання, число яких може бути досить великим.

Н. Н. Чубуков наводить наступний приклад^[3]. Нехай випадковий процес представлений вибіркою об'єму $N:X(t_{1}),X(t_{2}),...,X(t_{N}).$ Необхідно вирішити три завдання:

Виконати умовно довгостроковий прогноз для $X(t_{N+10});$
Виконати умовно короткостроковий прогноз для $X(t_{N+1});$
Визначити функцію $X=X(t)$ для відновлення значення $X$ в будь-якій точці всередині вибірки

Якщо взяти для моделювання традиційний підхід, орієнтований на єдиність опису статистичних властивостей процесу, то результатом будуть три абсолютно однакові функції. Справа в тому, що правилом розрахунку критерію якості моделі не враховувалися суттєві деталі: глибина прогнозу, характер статистичних трендів випадкового процесу, представленого вибірковими даними, і зовсім ігнорується цільова специфіка завдань.

Принцип різноманітності

Виходом з даного ускладнення може стати використання системного принципу різноманітності. Цей принцип в останні три десятиліття все більш активно впроваджується в інженерні додатки математичної статистики завдяки розробці таких методів перехресних валідації даних, як бутстреп-аналіз, метод групового обліку аргументів^[4] та ін. Прояв принципу різноманітності в рішеннях статистичних задач полягає в тому, що на незнання імовірнісних властивостей вихідних даних алгоритм відповідає різноманітністю моделей, які генеруються, кожна з яких підлягає крос-перевірці за певною єдиною для всіх моделей схемою.

Завдання

Таким чином, відбір вибірки є сучасним методом, який може виявитися ефективним для ряду інженерних додатків математичної статистики, особливо, пов'язаних з розв'язанням обернених задач. Відбір вибірки реалізує принцип різноманітності і може узагальнювати весь спектр засобів статистичного аналізу, заснований на управлінні вихідними даними. Під відбором вибірки розуміється набір прийомів для розділення початкової вибірки на робочі та контрольні ділянки за певними правилами. На робочих ділянках виконується розрахунок параметрів «конкуруючих» моделей, на контрольних оцінюється їх здатність відновлювати значення, які не використовувалися для розрахунку параметрів. Відбір вибірки усуває основну перешкоду, яка об'єктивно присутня в обернених задачах. ЇЇ причина криється у неможливості встановлення строгого математичного зв'язку між варіюючим параметром і величиною критерію. При цьому відбір вибірки автоматично переводить алгоритм структурно-параметричної ідентифікації моделі в розряд евристичних.

Стосовно вищенаведеного прикладу, першому випадку — «довгої» екстраполяції за межі вибірки, відповідає варіант відбору вибірки з виключенням з розрахунків параметрів моделі десяти останніх вибіркових значень поспіль. Контрольним буде десятий відлік. Робоча підвибірка складе всі значення, за винятком цієї десятки. Потім альтернативним перебором визначається найкраща модель, яка точніше інших спрогнозувала контрольну точку. Зміною положення виключених відліків, без порушення їх числа і нерозривності, формується статистика нев'язок, застосовна для розрахунку критерію. Алгоритм як би «екзаменує» моделі екстраполяції на задану глибину, і вибирає з них ту, яка найбільш точно вловлює тренди, які містять інформацію про значення на лагу довжиною в десять відліків.

Другому завданню буде відповідати відбір вибірки з виключенням із розрахунків по одній контрольній точці, з комбінуванням кількості та порядку попередніх значень, які враховуються для прогнозу.

У третьому завданні буде виправдано дроблення вибірки на взаємопроникні блоки, коли контрольні значення «вкраплені» між робітниками. Довжина таких блоків і глибина їх взаємопроникнення повинна враховувати інтервали між сусідніми точками діапазону, необхідні стійкість і точність оцінок. Так, третій задачі може відповідати виключення із розрахунків кожного третього відліку вибірки та застосування виключених даних для контролю з циклічним перепризначенням контрольних і робочих підвибірок.

Переваги

Вибір варіантів вибірки неоднозначний і визначається на основі досвіду і знань оператора про властивості вихідних даних, мети розв'язуваної задачі, а також може підбиратися або уточнюватися експериментально. Кількість прийнятних способів розбиття діапазону на порядки перевершує обсяг вибірки, і дає достатню різноманітність засобів для вираження корисності моделей. Відбір вибірки може виявитися ефективним у вирішенні зворотних задач, оскільки він є:

альтернативою морально застарілого параметричного способу перевірки гіпотез про належність даних теоретичного розподілу;
евристичним і відкритим по відношенню до оператора, вибирає із заданого набору варіант вибору вибірки, відповідний специфіці завдання;
середовищем формування нормованих критеріальних функцій, зручних для моделювання мети, статистичної коригування мети, і кількісно відбиває близькість до неї;
засобом побудови емпіричних розподілів, що дозволяє накопичувати статистику, визначати або уточнювати варіант вибірки та оцінювати достовірність результатів;
економічно перспективним, здатним виділяти найменший достатній для конкретної розв'язуваної задачі набір вибіркових даних з діапазону, що є цікавим з точки зору зниження витрат;
підвищує інтелектуальність систем управління за рахунок надання їм системних властивостей доцільності, цілісності, раціональності, ієрархічності, самоорганізації і достатньої різноманітності.

Види вибірки

Вибірка за значимістю
Вибірка з відхиленням
Районована вибірка
Алгоритм Метрополіса — Гастінгса

Примітки

↑ Lance, P. & Hattori, A. (2016). Sampling and Evaluation. Web: MEASURE Evaluation. с. 6—8, 62—64. Архів оригіналу за 26 листопада 2020. Процитовано 17 липня 2018.
↑ Salant, Priscilla, I. Dillman, and A. Don. How to conduct your own survey. No. 300.723 S3. 1994.
↑ Чубуков Н. Н. Алгоритмизация калибровок мехатронных систем с использованием семплинга // Мехатроника, автоматизация, управление. 2013. № 7.
↑ Ивахненко, 1971.

Література

(рос.)Чубуков Н. Н. Алгоритмизация калибровок мехатронных систем с использованием сэмплинга. Мехатроника, автоматизация, управление. 2013 г., № 7.
(рос.)Эфрон Б. Нетрадиционные методы многомерного статистического анализа: Сб. статей: Пер. с англ./ Предисловие Ю. П. Адлера, Ю. А. Кошевника. — М.: Финансы и статистика, 1988.- 263 с. ил.
(рос.)Ивахненко А. Г. Системы эвристической самоорганизации в технической кибернетике. — Киев: Техника, 1971. — 327 с.

[1] Lance, P. & Hattori, A. (2016). Sampling and Evaluation. Web: MEASURE Evaluation. с. 6—8, 62—64. Архів оригіналу за 26 листопада 2020. Процитовано 17 липня 2018.

[2] Salant, Priscilla, I. Dillman, and A. Don. How to conduct your own survey. No. 300.723 S3. 1994.

[3] Чубуков Н. Н. Алгоритмизация калибровок мехатронных систем с использованием семплинга // Мехатроника, автоматизация, управление. 2013. № 7.

[4] Ивахненко, 1971.

[1]

[2]

[3]

[4]