Розвідковий аналіз даних

Розвідковий аналіз даних (РАД) (англ. Exploratory data analysis - EDA) — попередній аналіз даних з метою виявлення найзагальніших закономірностей та тенденцій, характеру та властивостей даних аналізу, законів розподілу величин, які аналізуються.

РАД використовується для знаходження зв'язків між змінними в ситуаціях, коли відсутні (або недостатні) апріорні уявлення щодо природи цих зв'язків. Як правило, при розвідковому аналізі враховується та порівнюється велика кількість змінних, а для пошуку закономірностей використовуються значна кількість методів.

Термін «розвідковий аналіз» був введений математиком з Принстонського університету Дж. Тьюкі.

Цілі РАД ред.

Основні цілі розвідкового аналізу:

  • максимальне «проникнення» в дані
  • виявлення основних структур
  • вибір найвагоміших змінних
  • виявлення відхилень та аномалій
  • перевірка основних гіпотез (припущень)
  • розробка початкових моделей

Методи РАД ред.

До основних методів розвідкового аналізу даних відносять:

Перевірка результатів РАД ред.

Попереднє дослідження даних може бути лише першим етапом їх аналізу, і поки результати не будуть підтверджені на інших вибірках або на незалежній множині даних, їх слід сприймати щонайбільше як гіпотезу. Якщо результати розвідкового аналізу свідчать на користь певної моделі, то її справедливість можна потім перевірити, застосувавши її до нових даних.

Результати розвідкового аналізу не використовуються для вироблення управлінських рішень. Їхнє призначення — допомога в розробці найкращої стратегії поглибленого аналізу, висування гіпотез, уточнення особливостей застосування тих чи інших математичних методів та моделей.

Посилання ред.

Джерела ред.

  • Тьюки Д. Анализ результатов наблюдений. Разведочный анализ, М.: Мир, 1981.-697 с.