Добування даних

Добува́ння да́них (англ. data mining), також глиби́нний ана́ліз да́них^{[джерело?]} — процес напівавтоматичного аналізу великих баз даних з метою пошуку корисних фактів^[1]. Зазвичай поділяють на задачі класифікації, моделювання та прогнозування.^{[джерело?]}

На сучасних підприємствах, в дослідницьких проєктах або в інтернеті утворюються великі обсяги даних. Глибинний аналіз даних здійснюється автоматично шляхом застосування методів математичної статистики, штучних нейронних мереж, теорії нечітких множин або генетичних алгоритмів. Метою аналізу є виявлення правил та закономірностей, наприклад, статистичних подій. Так, наприклад, можливо виявити зміни у поведінці клієнтів або груп клієнтів для покращення стратегії підприємства.

Задачі

Методи розв'язання

Нейронні мережі

Докладніше: Штучна нейронна мережа

Штучні нейронні мережі названі на основі схожості їхньої будови із нейронними зв'язками мозку людини. Дозволяють реалізовувати задачі кластеризації, класифікації, прогнозування. Після створення основ теорії нейронних мереж, вони зазнали значної критики і вважалося, що вони малопридатні для сфери штучного інтелекту. Проте відновленню інтересу до штучних нейронних мереж сприяв розвиток комп'ютерів та успіх в теоретичних та прикладних дослідженнях.^[2]

Дерева рішень

Докладніше: Дерево ухвалення рішень

Метод для розв'язання задачі класифікації. Результатом застосування цього методу до навчального матеріалу є ієрархічна структура правил типу «якщо … тоді … інакше …». Ця структура має вигляд дерева. Для визначення приналежності об'єкта до одного з класів слід надавати відповіді на запитання, що знаходяться у вершинах цього дерева. Розпочавши з кореня дерева, алгоритм завершується після досягнення тупикової вершини (листа), ця вершина і визначатиме клас, до якого належить об'єкт.^[3]

Еволюційні алгоритми

Докладніше: Еволюційний алгоритм та Генетичний алгоритм

Регресійний аналіз

Докладніше: Регресійний аналіз

Регресійний аналіз займається методами аналізу залежності однієї величини від іншої. На відміну від кореляційного аналізу, не з'ясовує, чи істотний зв'язок, а займається пошуком моделі цього зв'язку, вираженої у функції регресії.

Застосування

Програмне забезпечення

Детальніші відомості з цієї теми ви можете знайти в статті Програмне забезпечення глибокого навчання.

Деякі продукти в Категорія:Програмне забезпечення аналізу даних та Категорія:Програмне забезпечення для статистичного аналізу також включають можливості глибинного аналізу даних та машинного навчання.

Безкоштовне програмне забезпечення та програми для інтелектуального аналізу даних з відкритим кодом

Наступні програми доступні за безкоштовними ліцензіями/ліцензіями з відкритим кодом. Також доступний публічний доступ до вихідного коду програми.

Carrot2 : структура кластеризації тексту та результатів пошуку.
Chemicalize.org: інструмент пошуку хімічної структури та веб-пошукова система.
ELKI: університетський дослідницький проєкт із вдосконаленим кластерним аналізом і методами виявлення викидів, написаний мовою Java.
GATE: інструмент обробки природної мови та розробки мови.
KNIME: Констанц Інформаційний Майнер, зручний і комплексний інструмент аналітики даних.
Massive Online Analysis (MOA): інтелектуальний аналіз великих потоків даних у реальному часі з інструментом дрейфу концепції на мові програмування Java.
MEPX: крос-платформний інструмент для регресії та класифікації проблем на основі варіанту генетичного програмування.
mlpack: набір готових до використання алгоритмів машинного навчання, написаних мовою C++.
NLTK (Набір інструментів природної мови): набір бібліотек і програм для символічної та статистичної обробки природної мови (NLP) для мови Python.
OpenNN: відкрита бібліотека нейронних мереж.
Orange: набір програмного забезпечення для аналізу даних і машинного навчання на основі компонентів, написаний мовою Python.
PSPP: програмне забезпечення для аналізу даних і статистики в рамках проєкту GNU, схоже на SPSS.
R: Мова програмування та програмне середовище для статистичних обчислень, аналізу даних і графіки. Це частина проєкту GNU.
Scikit-learn: бібліотека машинного навчання з відкритим кодом для мови програмування Python.
Torch: бібліотека глибокого навчання з відкритим кодом для мови програмування Lua та фреймворку наукових обчислень із широкою підтримкою алгоритмів машинного навчання.
UIMA: UIMA (Unstructured Information Management Architecture) — це компонентна структура для аналізу неструктурованого вмісту, такого як текст, аудіо та відео, спочатку розроблена IBM.
Weka: набір програм для машинного навчання, написаних мовою програмування Java.

Власне програмне забезпечення та додатки для аналізу даних Наступні програми доступні за ліцензіями власності.

Angoss KnowledgeSTUDIO: інструмент аналізу даних.
LIONsolver: інтегрований програмний додаток для аналізу даних, бізнес-аналітики та моделювання, який реалізує підхід Learning and Intelligent OptimizationN (LION).
PolyAnalyst: програмне забезпечення для аналізу даних і тексту від Megaputer Intelligence.
Microsoft Analysis Services: програмне забезпечення інтелектуального аналізу даних, надане Microsoft.
NetOwl: набір багатомовних продуктів для аналітики тексту та об'єктів, які дозволяють аналізувати дані.
Oracle Data Mining: програмне забезпечення для аналізу даних від корпорації Oracle.
PSeven: платформа для автоматизації інженерного моделювання та аналізу, мультидисциплінарної оптимізації та аналізу даних, надана DATADVANCE.
Qlucore Omics Explorer: програмне забезпечення для аналізу даних.
RapidMiner: середовище для експериментів з машинним навчанням і аналізом даних.
SAS Enterprise Miner: програмне забезпечення для аналізу даних, надане SAS Institute.
SPSS Modeler: програмне забезпечення інтелектуального аналізу даних, надане IBM.
STATISTICA Data Miner: програмне забезпечення для аналізу даних, надане StatSoft.
Tanagra: програмне забезпечення для аналізу даних, орієнтоване на візуалізацію, також для навчання.
Vertica: програмне забезпечення для аналізу даних, надане Hewlett-Packard.
Google Cloud Platform: автоматизовані спеціальні моделі ML, якими керує Google.
Amazon SageMaker: керований сервіс, який надає Amazon для створення та виробництва користувацьких моделей ML.

Див. також

Література

Silberschatz, Abraham; Sudarshan, S. (2011). Database system concepts (вид. 6). New York: McGraw-Hill. ISBN 9780073523323. OCLC 436031093.

Джерела

↑ Silberschatz та Sudarshan, 2011, с. 25.
↑ Wang, Lipo; Fu, Xiuju (2005). Data mining with computational intelligence (PDF). Berlin: Heidelberg : Springer. с. 6. ISBN 3-540-24522-7. Архів оригіналу (PDF) за 8 листопада 2016. Процитовано 21 липня 2017.
↑ Encyclopedia of artificial intelligence / Juan Ramon Rabunal Dopico, Julian Dorado de la Calle, and Alejandro Pazos Sierra, editors

Посилання

Методи отримання даних [Архівовано 20 липня 2017 у Wayback Machine.](рос.)
Визначення Data Mining

Це незавершена стаття з інформатики.
Ви можете допомогти проєкту, виправивши або дописавши її.

[FOOTNOTESilberschatzSudarshan201125-1] Silberschatz та Sudarshan, 2011, с. 25.

[2] Wang, Lipo; Fu, Xiuju (2005). Data mining with computational intelligence (PDF). Berlin: Heidelberg : Springer. с. 6. ISBN 3-540-24522-7. Архів оригіналу (PDF) за 8 листопада 2016. Процитовано 21 липня 2017.

[3] Encyclopedia of artificial intelligence / Juan Ramon Rabunal Dopico, Julian Dorado de la Calle, and Alejandro Pazos Sierra, editors

[1]

[2]

[3]