Слабке́ керува́ння (англ. weak supervision) або слабокеро́ване навча́ння,[1][2] яке також називають напівкеро́ваним навча́нням (англ. semi-supervised learning),[3][4] — це одна з парадигм машинного навчання, актуальність і помітність якої зросли з появою великих мовних моделей через велику кількість даних, необхідних для того, щоби їх тренувати. Вона характеризується використанням поєднання невеликої кількості даних, мічених[en] людьми (лише які й використовують у дорожчій та часовитратнішій парадигмі керованого навчання), разом із великою кількістю немічених даних (лише які й використовують у парадигмі некерованого навчання). Іншими словами, бажані значення виходу надають лише для підмножини тренувальних даних. Решта даних не мічені, або мічені неточно. Інтуїтивно це можливо розглядати як іспит, а мічені дані — як приклади задач, які вчитель розв'язує для класу як допомогу у розв'язанні іншого набору задач. У трансдуктивній постановці ці нерозв'язані задачі діють як питання іспиту. В індуктивній постановці вони стають практичними задачами такого вигляду, які складатимуть іспит. Технічно це можливо розглядати як виконання кластерування з наступним міченням кластерів за допомогою мічених даних, відсуванням меж рішень від областей із високою густиною, або навчання одновимірного многовида в основі даних, на якому вони перебувають.

Задача

ред.
 
Схильність завдань використовувати керовані та некеровані методи. Перетин кіл назвами завдань навмисний. Він показує, що класичне відокремлення творчих завдань (ліворуч) із застосуванням некерованих методів у сучасних схемах навчання розмите.

Отримання мічених даних для задачі навчання часто вимагає кваліфікованого агента-людини (наприклад, для транскрибування аудіосегменту) або фізичного експерименту (наприклад, визначення тривимірної структури білка або визначення наявності нафти в певному місці). Таким чином, витрати, пов'язані з процесом мічення, можуть виявитися величезними, повністю мічені тренувальні набори — неможливими, в той час як отримання немічених даних відносно невитратне. В таких ситуаціях напівкероване навчання може мати велике практичне значення. Напівкероване навчання також становить теоретичний інтерес для машинного навчання та як модель людського навчання.

Методика

ред.
 
Приклад впливу немічених даних у напівкерованому навчанні. Верхня панель показує межу рішення, яку ми можемо ухвалити, побачивши лише один позитивний (білій кружечок) й один негативний (чорний кружечок) приклади. На нижній панелі показано межі рішення, які ми могли б ухвалити, якби крім двох мічених прикладів ми отримали набір немічених даних (сірі кружечки).

Формальніше, напівкероване навчання розглядає обробку набору   незалежних однаково розподілених прикладів   з відповідними мітками  , та   немічених прикладів  . Напівкероване навчання поєднує цю інформацію, щоби перевершити якість класифікації, яку можливо було би отримати, відкинувши немічені дані й виконавши кероване навчання, або відкинувши мітки й виконавши некероване навчання.

Напівкероване навчання може стосуватися або трансдуктивного[en], або індуктивного навчання.[5] Мета трансдуктивного навчання полягає у висновуванні правильних міток лише для наданих немічених даних  . Метою індуктивного навчання є висновування правильного відображення   в  .

Непотрібно (і, відповідно до принципу Вапника, необачно) виконувати трансдуктивне навчання шляхом висновування правила класифікації над усім простором входу; проте на практиці алгоритми, формально розроблені для трансдукції або індукції, часто використовують як взаємозамінні.

Припущення

ред.

Щоб отримати з немічених даних хоч якусь користь, має існувати певний зв'язок із розподілом в їхній основі. Алгоритми напівкерованого навчання використовують принаймні одне з наступних припущень:[6]

Припущення неперервності/гладкості

ред.

Точки, близькі одна до одної, швидше за все, мають спільну мітку. Це також зазвичай припускають у керованім навчанні, воно віддає перевагу геометрично простим межам рішень[en]. У випадку напівкерованого навчання припущення про плавність додатково дає перевагу межам рішень в областях із низькою густиною, тож менше точок знаходяться близько одна до одної, але в різних класах.[джерело?]

Припущення кластерованості

ред.

Дані схильні утворювати окремі кластери, й точки в одному кластері, швидше за все, мають спільну мітку (хоча дані, які мають спільну мітку, можуть поширюватися на декілька кластерів). Це особливий випадок припущення про плавність, він дає початок навчанню ознак за допомогою алгоритмів кластерування.

Многовидне припущення

ред.

Дані приблизно лежать на многовиді набагато меншої розмірності, ніж простір входу. В цьому випадку навчання цього многовида з використанням як мічених, так і немічених даних може уникати прокляття розмірності. Тоді навчання можливо здійснювати з використанням відстаней і густин, визначених на цьому многовиді.

Многовидне припущення практичне, коли багатовимірні дані породжуються деяким процесом, який може бути важко змоделювати безпосередньо, але який має лише кілька ступенів вільності. Наприклад, людський голос контролюється декількома голосовими зв'я́зками,[7] а зображення різних виразів обличчя — кількома м'язами. У цих випадках краще розглядати відстані та гладкість у природному просторі породжувальної задачі, а не в просторі всіх можливих акустичних хвиль чи зображень відповідно.

Історія

ред.

Евристичний підхід самотренування (англ. self-training, відомий також як самонавчання, англ. self-learning, та самомічення, англ. self-labeling) — історично найстаріший підхід напівкерованого навчання,[6] приклади застосування якого починаються з 1960-х років.[8]

Концепцію трансдуктивного навчання офіційно представив Володимир Вапник у 1970-х роках.[9] Інтерес до індуктивного навчання з використанням породжувальних моделей також виник у 1970-х роках. Імовірно приблизно коректне навчання для напівкерованого навчання суміші гауссіанів продемонстровали Рацабі та Венкатеш 1995 року.[10]

Методи

ред.

Породжувальні моделі

ред.

Породжувальні підходи до статистичного навчання спочатку спрямовані на оцінку  ,[сумнівно ] розподілу точок даних, що належать кожному класові. Ймовірність   що дана точка   має мітку   відтак пропорційна   за правилом Баєса. Напівкероване навчання з породжувальними моделями можливо розглядати або як розширення керованого навчання (класифікування плюс інформація про  ), або як розширення некерованого навчання (кластерування плюс трохи міток).

Породжувальні моделі виходять із припущення, що розподіли мають певний вигляд  , параметрований вектором  . Якщо ці припущення неправильні, немічені дані можуть насправді знизити точність розв'язку порівняно з тим, що було б отримано лише з мічених даних.[11] Проте якщо вони правильні, то немічені дані обов'язково покращать продуктивність.[10]

Немічені дані розподілено відповідно до суміші розподілів окремих класів. Щоби навчитися цієї суміші розподілів із немічених даних, вона повинна бути ідентифіковною, тобто різні параметри повинні давати різні сумарні розподіли. Гауссові сумішеві розподіли ідентифіковні, і їх часто використовують для породжувальних моделей.

Параметрований спільний розподіл за допомогою ланцюгового правила можливо записати як  . Кожен вектор параметрів   пов'язується з функцією рішення  . Потім цей параметр обирають на основі допасованості як до мічених, так і до немічених даних, зважених  :

 [12]

Низькогустинне розділення

ред.

Інший важливий клас методів намагається встановлювати межі в областях із невеликою кількістю точок даних (мічених чи немічених). Один із найчастіше вживаних алгоритмів — трансдуктивна опорновекторна машина, або ТОВМ (англ. TSVM, яку, незважаючи на її назву, можна використовувати й для індуктивного навчання). У той час як опорновекторні машини для керованого навчання шукають межу рішення з максимальним розділенням над міченими даними, мета ТОВМ — мічення немічених даних так, щоби межа рішення мала максимальне розділення над усіма даними. На додачу до стандартних заві́сних втрат   для мічених даних запроваджують функцію втрат   над неміченими даними, покладаючи  . ТОВМ відтак обирає   із гільбертового простору з відтворювальним ядром[en]   мінімізуванням регуляризованого емпіричного ризику:

 

Точне розв'язання непіддатливе через неопуклість члена  , тож дослідження зосереджуються на корисних наближеннях.[12]

До інших підходів, які втілюють низькогустинне розділення (англ. low-density separation), належать моделі гауссових процесів, регуляризація інформації, та мінімізація ентропії (окремим випадком якої є ТОВМ).

Лапласова регуляризація

ред.

До лапласової регулярізації (англ. laplacian regularization) історично підходили через матрицю Лапласа (Кірхгофа). Методи на основі графів для напівкерованого навчання використовують графове подання даних із вузлами для кожного з мічених і немічених прикладів. Граф можна побудувати, використовуючи знання предметної області, або схожість прикладів; двома поширеними методами є з'єднувати кожну точку даних з її   найближчими сусідами, або з прикладами на деякій відстані  . Вагу   ребра між   та   відтак встановлюють в  .

В системі многовидної регуляризації[en][13][14] цей граф слугує посередником для многовида. До стандартної задачі регуляризації Тихонова додають додатковий член, щоби забезпечити гладкість розв'язку відносно многовиду (у внутрішньому просторі задачі), а також відносно навколишнього простору входу. Задача мінімізації набуває вигляду

 [12]

де   — гільбертів простір із відтворювальним ядром, а   — многовид, на якому лежать дані. Параметри регуляризації   та   контролюють гладкість у навколишньому (англ. ambient) та внутрішньому (англ. intrinsic) просторах відповідно. Цей граф використовують для наближення члена внутрішньої регуляризації. Визначивши матрицю Лапласа (Кірхгофа)  , де  , а   це вектор  , ми отримуємо

  .

Графовий підхід до лапласової регулярізації пов'язують із методом скінченних різниць.[прояснити][джерело?]

Матрицю Лапласа (Кірхгофа) також можливо використовувати для розширення алгоритмів керованого навчання: регуляризованих найменших квадратів[en] та опорновекторних машин (ОВМ) до напівкерованих версій лапласових регуляризованих найменших квадратів (англ. Laplacian regularized least squares) та лапласових ОВМ (англ. Laplacian SVM).

Евристичні підходи

ред.

Деякі методи напівкерованого навчання за своєю суттю не орієнтовані на навчання як із немічених, так і з мічених даних, а натомість використовують немічені дані в рамках керованого навчання. Наприклад, мічені та немічені приклади   на некерованому першому кроці можуть інформувати вибір подання, міри відстані, або ядра для даних. Потім продовжується кероване навчання лише з мічених прикладів. У цьому ключі деякі методи навчаються низьковимірного подання, використовуючи керовані дані, а потім застосовують до навченого подання або низькогустинне розділення, або графові методи.[15][16] Ітеративне вдосконалення подання з наступним виконанням напівкерованого навчання на цьому поданні можуть ще далі підвищувати продуктивність.

Самотренування (англ. self-training) — це обгортковий метод напівкерованого навчання.[17] Спершу тренують алгоритм керованого навчання лише на мічених даних. Відтак цей класифікатор застосовують до немічених даних для породження більшої кількості мічених прикладів як даних входу для алгоритму керованого навчання. Зазвичай на кожному кроці додають лише ті мітки, в яких класифікатор найупевненіший.[18]

Співтренування[en] (англ. co-training) — це розширення самотренування, в якому декілька класифікаторів тренуються на різних (в ідеалі неперетинних) наборах ознак і породжують мічені приклади один для одного.[19]

У людському пізнанні

ред.

Реакції людей на формальні задачі напівкерованого навчання дали мінливі висновки щодо ступеню впливу немічених даних.[20] Природніші задачі навчання також можна розглядати як зразки напівкерованого навчання. Значна частина людського навчання понять[en] передбачає невелику кількість прямих інструкцій (як-то позначення об'єктів батьками у дитинстві) у поєднанні з великою кількістю неміченого досвіду (як-то спостереження за об'єктами без їхніх назв чи кількостей, або принаймні без зворотного зв'язку).

Людські немовлята чутливі до структури немічених природних категорій, таких як зображення собак чи котів, та чоловічих чи жіночих облич.[21] Немовлята та діти враховують не лише немічені приклади, але й процес вибирання зразків, у результаті якого виникають мічені приклади.[22][23]

Див. також

ред.

Примітки

ред.
  1. Ілюшик, Т. С. (2021). Класифікація гістологічних зображень раку простати (PDF) (Магістерська дисертація) (укр.). Київ: НТУУ «КПІ ім. Ігоря Сікорського». Процитовано 16 серпня 2023.
  2. Клейн, О. М. (2023). Метод та засоби виявлення аномалій в кіберфізичних системах комп’ютерного зору (Кваліфікаційна робота магістра) (укр.). Хмельницький: Хмельницький національний університет. Процитовано 16 серпня 2023.
  3. Синєглазов, Віктор; Чумаченко, Олена (2022). Бідюк, П. І.; Шугалей, Л. П. (ред.). Методи та технології напівкерованого навчання: Курс лекцій (PDF) (укр.). Київ: НТУУ «КПІ ім. Ігоря Сікорського».
  4. Кропивницька, В. Б.; Магас, Д. М. (30 квітня 2023). Напівкероване машинне навчання для виявлення несправностей нафтогазопроводів. Modern engineering and innovative technologies (укр.). 1 (18): 33—36. doi:10.30890/2567-5273.2023-26-01-010.
  5. Semi-Supervised Learning Literature Survey, Page 5, 2007
  6. а б Chapelle, Schölkopf та Zien, 2006.
  7. Stevens, Kenneth N. (1998). Acoustic phonetics (англ.). Cambridge, Mass.: MIT Press. ISBN 0-585-08720-2. OCLC 42856189.
  8. Scudder, H. (July 1965). Probability of error of some adaptive pattern-recognition machines. IEEE Transactions on Information Theory (англ.). 11 (3): 363—371. doi:10.1109/TIT.1965.1053799. ISSN 1557-9654.
  9. Вапник, В. Н.; Червоненкис, А. Я. (1974). Теоря распознавания образов (рос.). Москва: Наука. процитована в Chapelle, Schölkopf та Zien, 2006, с. 3
  10. а б Ratsaby, J.; Venkatesh, S. Learning from a mixture of labeled and unlabeled examples with parametric side information (PDF) (англ.). у Proceedings of the eighth annual conference on Computational learning theory - COLT '95 (англ.). New York, New York, USA: ACM Press. 1995. с. 412—417. doi:10.1145/225298.225348. ISBN 0-89791-723-5. S2CID 17561403.. Процитована в Chapelle, Schölkopf та Zien, 2006, с. 4
  11. Fabio, Cozman; Ira, Cohen (22 вересня 2006), Risks of Semi-Supervised Learning: How Unlabeled Data Can Degrade Performance of Generative Classifiers, Semi-Supervised Learning (англ.), The MIT Press, с. 56—72, doi:10.7551/mitpress/9780262033589.003.0004, ISBN 978-0-262-03358-9 У: Chapelle, Schölkopf та Zien, 2006
  12. а б в Zhu, Xiaojin. Semi-Supervised Learning University of Wisconsin-Madison.
  13. M. Belkin; P. Niyogi (2004). Semi-supervised Learning on Riemannian Manifolds. Machine Learning (англ.). 56 (Special Issue on Clustering): 209—239. doi:10.1023/b:mach.0000033120.25363.1e.
  14. M. Belkin, P. Niyogi, V. Sindhwani. On Manifold Regularization. AISTATS 2005. (англ.)
  15. Iscen, Ahmet; Tolias, Giorgos; Avrithis, Yannis; Chum, Ondrej (2019). Label Propagation for Deep Semi-Supervised Learning. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (англ.). с. 5065—5074. arXiv:1904.04717. doi:10.1109/CVPR.2019.00521. ISBN 978-1-7281-3293-8. S2CID 104291869. Процитовано 26 березня 2021.
  16. Burkhart, Michael C.; Shan, Kyle (2020). Deep Low-Density Separation for Semi-supervised Classification. International Conference on Computational Science (ICCS). Lecture Notes in Computer Science (англ.). 12139: 297—311. doi:10.1007/978-3-030-50420-5_22. ISBN 978-3-030-50419-9.
  17. Triguero, Isaac; García, Salvador; Herrera, Francisco (26 листопада 2013). Self-labeled techniques for semi-supervised learning: taxonomy, software and empirical study. Knowledge and Information Systems (англ.). 42 (2): 245—284. doi:10.1007/s10115-013-0706-y. ISSN 0219-1377. S2CID 1955810.
  18. Fazakis, Nikos; Karlos, Stamatis; Kotsiantis, Sotiris; Sgarbas, Kyriakos (29 грудня 2015). Self-Trained LMT for Semisupervised Learning. Computational Intelligence and Neuroscience (англ.). 2016: 3057481. doi:10.1155/2016/3057481. PMC 4709606. PMID 26839531.
  19. Didaci, Luca; Fumera, Giorgio; Roli, Fabio (7 листопада 2012). Gimel’farb, Georgy; Hancock, Edwin; Imiya, Atsushi; Kuijper, Arjan; Kudo, Mineichi; Omachi, Shinichiro; Windeatt, Terry; Yamada, Keiji (ред.). Analysis of Co-training Algorithm with Very Small Training Sets. Lecture Notes in Computer Science (англ.). Springer Berlin Heidelberg. с. 719—726. doi:10.1007/978-3-642-34166-3_79. ISBN 9783642341656. S2CID 46063225.
  20. Zhu, Xiaojin (2009). Introduction to semi-supervised learning (англ.). Goldberg, A. B. (Andrew B.). [San Rafael, Calif.]: Morgan & Claypool Publishers. ISBN 978-1-59829-548-1. OCLC 428541480.
  21. Younger B. A.; Fearing D. D. (1999). Parsing Items into Separate Categories: Developmental Change in Infant Categorization. Child Development (англ.). 70 (2): 291—303. doi:10.1111/1467-8624.00022.
  22. Xu, F. & Tenenbaum, J. B. (2007). Sensitivity to sampling in Bayesian word learning. Developmental Science (англ.). 10 (3): 288—297. CiteSeerX 10.1.1.141.7505. doi:10.1111/j.1467-7687.2007.00590.x. PMID 17444970.
  23. Gweon, H., Tenenbaum J.B., and Schulz L.E (2010). Infants consider both the sample and the sampling process in inductive generalization. Proc Natl Acad Sci U S A (англ.). 107 (20): 9066—71. Bibcode:2010PNAS..107.9066G. doi:10.1073/pnas.1003095107. PMC 2889113. PMID 20435914.

Джерела

ред.

Посилання

ред.