Пристосовування області визначення

Пристосо́вування о́бласті ви́значення (англ. domain adaptation)^[1]^[2]^[3] — це область, пов'язана з машинним та передавальним навчанням. Цей сценарій виникає тоді, коли ми маємо на меті навчання з первинного розподілу даних ефективної моделі на іншому (але пов'язаному) цільовому розподілі даних. Наприклад, одна з підзадач поширеної задачі фільтрування спаму полягає в пристосовуванні моделі від одного користувача (первинний розподіл) до нового користувача, який отримує суттєво відмінні електронні листи (цільовий розподіл). Пристосовування області визначення виявилося корисним і для навчання непов'язаних джерел.^[4] Зауважте, що, коли доступно більше одного первинного розподілу, цю задачу називають багатоджерельним пристосовуванням області визначення (англ. multi-source domain adaptation).^[5]

Огляд

Пристосовування області визначення — це здатність застосовувати алгоритм, навчений в одній або декількох «первинних областях визначення» (англ. "source domains"), до іншої (але пов'язаної) «цільової області визначення» (англ. "target domain"). Пристосовування області визначення є підкатегорією передавального навчання. У пристосовуванні області визначення як первинні, так і цільові області визначення мають один і той же простір ознак (але різні розподіли), а передавальне навчання, на відміну від цього, включає також і випадки, коли простір ознак цільової області визначення від первинного простору чи просторів ознак відрізняється.^[6]

Зсув області визначення

Зсув о́бласті ви́значення (англ. domain shift),^[7] або розпо́діловий зсув (англ. distributional shift),^[8] — це зміна в розподілі даних між тренувальним набором даних алгоритму та набором даних, з яким він стикається при розгортанні. Ці зсуви областей визначення є поширеними в практичному застосуванні штучного інтелекту. Звичайні алгоритми машинного навчання часто погано пристосовуються до зсувів областей визначення. Сучасна спільнота машинного навчання має багато різних стратегій намагання досягнення кращого пристосування області визначення.

Приклади

Алгоритмові, натренованому на новинах, може довестися пристосовуватися до нового набору біомедичних документів.^[9]
Спамовий фільтр, натренований на певній групі користувачів електронної пошти під час тренування, при розгортанні мусить пристосовуватися до нового цільового користувача.^[10]
Застосування алгоритмів встановлювання діагнозу за допомогою ШІ, натренованих на мічених даних, пов'язаних із попередніми захворюваннями, до нових немічених даних, пов'язаних із пандемією COVID-19.^[11]
Раптові соціальні зміни, такі як спалах пандемії, можуть створювати зсув області визначення та спричинювати збої алгоритмів машинного навчання, натренованих на вже застарілих даних про споживачів, і вимагати втручання.^[12]^[13]

До інших застосувань належать встановлювання положення за Wi-Fi та багато аспектів комп'ютерного бачення.^[6]

Формальний виклад

Нехай $X$ є простором входу (або простором опису, англ. input space, description space), і нехай $Y$ є простором виходу (або простором міток, англ. output space, label space). Завданням алгоритму машинного навчання є навчитися математичної моделі (гіпотези) $h:X\to Y$ , здатної приписувати мітку з $Y$ прикладові з $X$ . Навчання цієї моделі відбувається з навчальної вибірки $S=\{(x_{i},y_{i})\in (X\times Y)\}_{i=1}^{m}$ .

Зазвичай за керованого навчання (без пристосовування області визначення) ми виходимо з того, що ці зразки $(x_{i},y_{i})\in S$ витягуються н. о. р. з розподілу $D_{S}$ носія $X\times Y$ (невідомого та незмінного). Завдання відтак полягає в тім, щоби навчитися (з $S$ ) такої $h$ , щоби вона припускалася найменшої можливої похибки при міченні нових зразків, що надходять із розподілу $D_{S}$ .

Головна відмінність між керованим навчанням та пристосовуванням області визначення полягає в тім, що в другій ситуації ми вивчаємо два різні (але пов'язані) розподіли $D_{S}$ і $D_{T}$ на $X\times Y$ ^{[джерело?]}. Завдання пристосовування області визначення відтак складається з передавання знань з первинної області визначення $D_{S}$ до цільової $D_{T}$ . Метою відтак є навчитися такої $h$ (з мічених або немічених зразків, що надходять із двох областей визначення), щоби вона припускалася якомога меншої похибки на цільовій області визначення $D_{T}$ ^{[джерело?]}.

Головною проблемою є наступна: якщо модель навчається з первинної області визначення, якою буде її здатність правильно мітити дані, що надходять із цільової області визначення?

Різні типи пристосовування області визначення

Існує кілька контекстів пристосовування області визначення. Вони відрізняються інформацією, яка враховується для цільової області визначення.

Спонта́нне пристосо́вування о́бласті ви́значення (англ. unsupervised domain adaptation): навчальна вибірка містить набір мічених первинних зразків, набір немічених первинних зразків, та набір немічених цільових зразків.
Напівавтомати́чне присто́совування о́бласті ви́значення (англ. semi-supervised domain adaptation): у цій ситуації ми також розглядаємо «невеликий» набір мічених цільових зразків.
Керо́ване пристосо́вування о́бласті ви́значення (англ. supervised domain adaptation): усі зразки, що розглядаються, мають бути міченими.

Чотири алгоритмічні принципи

Алгоритми перезважування

Мета полягає в перезважуванні первинної міченої вибірки таким чином, щоби вона «виглядала як» цільова вибірка (з точки зору розгляданої міри похибки).^[14]^[15]

Ітеративні алгоритми

Цей метод для пристосовування полягає в ітеративному «автоматичному міченні» цільових зразків. Принцип є простим:

модель $h$ навчається з мічених зразків;
$h$ автоматично мітить деякі цільові зразки;
нова модель навчається з нових мічених зразків.

Зауважте, що існують й інші ітеративні підходи, але вони зазвичай потребують мічених цільових зразків.^[16]^[17]

Пошук спільного простору подань

Метою є знайти або побудувати спільний простір подань (англ. common representation space) для двох областей визначення. Мета полягає в отриманні простору, в якому ці області визначення перебуватимуть близько одна до одної, за умови збереження доброї продуктивності в первинній задачі маркування. Цього можливо досягати за допомогою застосування методів змагального машинного навчання^[en], де подання ознак із вибірок у різних областях визначення заохочуються бути нерозрізненними.^[18]^[19]

Ієрархічна баєсова модель

Метою є побудувати баєсову ієрархічну модель $p(n)$ , що є по суті множниковою моделлю для чисел $n$ , щоби вивести не залежні від області визначення латентні подання, які можуть містити як специфічні для областей визначення, так і глобально спільні латентні множники.^[4]

Примітки

↑ Redko, Ievgen; Morvant, Emilie; Habrard, Amaury; Sebban, Marc; Bennani, Younès (2019). Advances in Domain Adaptation Theory. ISTE Press - Elsevier. с. 187. ISBN 9781785482366. Архів оригіналу за 12 квітня 2021. Процитовано 12 квітня 2021. (англ.)
↑ Bridle, John S.; Cox, Stephen J (1990). RecNorm: Simultaneous normalisation and classification applied to speech recognition. Conference on Neural Information Processing Systems (NIPS). с. 234—240. (англ.)
↑ Ben-David, Shai; Blitzer, John; Crammer, Koby; Kulesza, Alex; Pereira, Fernando; Wortman Vaughan, Jennifer (2010). A theory of learning from different domains (PDF). Machine Learning. 79 (1–2): 151—175. doi:10.1007/s10994-009-5152-4. Архів оригіналу (PDF) за 11 жовтня 2021. Процитовано 12 квітня 2021. (англ.)
↑ ^а ^б Hajiramezanali, Ehsan; Siamak Zamani Dadaneh; Karbalayghareh, Alireza; Zhou, Mingyuan; Qian, Xiaoning (2018). Bayesian multi-domain learning for cancer subtype discovery from next-generation sequencing count data. arXiv:1810.09433 [stat.ML]. (англ.)
↑ Crammer, Koby; Kearns, Michael; Wortman, Jeniifer (2008). Learning from Multiple Sources (PDF). Journal of Machine Learning Research. 9: 1757—1774. Архів оригіналу (PDF) за 12 квітня 2021. Процитовано 12 квітня 2021. (англ.)
↑ ^а ^б Sun, Shiliang; Shi, Honglei; Wu, Yuanbin (July 2015). A survey of multi-source domain adaptation. Information Fusion. 24: 84—92. doi:10.1016/j.inffus.2014.12.003. (англ.)
↑ Sun, Baochen, Jiashi Feng, and Kate Saenko. «Return of frustratingly easy domain adaptation.» In Thirtieth AAAI Conference on Artificial Intelligence. 2016. (англ.)
↑ Amodei, Dario, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, and Dan Mané. «Concrete problems in AI safety.» arXiv preprint arXiv:1606.06565 (2016). (англ.)
↑ Daumé III, Hal. «Frustratingly easy domain adaptation.» arXiv preprint arXiv:0907.1815 (2009). (англ.)
↑ Ben-David, Shai, John Blitzer, Koby Crammer, and Fernando Pereira. «Analysis of representations for domain adaptation.» In Advances in neural information processing systems, pp. 137—144. 2007. (англ.)
↑ Hu, Yipeng; Jacob, Joseph; Parker, Geoffrey J. M.; Hawkes, David J.; Hurst, John R.; Stoyanov, Danail (June 2020). The challenges of deploying artificial intelligence models in a rapidly evolving pandemic. Nature Machine Intelligence (англ.). 2 (6): 298—300. doi:10.1038/s42256-020-0185-2. ISSN 2522-5839. Архів оригіналу за 25 лютого 2021. Процитовано 12 квітня 2021. (англ.)
↑ Matthews, Dylan (26 березня 2019). AI disaster won’t look like the Terminator. It’ll be creepier. Vox (англ.). Архів оригіналу за 27 травня 2020. Процитовано 21 червня 2020. (англ.)
↑ Our weird behavior during the pandemic is messing with AI models. MIT Technology Review (англ.). 11 травня 2020. Архів оригіналу за 22 червня 2020. Процитовано 21 червня 2020. (англ.)
↑ Huang, Jiayuan; Smola, Alexander J.; Gretton, Arthur; Borgwardt, Karster M.; Schölkopf, Bernhard (2006). Correcting Sample Selection Bias by Unlabeled Data. Conference on Neural Information Processing Systems (NIPS). с. 601—608. (англ.)
↑ Shimodaira, Hidetoshi (2000). Improving predictive inference under covariate shift by weighting the log-likelihood function. Journal of Statistical Planning and Inference. 90 (2): 227—244. doi:10.1016/S0378-3758(00)00115-4. (англ.)
↑ . ISBN 978-1-4503-5544-5. {{cite conference}}: Пропущений або порожній |title= (довідка) (англ.)
↑ Arief-Ang, I.B.; Hamilton, M.; Salim, F.D. (1 грудня 2018). A Scalable Room Occupancy Prediction with Transferable Time Series Decomposition of CO2 Sensor Data. ACM Transactions on Sensor Networks. 14 (3–4): 21:1–21:28. doi:10.1145/3217214. (англ.)
↑ Ganin, Yaroslav; Ustinova, Evgeniya; Ajakan, Hana; Germain, Pascal; Larochelle, Hugo; Laviolette, François; Marchand, Mario; Lempitsky, Victor (2016). Domain-Adversarial Training of Neural Networks (PDF). Journal of Machine Learning Research. 17: 1—35. Архів оригіналу (PDF) за 12 квітня 2021. Процитовано 12 квітня 2021. (англ.)
↑ Hajiramezanali, Ehsan; Siamak Zamani Dadaneh; Karbalayghareh, Alireza; Zhou, Mingyuan; Qian, Xiaoning (2017). Addressing Appearance Change in Outdoor Robotics with Adversarial Domain Adaptation. arXiv:1703.01461 [cs.RO]. (англ.)

[1] Redko, Ievgen; Morvant, Emilie; Habrard, Amaury; Sebban, Marc; Bennani, Younès (2019). Advances in Domain Adaptation Theory. ISTE Press - Elsevier. с. 187. ISBN 9781785482366. Архів оригіналу за 12 квітня 2021. Процитовано 12 квітня 2021. (англ.)

[2] Bridle, John S.; Cox, Stephen J (1990). RecNorm: Simultaneous normalisation and classification applied to speech recognition. Conference on Neural Information Processing Systems (NIPS). с. 234—240. (англ.)

[3] Ben-David, Shai; Blitzer, John; Crammer, Koby; Kulesza, Alex; Pereira, Fernando; Wortman Vaughan, Jennifer (2010). A theory of learning from different domains (PDF). Machine Learning. 79 (1–2): 151—175. doi:10.1007/s10994-009-5152-4. Архів оригіналу (PDF) за 11 жовтня 2021. Процитовано 12 квітня 2021. (англ.)

[:bmdl-4] а ^б Hajiramezanali, Ehsan; Siamak Zamani Dadaneh; Karbalayghareh, Alireza; Zhou, Mingyuan; Qian, Xiaoning (2018). Bayesian multi-domain learning for cancer subtype discovery from next-generation sequencing count data. arXiv:1810.09433 [stat.ML]. (англ.)

[5] Crammer, Koby; Kearns, Michael; Wortman, Jeniifer (2008). Learning from Multiple Sources (PDF). Journal of Machine Learning Research. 9: 1757—1774. Архів оригіналу (PDF) за 12 квітня 2021. Процитовано 12 квітня 2021. (англ.)

[survey_multi-source-6] а ^б Sun, Shiliang; Shi, Honglei; Wu, Yuanbin (July 2015). A survey of multi-source domain adaptation. Information Fusion. 24: 84—92. doi:10.1016/j.inffus.2014.12.003. (англ.)

[frustratingly-7] Sun, Baochen, Jiashi Feng, and Kate Saenko. «Return of frustratingly easy domain adaptation.» In Thirtieth AAAI Conference on Artificial Intelligence. 2016. (англ.)

[8] Amodei, Dario, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, and Dan Mané. «Concrete problems in AI safety.» arXiv preprint arXiv:1606.06565 (2016). (англ.)

[9] Daumé III, Hal. «Frustratingly easy domain adaptation.» arXiv preprint arXiv:0907.1815 (2009). (англ.)

[10] Ben-David, Shai, John Blitzer, Koby Crammer, and Fernando Pereira. «Analysis of representations for domain adaptation.» In Advances in neural information processing systems, pp. 137—144. 2007. (англ.)

[11] Hu, Yipeng; Jacob, Joseph; Parker, Geoffrey J. M.; Hawkes, David J.; Hurst, John R.; Stoyanov, Danail (June 2020). The challenges of deploying artificial intelligence models in a rapidly evolving pandemic. Nature Machine Intelligence (англ.). 2 (6): 298—300. doi:10.1038/s42256-020-0185-2. ISSN 2522-5839. Архів оригіналу за 25 лютого 2021. Процитовано 12 квітня 2021. (англ.)

[12] Matthews, Dylan (26 березня 2019). AI disaster won’t look like the Terminator. It’ll be creepier. Vox (англ.). Архів оригіналу за 27 травня 2020. Процитовано 21 червня 2020. (англ.)

[13] Our weird behavior during the pandemic is messing with AI models. MIT Technology Review (англ.). 11 травня 2020. Архів оригіналу за 22 червня 2020. Процитовано 21 червня 2020. (англ.)

[14] Huang, Jiayuan; Smola, Alexander J.; Gretton, Arthur; Borgwardt, Karster M.; Schölkopf, Bernhard (2006). Correcting Sample Selection Bias by Unlabeled Data. Conference on Neural Information Processing Systems (NIPS). с. 601—608. (англ.)

[15] Shimodaira, Hidetoshi (2000). Improving predictive inference under covariate shift by weighting the log-likelihood function. Journal of Statistical Planning and Inference. 90 (2): 227—244. doi:10.1016/S0378-3758(00)00115-4. (англ.)

[16] . ISBN 978-1-4503-5544-5. {{cite conference}}: Пропущений або порожній |title= (довідка) (англ.)

[17] Arief-Ang, I.B.; Hamilton, M.; Salim, F.D. (1 грудня 2018). A Scalable Room Occupancy Prediction with Transferable Time Series Decomposition of CO2 Sensor Data. ACM Transactions on Sensor Networks. 14 (3–4): 21:1–21:28. doi:10.1145/3217214. (англ.)

[Domain-Adversarial_Training-18] Ganin, Yaroslav; Ustinova, Evgeniya; Ajakan, Hana; Germain, Pascal; Larochelle, Hugo; Laviolette, François; Marchand, Mario; Lempitsky, Victor (2016). Domain-Adversarial Training of Neural Networks (PDF). Journal of Machine Learning Research. 17: 1—35. Архів оригіналу (PDF) за 12 квітня 2021. Процитовано 12 квітня 2021. (англ.)

[ADA-19] Hajiramezanali, Ehsan; Siamak Zamani Dadaneh; Karbalayghareh, Alireza; Zhou, Mingyuan; Qian, Xiaoning (2017). Addressing Appearance Change in Outdoor Robotics with Adversarial Domain Adaptation. arXiv:1703.01461 [cs.RO]. (англ.)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]