Дружній штучний інтелект

«Дружній штучний інтелект» або «ДШІ» (англ: FAI) — концепція штучного інтелекту (ШІ), який мав би скоріше позитивний, ніж негативний вплив на людство. Термін ДШІ також використовується стосовно області досліджень, метою яких є створення такого ШІ. Цей термін в першу чергу відноситься до тих ШІ-програм, що мають здатність значно впливати на людство, таких, наприклад, чий інтелект порівнюється з людським або перевершує його. (Див. Технологічна сингулярність, Сильний штучний інтелект). Цей конкретний термін був запропонований Елізером Юдковським з Singularity Institute for Artificial Intelligence як технічний термін, що відрізняється від звичайного повсякденного значення терміна «дружній». Однак проблема, яка позначається цим терміном, давніша.

Цілі та визначення Дружнього ШІ ред.

Багато експертів вважають, що системи ШІ, цілі яких не повністю ідентичні або не вирівняні відповідно до наших цілей, є за своєю природою небезпечними, якщо тільки не буде вжито крайні заходи, щоб забезпечити безпеку людства. Десятиліття назад Річард Мічанскі, один з піонерів «машинного навчання», говорив своїм студентам, що будь-який чужий розум, включаючи машинний інтелект, незбагненний і в силу цього небезпечний. Відносно недавно Е. Юдківські закликав до створення Дружнього ШІ, щоб зменшити глобальний ризик ворожого інтелекту. Стефан Омохундро стверджує, що будь-які просунуті системи ШІ (якщо не приймати проти цього заходів) будуть проявляти кілька базових інстинктів / потреб, властивих будь-яким системам, керованим через задані цілі, і що ці інстинкти приведуть до поведінки ШІ, яка буде ранжируватися між непослухом і просто небезпечною поведінкою.

Згідно з прихильниками створення Дружнього ШІ, цілі майбутнього ШІ будуть довільнішими і чужорідними, ніж це зазвичай представляється в науковій фантастиці і в ранній футурологічної літературі, в якій ШІ зазвичай антропоморфний і розділяє звичайний людський хід думки. Оскільки немає жодних гарантій, що ШІ побачить «очевидні» аспекти моралі і відповідальності, які більшість людей сприймають без зусиль, то в силу цього ШІ з інтелектом або хоча б фізичними можливостями, що перевершують наші, може почати дії, які з людської точки зору будуть безглуздими або просто дикими. Один із прикладів, який приводить Юдківські, полягає в тому, що ШІ, який спочатку був створений щоб довести гіпотезу Рімана, самопокращився аж до рівня надлюдського інтелекту і створить молекулярну нанотехнологію, оскільки він хоче переробити всю матерію в Сонячній системі в обчислювальне середовище для вирішення даної математичної проблеми, вбиваючи при цьому людей, які насміляться йому заперечити. З точки зору людей така поведінка може бути абсурдною, але, як підкреслює теорія дружності ШІ, це відбувається тільки тому, що ми розвинулися з певною вродженої чутливістю, яку ШІ, не розділяючий нашої еволюційної історії, може просто не розуміти, якщо ми йому цього не пояснимо. Чим гірше ШІ розуміє людей, тим простіше йому буде їх просто вбити.

Прихильники Дружнього ШІ підкреслюють, що меншу небезпеку становить собою надлюдський ШІ, який навмисне прагне «нашкодити» людям, ніж ШІ, який катастрофічно «байдужий» до них. Надінтелектуальний ШІ може бути небезпечний для людей, якщо не вжито спеціальні кроки, щоб він був до них позитивно налаштований. І головне завдання реалізації Дружнього ШІ - зробити це ефективно. Створення сильного ШІ навмисно або квазі-навмисно без вбудованого режиму дружності повинно розглядатися як вкрай аморальна дія, подібно тому, якби батько ростив дитину, абсолютно не піклуючись про те, що ця дитина може вирости психопатом.

Х'юго де Гаріс відомий своєю думкою, що глобальна війна між прихильниками і противниками ШІ, яка призведе до мільярдів смертей, відбудеться до кінця 21 століття. Це пророцтво викликало суперечки і дебати в співтоваристві дослідників ШІ, і деякі з його найбільш відомих членів, такі як Кевін Ворік, Білл Джой, Рей Курцвейл, Ганс Моравек і Роджер Пенроуз, висловили свої думки про те, чи можливе таке майбутнє.

Думка про те, що людські цілі є настільки довільними, слідує безпосередньо з сучасних успіхів еволюційної психології. Теорія дружності ШІ стверджує, що більшість дискусій про ШІ страждають від аналогій між ШІ і людьми, а також тверджень про те, що будь-які можливі розуми повинні проявляти характеристики, які насправді є психологічними адаптаціями, що існують у людей (і в інших тварин) тільки тому , що вони були сприятливими і закріпилися завдяки природному відбору. Багато прихильників Дружнього ШІ вважають, що ШІ, здатний репрограмувати і підсилювати сам себе (Насінний ШІ^[en]), ймовірно, швидко обжене статичний людський інтелект і що його здатність посилювати себе дуже швидко обжене здатність людей здійснювати будь-який змістовний контроль над ним. Оксфордський філософ Нік Бостром пише:

«В принципі, ми повинні вважати, що надінтелект може досягти будь-яких цілей, які у нього є. В силу цього особливо важливо, щоб ті цілі, які ми йому дамо, і взагалі вся його система мотивації була дружня до людини»

Важливо підкреслити, що «Теорія Дружнього ШІ» Юдковськи не має нічого спільного з ідеями про те, що ШІ можна зробити безпечним шляхом включення конкретних специфікацій або структур в його програмну або апаратну архітектуру, звичайним прикладом чого є Три закони робототехніки Азімова, які, в принципі, повинні спонукати машину не робити нічого шкідливого для людини, або знищувати те, що людині загрожує. Теорія дружності натомість стверджує, що включення таких законів буде марним, оскільки, незалежно від того, як такі закони сформульовані або описані, справді інтелектуальна машина з цієї (людського рівня або вище) творчої здатністю може придумати необмежено багато способів обійти ці закони, незалежно від того, як широко або вузько вони сформульовані. Замість цього Теорія Дружнього ШІ стверджує, виходячи з досвіду біопсихології, що якщо справді інтелектуальний розум має мотивацію виконати якусь функцію, результат якої буде обмежений якимись бар'єрами, накладеними на неї, то, за наявності достатнього часу і ресурсів, він знайде шлях до подолання цих бар'єрів (що люди робили неодноразово в ході історії технологічної цивілізації). Таким чином, правильною реакцією на загрозу з боку такого інтелекту була б спроба створити такі системи ШІ, які відчували б мотивацію не завдавати шкоди іншим розумним істотам (в будь-якому сенсі слова «шкода»), і з цією метою вигадували б нові методи захисту від шкоди. У цьому сценарії ШІ буде «вільний» вбити, поневолити або поранити людську істоту, але він буде активно не бажати це робити - і зробить це тільки в тому випадку, якщо, виходячи з цього ж бажання, якась набагато більша користь буде досягнута для цієї людини чи людства в цілому. (Але ця ідея розглянута також Азімовим в циклі творів про позитронних роботах під назвою «Нульовий закон».)

Таким чином ШІ, сконструйований на підставі системи дружності, робитиме все, що в його силах, щоб люди не завдали собі «шкоди», - і щоб забезпечити те, що ні він, ні будь-які інші ШІ, які будуть побудовані, ні за яких модифікацій ніколи не захочуть завдавати шкоди людям. Тобто він буде прагнути до зменшення шкоди, завданої всім розумним істотам, до безкінечності.

Юдковськи написав:

«Ганді не хотів здійснювати вбивств, і не хотів модифікувати себе так, щоб змогти це хотіти».

Однією з найбільш змістовних недавніх гіпотез в області дружності ШІ є модель Когерентного Екстрапольованого Волевиявлення, також розроблена Юдковські. Ідея КЕВ полягає в тому, що перший ШІ складе модель людства і на підставі неї з'ясує, який саме ШІ, з якою системою цілей буде найсприятливіший з його точки зору. Багато інших дослідників вважають, що колективна воля людства не зійдеться в єдиний когерентний набір цілей, навіть якщо ми будемо знати більше і думати швидше, ніж зараз.

Вимоги для ДШІ і ефективний ДШІ ред.

Вимоги ефективності ДШІ, як внутрішні, щоб захистити людство від непередбачуваних наслідків своїх дій, так і зовнішні, щоб захистити від можливих недружніх ШІ:

Дружність - «ШІ відчуває симпатію до людства і всього живого, і прагне забезпечити благо всього живого, і прагне діяти в його інтересах».
Збереження дружності - «ШІ повинен прагнути передати Дружність всім своїм нащадкам і включати свою систему цінностей в інші об'єкти такого роду».
Інтелект - «ШІ має бути досить розумний, щоб реалізовувати альтруїстичну поведінку дуже справедливо, так щоб воно не було добре для одних, але погано для інших, і ефективно балансувати інтереси».
Самовдосконалення - «ШІ повинен прагнути до поліпшення себе і всього життя, виходячи з уявлень про добро, але при цьому поважати усвідомлений вибір тих, хто відмовився самопокращуватись».
Перевага того, хто почав першим - «перший ШІ, як рухомий цілями та самостійно покращується, переможе, оскільки він буде досить сильний, щоб запобігти появі інших ШІ, які можуть мати інші цілі».

Просування і підтримка ред.

Просування Дружнього ШІ є одним з основних завдань Singularity Institute for Artificial Intelligence, так само як і отримання фінансування цього проекту і в кінцевому рахунку створення насіннєвого ШІ, який буде втілювати ідеї Дружнього ШІ. Кілька відомих футурологів висловилися в підтримку теорії Дружнього ШІ, включаючи письменника і винахідника Рея Курцвейля, фахівця з продовження життя Обрі ді Грея^[en] і співзасновника World Transhumanist Association Ніка Бострома.

На російську мову перекладено статтю Юдковські «Штучний інтелект як позитивний і негативний фактор глобального ризику», де розкрита основна проблематика ДШІ^[1], а також «SIAI рекомендації по створенню дружнього ІІ»^[2] та гумористичний текст «Таблиця критичних помилок Дружнього ШІ».^[3]

Критика ред.

Найпомітнішим критиком теорії Дружнього ШІ є Білл Хіббард, автор книги «Надінтелектуальні машини», який вважає цю теорію неповною. Хіббард пише, що повинно бути більше політичної участі в питаннях створення ШІ і ШІ-моралі. Він також вважає, що перший ЩІ може бути створений тільки потужними приватними корпораціями (що Юдковські вважає хибним), і ці транснаціональні корпорації не будуть мати ніяких спонукань реалізувати дружність. Критикуючи рекомендації SIAI по створенню ДШІ, він запропонував архітектуру цілей для ШІ, в якій людське щастя визначається через людську поведінку, виражає щастя, зокрема, вираз посмішки на обличчі. Юдковські відповів на цю критику, сказавши, що така функція корисності скоріше була б задоволена, якби вся сонячна система була заповнена мікроскопічними усміхненими манекенами, ніж завдяки реальному щастю людей. Інші, наприклад, фахівець з ШІ Бен Герцель, підтримують основну ідею про дружній ШІ, але визнають, що гарантувати дружність неможливо.

Див. також ред.

Бібліографія ред.

Юдковски, Э. Искусственный интеллект как позитивный и негативный фактор глобального риска. [Архівовано 10 лютого 2012 у Wayback Machine.]. Вышла в книге «Риски глобальной катастрофы», Оксфорд, 2008.

Примітки ред.

↑ Е.Юдковски Искусственный интеллект как позитивный и негативный фактор глобального риска. Архів оригіналу за 10 лютого 2012. Процитовано 26 лютого 2012.
↑ Siai рекомендации по созданию дружественного ии (Алексей Турчин) / Проза.ру — национальный сервер современной прозы. Архів оригіналу за 9 лютого 2009. Процитовано 26 лютого 2012.
↑ Таблица критических ошибок дружественного ИИ (Алексей Турчин) [Архівовано 10 лютого 2009 у Wayback Machine.] / Проза.ру — национальный сервер современной прозы

Посилання ред.

Ethical Issues in Advanced Artificial Intelligence [Архівовано 8 жовтня 2018 у Wayback Machine.] by Nick Bostrom
What is Friendly AI? — A brief explanation of Friendly AI by the Singularity Institute.
SIAI Guidelines on Friendly AI — The Singularity Institute’s Official Guidelines
Creating Friendly AI — A near book-length explanation from the SIAI
Critique of the SIAI Guidelines on Friendly AI [Архівовано 4 лютого 2012 у Wayback Machine.] — by Bill Hibbard
Commentary on SIAI’s Guidelines on Friendly AI [Архівовано 11 лютого 2012 у Wayback Machine.] — by Peter Voss.
Respectful AI Project Page by Tim Freeman

[1] Е.Юдковски Искусственный интеллект как позитивный и негативный фактор глобального риска. Архів оригіналу за 10 лютого 2012. Процитовано 26 лютого 2012.

[2] Siai рекомендации по созданию дружественного ии (Алексей Турчин) / Проза.ру — национальный сервер современной прозы. Архів оригіналу за 9 лютого 2009. Процитовано 26 лютого 2012.

[3] Таблица критических ошибок дружественного ИИ (Алексей Турчин) [Архівовано 10 лютого 2009 у Wayback Machine.] / Проза.ру — национальный сервер современной прозы

[1]

[2]

[3]