Generative pre-trained transformer
Generative pre-trained transformer (GPT, укр. породжувальний попередньо тренований трансформер,[1] також генеративний попередньо тренований трансформер,[2] рідше породжувальний попередньо натренований трансформер[3]) — варіант «штучного інтелекту»[4][5] — це сімейство мовних моделей, які зазвичай навчаються на великому корпусі текстових даних для створення тексту, схожого на текст людини. Вони побудовані з використанням декількох блоків трансформної архітектури. Їх можна точно налаштувати для виконання різноманітних завдань обробки природної мови, таких як генерація тексту, переклад мови та класифікація тексту. «Попереднє навчання» в його назві означає початковий процес навчання на великому текстовому корпусі, під час якого модель вчиться передбачати наступне слово в уривку, що забезпечує надійну основу для успішної роботи моделі в наступних завданнях з обмеженою кількістю даних, що стосуються конкретного завдання.
Застосування
ред.- ChatGPT (Chat Generative Pre-trained Transformer)[6] це чат-бот, запущений OpenAI у листопаді 2022 року. Він використовує GPT-3.5, і налаштований (підхід до перенесення навчання)[7] як на кероване навчання, так і навчання з підкріпленням.
- BioGPT це GPT, який фокусується на відповідях на біомедичні запитання.[8] Він розроблений Microsoft.[9]
- ProtGPT2 це GPT, який зосереджується на білковому дизайні.[10]
Історія
ред.Цей розділ містить неперекладені фрагменти англійською мовою. |
11 червня 2018 року OpenAI опублікував статтю під назвою «Покращення розуміння мови за допомогою генеративного попереднього навчання», в якому вони представили Generative Pre-trained Transformer (GPT).[11] На той момент, найефективніші нейронні моделі НЛП в основному використовували кероване навчання з великих обсягів даних, позначених вручну. Ця залежність від керованого навчання обмежувала їх використання в наборах даних, які не були добре анотованими, а також робила навчання надзвичайно великих моделей надто дорогим і трудомістким;[11][12] багато мов (наприклад, суахілі чи гаїтянська креольська) важко перекладати та інтерпретувати за допомогою таких моделей через брак доступного тексту для побудови корпусу.[12] На відміну від цього, «напівкерований» підхід GPT включав два етапи: некерований генеративний етап «попереднього навчання», на якому мета моделювання мови використовувалася для встановлення початкових параметрів, і керований етап дискримінаційного «тонкого налаштування», на якому ці параметри були адаптовані до цільового завдання.[11]
Архітектура | Кількість параметрів | Тренувальні дані | Дата релізу | Вартість тренування | |
---|---|---|---|---|---|
GPT-1 | 12-level, 12-headed Transformer decoder (no encoder), followed by linear-softmax. | 0.12 млрд | BookCorpus:[13] 4.5 ГБ тексту, з 7000 невиданих книг різних жанрів. | 11.06.2018 | 1 місяць на 8 GPU (1.7e+19 FLOP) |
GPT-2 | GPT-1, але з модифікованою нормалізацією | 1.5 млрд | WebText: 40 ГБ тексту, 8 млн документів, 45 млн вебсторінок з позитивними оцінками на Reddit | 14.02.2019(обмежена версія)/05.11.2019(повна версія) | Десятки петафлопс/s-day (1.5e+21 FLOP) |
GPT-3 | GPT-2, but with modification to allow larger scaling. | 175 млрд | 570 ГБ plaintext, 0.4 trillion tokens. Mostly CommonCrawl, WebText, Англійська Вікіпедія, and two books corpora (Books1 and Books2). | 28.05.2020 | 3640 петафлопс/s-day (3.1e+23 FLOP) |
GPT-3.5 | Засекречена | 175 млрд | Інформація засекречена | 15.03.2022 | Інформація засекречена |
GPT-4 | Засекречена | Невідомо | Інформація засекречена | 14.03.2023 | Інформація засекречена (орієнтовно 2.1e+25 FLOP) |
Див. також
ред.Примітки
ред.- ↑ Вживання терміну «породжувальний попередньо тренований трансформер»:
- Байбакова, І.М.; Гасько, О.Л. (2023). Плюси та мінуси використання мовної моделі ChatGPT у навчальному процесі (PDF). Інноваційна педагогіка. 1 (64): 104—107. Архів (PDF) оригіналу за 21 липня 2024.
- Скіцько, В. (25—27 травня 2023). Генеративний штучний інтелект у ланцюгах поставок (PDF). Підприємництво та логістика в умовах сучасних викликів (укр.). Тернопіль: ЗУНУ. с. 281—285. Архів (PDF) оригіналу за 18 квітня 2024.
- Авдєєва, Н. (16 листопада 2023). Використання ChatGPT у викладанні музично-теоретичних дисциплін (PDF). Мистецтво естради: проблеми виконавської практики, системи освіти й наукових досліджень (укр.). Київ: КМАЕЦМ. с. 7—9. Архів (PDF) оригіналу за 3 червня 2024.
- Писаренко, Б.Л. (2021). Важливість технології «GPT-3» для сучасного та майбутнього мовознавства. Вісник студентського наукового товариства ДонНУ імені Василя Стуса (укр.). Вінниця: ДонНУ. 1 (13): 175—178. Архів оригіналу за 19 квітня 2022.
- Торбас, О.О. (2023). Способи використання штучного інтелекту при проведенні наукових досліджень в сфері кримінального процесу на прикладі функціоналу ChatGPT та аналізу категорії «розсуд» у кримінальному провадженні. Правові новели (укр.). Херсон: МУБіП (19): 368—377. doi:10.32782/ln.2023.19.48.
- Андрощук, А.Г.; Малюга, О.С. (2024). Використання штучного інтелекту увищій освіті: стан і тенденції. International Science Journal of Education & Linguistics (укр.). 3 (2): 27—35. doi:10.46299/j.isjel.20240302.04.
- Новицька, О. (2023). Проблеми реалізації академічної доброчесності при організації освітнього процесу. Scientific Collection «InterConf» (укр.). Бостон, США (160): 38—87. Архів оригіналу за 21 липня 2024.
- Лімачко, В.В. (6—12 грудня 2023). Застосування чату GPT у педагогічній діяльності: нові можливості для вчителів інформатики (PDF). Інноваційні практики наукової освіти : матеріали ІІІ Всеукраїнської науково-практичної конференції (укр.). Київ: ІОД НАПНУ. с. 411—413. Архів (PDF) оригіналу за 17 липня 2024.
- Гнатюк, В.О.; Зандер, К.Ю. (1 листопада 2023). Удосконалення роботи системи масового обслуговування з використанням віртуального асистента на базі штучного інтелекту. Інформаційна безпека та комп’ютерні технології (укр.). Кропивницький: ЦНТУ. с. 115—116. Архів оригіналу за 21 липня 2024.
- А.С., Габелок (9—10 лютого 2024). Діджиталізація навчально-виховного процесу у школах: всесвітні напрями та дійсність. Молодий вчений (укр.). Дніпро. с. 53—57. Архів оригіналу за 21 липня 2024.
- Михальчук, В.В. (2021). Основні поняття та практики обчислювального літературознавства (Computational Literary Critique) (M.Sc.) (укр.). Київ: НаУКМА. Архів оригіналу за 21 липня 2024.
- Андрощук, Г. (16 червня 2023). Штучний інтелект у системі правосуддя: інтерв’ю з ChatGTP. Юридична Газета (укр.). Архів оригіналу за 30 березня 2024.
- Польовик, С. (6 грудня 2023). Перспективи і проблеми розвитку штучного інтелекту та програмного додатку ChatGPT. Борисфен Інтел (укр.). Архів оригіналу за 8 грудня 2023.
- ↑ Вживання терміну «генеративний попередньо тренований трансформер»:
- Босий, М.В. (2023). Академічна доброчесність використання новітньої технології ChatGPT у навчальному процесі закладів вищої освіти. У Артюхов, А.; Віхляєв, М.; Волк, Ю. (ред.). Академічна доброчесність, відкрита наука та штучний інтелект: як створити доброчесне освітнє середовище (укр.). Львів — Торунь: Liha-Pres. с. 62—64. doi:10.36059/978-966-397-345-6-19.
- Яцюк, Д. (14 березня 2023). ChatGPT та штучний інтелект — нові інструменти у роботі маркетолога та бренд-менеджера (PDF). Бренд-менеджмент: маркетингові технології (укр.). Київ: ДТЕУ. с. 327—332. ISBN 978-966-918-077-3. Архів (PDF) оригіналу за 5 червня 2024.
- Толочко, С.; Хомич, В.; Колесник, Т. (2023). Великі мовні моделі в освітній і науковій діяльності. Scientific Collection «InterConf» (укр.) (166): 92—100. Архів оригіналу за 21 липня 2024.
- Кривонос, М.П. (2024). Приклад використання генеративного штучного інтелекту в освітньому процесі (PDF). Problems of Science and Technology: the Search for Innovative Solutions (укр.). Мюнхен, Німеччина. с. 151—156. Архів (PDF) оригіналу за 21 липня 2024.
- Терещук, С.; Слободянюк, О. (2023). Штучний інтелект як драйвер інновацій в освіті. Збірник наукових праць Кам'янець-Подільського національного університету імені Івана Огієнка (укр.). Кам'янець-Подільський: КПНУ. 29: 36—40. doi:10.32626/2307-4507.2023-29.36-40.
- Байбакова, І.М.; Гасько, О.Л. (2023). Плюси та мінуси використання мовної моделі ChatGPT у навчальному процесі (PDF). Інноваційна педагогіка. 1 (64): 104—107. Архів (PDF) оригіналу за 21 липня 2024.
- Боднарчук, О. Г. Використання штучного інтелекту ChatGPT у сфері наукових досліджень: переваги та недоліки. У Артюхов, А.; Віхляєв, М.; Волк, Ю. (ред.). Академічна доброчесність, відкрита наука та штучний інтелект: як створити доброчесне освітнє середовище (укр.). Львів — Торунь: Liha-Pres. с. 53—56. doi:10.36059/978-966-397-345-6-15.
- Геренко, С.С. (2024). Штучний інтелект у графічному дизайні: виклики та перспективи (PDF) (Ph.D.) (укр.). Київ: КНУКіМ. Архів (PDF) оригіналу за 21 липня 2024.
- Скіцько, В. (25—27 травня 2023). Генеративний штучний інтелект у ланцюгах поставок (PDF). Підприємництво та логістика в умовах сучасних викликів (укр.). Тернопіль: ЗУНУ. с. 281—285. Архів (PDF) оригіналу за 18 квітня 2024.
- ↑ Вживання терміну «породжувальний попередньо натренований трансформер»:
- Ігнатенко, В.Д. (2024). Місце машинного перекладу у діяльності сучасного перекладача: сучасні дискусії та бачення. У Дьякон, Р.; Мацевко-Бекерська, Л.В.; Бандровська, О.Т.; Бораковський, Л.А. (ред.). Сучасна філологія: теорія, історія, методологія (укр.). Т. 2. Рига, Латвія: Baltija Publishing. с. 523—534. doi:10.30525/978-9934-26-425-2-50.
- Берназюк, Ян (12 квітня 2024). Штучний інтелект як основа цифрового судочинства: помічник чи майбутній конкурент судді? (PDF). Всеукраїнський семінар для суддів місцевих та апеляційних судів «Застосування штучного інтелекту (artificial intelligence) в правосудді: зарубіжний та вітчизняний досвід (укр.). Верховний Суд України. Архів (PDF) оригіналу за 1 червня 2024.
- Берназюк, Ян (11 червня 2024). Інтеграція штучного інтелекту (artificial intelligence) в систему правосуддя: поспішай повільно (PDF) (укр.). Верховний Суд України. Архів (PDF) оригіналу за 18 червня 2024.
- Ланде, Д.В.; Фурашев, В.М. (2023). Парламентський контроль із застосуванням генеративного штучного інтелекту (укр.). Київ: ТОВ «Інжиніринг». ISBN 978-966-2344-82-0. Архів оригіналу за 21 липня 2024.
- ↑ Henry Kissinger, Eric Schmidt and Daniel Huttenlocher. A Robot Wrote This Book Review
- ↑ https://konkurent.ua/publication/112626/shtuchniy-intelekt-scho-bude-yakscho-ludini-ne-vdastsya-prokontroluvati-tehnologiu/ Штучний інтелект: що буде, якщо людині не вдасться проконтролювати технологію
- ↑ Roose, Kevin (5 грудня 2022). The Brilliance and Weirdness of ChatGPT. The New York Times (амер.). Архів оригіналу за 18 січня 2023. Процитовано 26 грудня 2022.
Like those tools, ChatGPT — which stands for "generative pre-trained transformer" — landed with a splash.
- ↑ Quinn, Joanne (2020). Dive into deep learning: tools for engagement. Thousand Oaks, California. с. 551. ISBN 9781544361376. Архів оригіналу за 10 січня 2023. Процитовано 10 січня 2023.
- ↑ Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H та ін. (2022). BioGPT: generative pre-trained transformer for biomedical text generation and mining. Brief Bioinform. 23 (6). doi:10.1093/bib/bbac409. PMID 36156661.
- ↑ Matthias Bastian (29 січня 2023). BioGPT is a Microsoft language model trained for biomedical tasks. The Decoder.
- ↑ Ferruz, N., Schmidt, S. & Höcker, B. та ін. (2022). ProtGPT2 is a deep unsupervised language model for protein design. Nature Communications volume. 13. doi:10.1038/s41467-022-32007-7.
- ↑ а б в Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 червня 2018). Improving Language Understanding by Generative Pre-Training (PDF). OpenAI. с. 12. Архів (PDF) оригіналу за 26 січня 2021. Процитовано 23 січня 2021.
- ↑ а б Tsvetkov, Yulia (22 червня 2017). Opportunities and Challenges in Working with Low-Resource Languages (PDF). Carnegie Mellon University. Архів (PDF) оригіналу за 31 березня 2020. Процитовано 23 січня 2021.
- ↑ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books: 19—27.