reCAPTCHA

Реалізація CAPTCHA від Google

reCAPTCHA — це система захисту вебсайтів від від доступу ботів до обмежених ресурсів, що базується на використанні CAPTCHA, з одночасним використанням здатності людського мозку розпізнавати текст для оцифровування текстів книг.[1]

Логотип reCAPTCHA

16 вересня 2009 року Google придбав reCAPTCHA.[2]

Оригінальна версія пропонувала користувачам розшифрувати текст, проблемний для оптичного розпізнавання або зіставити зображення, щоб з однієї сторони допомогти проектам оцифровування розпізнавати тексти, а з іншої допомогти сайтам захиститись від ботів. До 2011 року reCAPTCHA оцифровувала архіви газети New York Times.[3][4].

Заявлено, що система вирішує 200 мільйонів капч щодня,[5] і налічує такі популярні сайти як Facebook, TicketMaster, Twitter та StumbleUpon серед користувачів ReCAPTHCA.[6] Craigslist почав використовувати reCAPTCHA у липні 2008-го.[7]

У 2014 році Google змінив сервіс від своєї початкової концепції, зосередившись на зменшенні кількості взаємодії з користувачем, необхідної для перевірки користувача, і створюючи задачі з розпізнаванням людини (наприклад, ідентифікація зображень у наборі, які задовольняють умові), лише якщо аналіз поведінки підозрює, що користувач може бути ботом. Така версія сервісу відома як reCAPCHA v2+ або No CAPTCHA.

Версія reCAPCHA v1 (з розпізнаванням текстів) була вимкнена 31 березня 2018 року.[8]

Походження ред.

Початково система розроблена в університеті Карнегі Мелон.

Перші версій reCAPTCHA розробив від гватемальський науковець в сфері комп'ютерних наук, Луїс фон Ана, лауреат стипендії МакАртура. Як ранній розробник CAPTCHA, він зрозумів, що «він мимовільно створив систему, що розтринькує десяти-секундними шматками мільйони годин найціннішого ресурсу: мозкову діяльність людини.»[9]

Процес ред.

 
Приклад завдання від 2007 року, яке містить два слова following та finding.

Відсканований текст піддається аналізу різними системами оптичного розпізнавання символів (OCR). Будь-яке слово, яке розпізнається системами OCR по-різному або якого немає в англійському словнику, позначають як "підозріле". Підозріле слово відображається користувачу сайту без контексту, іноді разом із перевірче словом, яке вже відоме. Якщо користувач правильно вводить перевірче слово, то відповідь на підозріле слово вважається ймовірно правильною, а також припущення що відповідь вводила людина. Якщо декілька разів люди розпізнають підозріле слово однаково, то слово розглядається як розпізнаним, і надалі таке слово використовується як контрольне.

Якщо 6 разів користувачі не розпізнають перевірче слово, то скановане зображення вважається таким, що містить помилки, і не приймає далі участь розпізнаваннях.[10]

У 2012 році reCAPTCHA  почала додатково до розпізнавання слів, використовувати фотографії, зроблені проєктом Google Street View. Вона просила користувачів ідентифікувати зображення пішохідних переходів, вуличних ліхтарів та інших об'єктів.[11] Існує припущення, що ці дані використовує Waymo (дочірня компанія Google) для навчання автономних автомобілів, хоча представник Google це заперечив, стверджуючи, що станом на середину 2021 року дані використовувалися лише для покращення картографічних сервісів Google Maps, зокрема для того, щоб краще розрізняти об'єкти на знімках.[12]

Реалізація ред.

Перевірчі та Підозрілі слова, для reCAPTCHA беруть з центрального сайту проєкту. Це реалізується на сайті за допомогою JavaScript, викликами до серверів reCAPTCHA. Проєкт reCAPTCHA надає бібліотеки для різних мов програмування як ASP.NET чи PHP, та пропонує плагіни до різних вебплатформ та додатків, щоб спростити підключення сервісу на сайті.

Критика та проблеми ред.

Неринкова взаємодія та плата за використання ред.

Мешканка Массачусетс, Gabriela Rojas-Lozano, подала в суд на Google за те цей сервіс фактично використовує її роботу як неоплачувану.[1]

Сервіс reCAPTCHA декларував себе що він є безкоштовним сервісом (тобто задачі CAPTCHA надаються сайтам безкоштовно взаміну за допомогу у оцифруванні)[13], проте CEO Cloudflare Matthew Prince заявив що компанія Google стягує плату за використання reCAPTCHA на веб-сайтах, що здійснюють понад мільйон перевірок reCAPTCHA на місяць.[14]

Також програмне забезпечення reCAPTCHA не є open source-ним.

Безпека та конфіденційність ред.

Інклюзивність ред.

Зрозуміло, що людям у яких поганий зір важко пройти капчу. Google докладав зусиль у цьому напрямку, пропонував таку альтернативу як голосові капчі, але цей вектор розвитку також відкривав можливості для спамерів. Зловмисники збільшили ймовірність успішного проходження капчі.

Mailhide ред.

reCAPTCHA також створив проєкт Mailhide[15], що захищає адреси електронної пошти на вебсторінках від збирання спамботами. Адреса e-mail конвертується у формат, що не дозволяє «павуку» побачити повну адресу. Наприклад, «noreply@example.com» буде перетворене у «nor…@example.com». Щоб побачити повну адресу, відвідувачу потрібно буде натиснути на «…» і пройти CAPTCHA.

Примітки ред.

  1. Luis von Ahn, Ben Maurer, Colin McMillen, David Abraham and Manuel Blum (2008). reCAPTCHA: Human-Based Character Recognition via Web Security Measures (PDF). Science. 321 (5895): 1465—1468. doi:10.1126/science.1160379. Архів оригіналу (PDF) за 7 травня 2009. Процитовано 2 лютого 2010.
  2. Teaching computers to read: Google acquires reCAPTCHA (англ.) . Google. Архів оригіналу за 6 липня 2013. Процитовано 16 вересня 2009.
  3. Learn more (англ.) . reCAPTCHA.net. Архів оригіналу за 6 липня 2013. Процитовано 23 листопада 2008.
  4. Luis von Ahn (2009). NOVA ScienceNow s04e01 (Television production) (англ.) . Подія сталася на 46:58. The New York Times has this huge archive, over 130 years of newspaper archive there. And we've done maybe about 20 years so far of The New York Times in the last few months and I believe we're going to be done next year by just having people do a word at a time. {{cite AV media}}: |access-date= вимагає |url= (довідка)
  5. Архівована копія. Архів оригіналу за 30 січня 2010. Процитовано 2 лютого 2010.{{cite web}}: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title (посилання)
  6. Rubens, Paul (2 жовтня 2007). Spam weapon helps preserve books (англ.) . BBC. Архів оригіналу за 6 липня 2013. Процитовано 2 лютого 2010.
  7. Fight Spam, Digitize Books (англ.) . Craigslist Blog. 2008-06. Архів оригіналу за 6 липня 2013. Процитовано 2 лютого 2010.
  8. Google reCAPTCHA v1 API Shutting Down in March 2018 | ProgrammableWeb. web.archive.org. 20 червня 2020. Процитовано 5 квітня 2024.
  9. Hutchinson, Alex (March 2009), Human Resources: The job you didn't even know you had, The Walrus (англ.) , с. 15—16
  10. Timmer, John (14 серпня 2008). CAPTCHAs work? for digitizing old, damaged texts, manuscripts (англ.) . Ars Technica. Архів оригіналу за 6 липня 2013. Процитовано 9 грудня 2008.
  11. Perez, Sarah (29 березня 2012). Google Now Using ReCAPTCHA To Decode Street View Addresses. TechCrunch (амер.). Процитовано 5 квітня 2024.
  12. Vega, Edward (14 травня 2021). Why captchas are getting harder. Vox (англ.). Процитовано 5 квітня 2024.
  13. FAQ (англ.) . reCAPTCHA.net. Архів оригіналу за 6 липня 2013. Процитовано 2 лютого 2010.
  14. Cloudflare Dumps Google's ReCAPTCHA Over Privacy Concerns, Costs. PCMAG (англ.). Процитовано 5 квітня 2024.
  15. Mailhide: Free Spam Protection (англ.) . reCAPTCHA.net. Архів оригіналу за 30 січня 2010. Процитовано 2 лютого 2010.

Посилання ред.