reCAPTCHA — це система, що була початково розроблена в університеті Карнегі Мелон і базується на використанні CAPTCHA для оцифровування текстів книг заодно із захистом веб-сайтів від доступу ботами до обмежених ресурсів.[1] 16 вересня 2009 року Google придбав reCAPTCHA.[2] У цей час reCAPTCHA оцифровує архіви газети New York Times.[3] Вже опрацьовано випуски The New York Times за двадцять років і очікується, що у 2010-му буде оцифровано архіви ще за 110 років.[4]

Логотип reCAPTCHA

reCAPTCHA постачає передплачені сайти зображення слів, які не можуть розпізнанні за допомогою програмного забезпечення для оптичного розпізнавання символів. Підписані сайти, які як правило не пов'язані з проєктами оцифрування книг, пропонують ці зображення людям для розпізнавання як слова CAPTCHA, що є частиною звичайного процесу валідації. Потім вони відсилають результати до сервісу reCAPTCHA, який у свою чергу відсилає їх до проєктів оцифрування.

Заявлено, що система вирішує 200 мільйонів капч щодня,[5] і налічує такі популярні сайти як Facebook, TicketMaster, Twitter та StumbleUpon серед передплатників.[6] Craigslist почав використовувати reCAPTCHA у липні 2008-го.[7]

ПоходженняРедагувати

Програма reCAPTCHA походить від гватемальського комп'ютерного науковця Луїс фон Ана, лауреата стипендії МакАртура. Як ранній розробник CAPTCHA, він зрозумів, що «він мимовільно створив систему, що розтринькує десяти-секундними шматками мільйони годин найціннішого ресурсу: мозкову діяльність людини.»[8]

ПроцесРедагувати

Сканований текст аналізується двома різними програмами оптичного розпізнавання символів; у випадку, коли програми дають різний результат, сумнівне слово конвертується у CAPTCHA. Слово відображається разом із уже відомим контрольним словом. Система робить припущення, що якщо людина вводить контрольне слово вірно, то і сумнівне слово теж введено вірно. Ідентифікації, проведеної кожною з OCR-програм, надається значення 0.5, а кожній інтерпретації людини — 1. Як тільки в сумі набирається 2.5, то слово розглядається як розпізнане. Такі слова надалі використовуються повторно як контрольні.[9]

РеалізаціяРедагувати

Тести reCAPTCHA беруть з центрального сайту проєкту reCAPTCHA так як вони містять нерозпізнані слова. Це виконується через JavaScript API із зворотнім викликом сервера до reCAPTCHA після зробленого запиту. Проєкт reCAPTCHA надає бібліотеки для різних мов програмування та додатків, щоб зробити цей процес простішим. reCAPTCHA є безкоштовним сервісом (тобто зображення CAPTCHA надаються сайтам безкоштовно взамін за допомогу у оцифруванні)[10], проте програмне забезпечення reCAPTCHA не є open source-ним.

Також reCAPTCHA пропонує плагіни до різних веб-платформ, як ASP.NET чи PHP, щоб спростити реалізацію сервісу.

MailhideРедагувати

reCAPTCHA також створив проєкт Mailhide[11], що захищає адреси електронної пошти на веб-сторінках від збирання спамботами. Адреса e-mail ковертується у формат, що не дозволяє «павуку» побачити повну адресу. Наприклад, «noreply@example.com» буде перетворене у «nor…@example.com». Щоб побачити повну адресу, відвідувачу потрібно буде натиснути на «…» і пройти CAPTCHA.

ПриміткиРедагувати

  1. Luis von Ahn, Ben Maurer, Colin McMillen, David Abraham and Manuel Blum (2008). reCAPTCHA: Human-Based Character Recognition via Web Security Measures (PDF). Science 321 (5895): 1465–1468. doi:10.1126/science.1160379. 
  2. Teaching computers to read: Google acquires reCAPTCHA (англ.). Google. Архів оригіналу за 2013-07-06. Процитовано 2009-09-16. 
  3. Learn more (англ.). reCAPTCHA.net. Архів оригіналу за 2013-07-06. Процитовано 2008-11-23. 
  4. Luis von Ahn. NOVA ScienceNow s04e01 [Television production]. Процитовано 2009-07-06. Подія відбулася 46:58. “The New York Times has this huge archive, over 130 years of newspaper archive there. And we've done maybe about 20 years so far of The New York Times in the last few months and I believe we're going to be done next year by just having people do a word at a time.”
  5. Архівована копія. Архів оригіналу за 30 січень 2010. Процитовано 2 лютий 2010. 
  6. Rubens, Paul (2007-10-02). Spam weapon helps preserve books (англ.). BBC. Архів оригіналу за 2013-07-06. Процитовано 2010-02-02. 
  7. Fight Spam, Digitize Books (англ.). Craigslist Blog. 2008-06. Архів оригіналу за 2013-07-06. Процитовано 2010-02-02. 
  8. Hutchinson, Alex (March 2009). Human Resources: The job you didn't even know you had. The Walrus (англ.): 15–16. 
  9. Timmer, John (2008-08-14). CAPTCHAs work? for digitizing old, damaged texts, manuscripts (англ.). Ars Technica. Архів оригіналу за 2013-07-06. Процитовано 2008-12-09. 
  10. FAQ (англ.). reCAPTCHA.net. Архів оригіналу за 2013-07-06. Процитовано 2010-02-02. 
  11. Mailhide: Free Spam Protection (англ.). reCAPTCHA.net. Архів оригіналу за 30 січень 2010. Процитовано 2 лютий 2010. 

ПосиланняРедагувати