Wayback Machine: відмінності між версіями

[перевірена версія][перевірена версія]
Вилучено вміст Додано вміст
Немає опису редагування
м https://lcorp.ulif.org.ua/dictua/
Рядок 15:
 
== Історія ==
2001 року засновники [[Інтернет-архів]]у {{нп|Брюстер Кале||en|Brewster Kahle}} і {{нп|Брюс Джилліат||en|Bruce Gilliat}} запустили проект Wayback Machine, щоб розв'язати проблему зникнення контенту веб-сайтіввебсайтів щоразу, коли їх змінюють або закривають<ref>{{cite journal |last=Notess |first=Greg R. |date=March–April 2002 |title=The Wayback Machine: The Web's Archive |url= |journal=Online |volume=26 |pages=59–61 |via=EBSCOhost}}</ref>. Сервіс дозволяє користувачам переглядати архівні версії [[Веб-сторінка|веб-сторінок]], як вони змінювались з часом, які в архіві називаються «тривимірним індексом»<ref name="FAQ">{{Citation|title=Frequently Asked Questions|url=https://archive.org/about/faqs.php#The_Wayback_Machine|archiveurl=https://web.archive.org/web/20180918131957/https://archive.org/about/faqs.php#The_Wayback_Machine|deadurl=no|chapter=The Wayback Machine|access-date=September 18, 2018|archivedate=September 18, 2018}}</ref>. Кале і Джилліат створили сервіс, сподіваючись заархівувати весь інтернет і забезпечити «загальний доступ до всіх знань»<ref name=":0">{{Cite web|url=https://blog.archive.org/2016/10/25/20000-hard-drives-on-a-mission/|title=20,000 Hard Drives on a Mission {{!}} Internet Archive Blogs|website=blog.archive.org|language=en-US|accessdate=October 15, 2018|archiveurl=https://web.archive.org/web/20181020153727/https://blog.archive.org/2016/10/25/20000-hard-drives-on-a-mission/|archivedate=October 20, 2018|deadurl=no}}</ref>.
 
Назву ''Wayback Machine'' вибрали як посилання на пристрій для [[Подорож у часі|подорожей у часі]], який застосовують персонажі {{нп|Містер Пібоді||en|Mr. Peabody}} і Шерман в анімаційному фільмі ''{{нп|Шоу Роккі та Буллвінкля||en|The Rocky and Bullwinkle Show}}''<ref>{{Cite news|url=http://www.businessweek.com/technology/content/feb2002/tc20020228_1080.htm|title=A Library as Big as the World|last=Green|first=Heather|date=February 28, 2002|archiveurl=https://web.archive.org/web/20111220074306/http://www.businessweek.com/technology/content/feb2002/tc20020228_1080.htm|archivedate=December 20, 2011|publisher=BusinessWeek}}</ref><ref>{{Cite news|url=https://www.nytimes.com/2002/09/08/business/responsible-party-brewster-kahle-a-library-of-the-web-on-the-web.html|title=Responsible Party – Brewster Kahle; A Library Of the Web, On the Web|last=Tong|first=Judy|date=September 8, 2002|work=New York Times|accessdate=August 15, 2011|archiveurl=https://web.archive.org/web/20110220181725/http://www.nytimes.com/2002/09/08/business/responsible-party-brewster-kahle-a-library-of-the-web-on-the-web.html|archivedate=February 20, 2011|deadurl=no}}</ref> під назвою «{{iw|WABAC machine||}}» (вимовляється ''вей-бек''). В одній з частин цього анімаційного мультфільму, ''{{нп|Неймовірна історія Пібоді||en|Peabody's Improbable History}}'', персонажі за допомогою машини часу часто стають свідками відомих історичних подій, беруть в них участь і, здебільшого, змінюють їхній перебіг.
Рядок 21:
У травні 1996 року Wayback Machine почала архівувати [[кеш]]овані веб-сторінки, з метою через п'ять років зробити послугу доступною громадськості<ref name="IA: Wayback">{{Cite web|url=https://archive.org/web/|title=Internet Archive: Wayback Machine|website=archive.org|language=en|accessdate=October 15, 2018|archiveurl=https://web.archive.org/web/20140103004344/http://archive.org/web/|archivedate=January 3, 2014|deadurl=no}}</ref>. Від 1996 до 2001 року інформація зберігалася на магнітних плівках, а Кале зрідка дозволяв дослідникам і науковцям під'єднуватись до громіздкої бази даних<ref>{{Cite news|last=Cook|first=John|title=Web site takes you way back in Internet history|url=http://www.seattlepi.com/news/article/Web-site-takes-you-way-back-in-Internet-history-1070534.php|accessdate=August 15, 2011|work=Seattle Post-Intelligencer|date=November 1, 2001|deadurl=no|archiveurl=https://web.archive.org/web/20140812205508/http://www.seattlepi.com/news/article/Web-site-takes-you-way-back-in-Internet-history-1070534.php|archivedate=August 12, 2014}}</ref>. 2001 року, коли архівові виповнилося п'ять років, відбулась церемонія його відкриття громадськості в [[Університет Каліфорнії (Берклі)|Університеті Каліфорнії]] (Берклі)<ref>{{cite journal |url=https://www.wired.com/2001/10/wayback-goes-way-back-on-web/ |title=Wayback Goes Way Back on Web |journal=Wired |author= |date=October 28, 2001 |accessdate=October 16, 2017 |deadurl=no |archiveurl=https://web.archive.org/web/20171016225914/https://www.wired.com/2001/10/wayback-goes-way-back-on-web/ |archivedate=October 16, 2017 |df= }}</ref>. На час запуску Wayback Machine вона вже містила понад 10 мільярдів архівованих сторінок<ref name="Arora (2015)" />.
 
Нині дані зберігаються на великому кластері обчислювальних вузлів [[Linux]] компанії Інтернет-архів<ref name=":0" />. Він час від часу заново відвідує і архівує нові версії веб-сайтіввебсайтів (див. технічні дані нижче)<ref name="leetaru" />. Сторінки також можна архівувати вручну, вводячи їх [[Уніфікований локатор ресурсів|URL-адреси]] в поле пошуку, за умови, що веб-сайтивебсайти дозволяють пошуковому роботу Wayback Machine просканувати їх і зберегти дані<ref name="IA: Wayback" />.
 
== Технічні деталі ==
Wayback Machine за допомогою спеціального [[пошуковий робот|пошукового робота]] сканує Інтернет і завантажує всі загальнодоступні веб-сторінки, ієрархію [[Gopher]], електронну дошку оголошень [[Usenet]], а також завантажуване програмне забезпечення<ref name="ArchivingInternet">{{Cite web|last=Kahle|first=Brewster|title=Archiving the Internet|url=http://www.uibk.ac.at/voeb/texte/kahle.html|publisher=Scientific American – March 1997 Issue|accessdate=August 19, 2011|deadurl=no|archiveurl=https://web.archive.org/web/20120403042627/http://www.uibk.ac.at/voeb/texte/kahle.html|archivedate=April 3, 2012}}</ref>. Ці роботи можуть відсканувати не всю доступну в Інтернеті інформацію, оскільки доступ до значної частини даних обмежують власники сайтів, або ж ці дані зберігається в недоступних базах. Щоб подолати неузгодженості частково кешованих веб-сайтіввебсайтів, 2005 року компанія Інтернет архів створила сайт Archive-It.org як засіб, що дозволяє установам і творцям контенту за власним бажанням збирати і зберігати зібрання цифрового контенту та створювати цифрові архіви<ref>{{Cite web|url=https://blog.archive.org/2014/10/27/archive-it-crawling-the-web-together/|title=Archive-It: Crawling the Web Together|website=Internet Archive Blogs|last=Jeff Kaplan|date=October 27, 2014|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171012212827/http://blog.archive.org/2014/10/27/archive-it-crawling-the-web-together/|archivedate=October 12, 2017}}</ref>.
 
Сканування надходять з різних джерел, деякі імпортуються від третіх сторін, тоді як інші генеруються всередині самого Архіву<ref name=leetaru/>. Наприклад, сканування надходять від [[Фундація Альфреда Слоуна|Фундації Альфреда Слоуна]] і [[Alexa Internet|Alexa]], сканування зроблені ІА для [[Національне управління архівів та документації|Національного управління архівів та документації]] та {{iw|Internet Memory Foundation||}}, дзеркал {{iw|Common Crawl||}}<ref name="leetaru" />. «Worldwide Web Crawls» працює з 2010 року і сканує всемережжя<ref name=":3">{{Cite web|url=https://archive.org/details/widecrawl&tab=about|title=Worldwide Web Crawls|publisher=Internet Archive|last=|date=|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171019222740/https://archive.org/details/widecrawl%26tab%3Dabout|archivedate=October 19, 2017}}</ref><ref name="leetaru" />.
 
Частота зроблених знімків сторінок змінюється в залежності від веб-сайтувебсайту<ref name=leetaru/>. Сайти у «Worldwide Web Crawls» вміщені в «список сканувань», один сайт архівується раз за сканування<ref name="leetaru" />. Сканування може тривати кілька місяців або навіть років у залежності від розміру<ref name="leetaru" />. Наприклад, «Wide Crawl Number 13» розпочався 9 січня 2015 року й завершився 11 липня 2016 року<ref>{{Cite web|url=https://archive.org/details/wide00013?&sort=-publicdate&page=3|title=Wide Crawl Number 13|publisher=Internet Archive|last=|date=|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171019223332/https://archive.org/details/wide00013?&sort=-publicdate&page=3|archivedate=October 19, 2017}}</ref>. Однак, в один і той самий час може відбуватись кілька сканувань, і сайт може бути вміщено в понад один список сканувань, тож частота сканування сайтів змінюється в широких межах<ref name="leetaru">{{Cite web|url=https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|title=The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web|website=Forbes|last=Kalev Leetaru|date=January 28, 2016|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171016230439/https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|archivedate=October 16, 2017}}</ref>.
 
=== Місткість сховища та її зростання ===
Рядок 74:
}}
 
=== Політики винятків веб-сайтіввебсайтів ===
Історично, Wayback Machine поважав стандарт винятків для роботів ([[Robots.txt]]), визначаючи коли сайт можна сканувати; або ж, якщо вже робот його обійшов, чи ці архіви будуть у відкритому доступі. Власники веб-сайтувебсайту мають можливість зробити його недоступним для Wayback Machine за допомогою robots.txt. Правила robots.txt застосовуються заднім числом; якщо власник сайту заблокував для інтернет-архіву доступ до нього, то всі заархівовані раніше сторінки з цього домену також одразу ж стають недоступними. Крім того, працівники Internet Archive заявили, що «іноді власник сайту зв'язується з нами і просить зупинити сканування та архівацію сайту. Ми виконуємо ці запити»<ref>[https://web.archive.org/collections/web/faqs.html#exclusions Some sites are not available because of Robots.txt or other exclusions] {{webarchive |url=https://web.archive.org/web/20110415130934/http://web.archive.org/collections/web/faqs.html |date=April 15, 2011}}</ref>. Крім того, на сайті написано: «Інтернет-архів не зацікавлений у скануванні веб-сайтувебсайту та інших інтернет-документів, або наданні доступу до них, якщо власники не хочуть, щоб вони були в зібранні»<ref>[https://www.archive.org/about/faqs.php#2 How can I remove my site's pages from the Wayback Machine?] {{webarchive |url=https://web.archive.org/web/20140417122600/https://archive.org/about/faqs.php |date=April 17, 2014}}</ref><ref>{{Cite news|url=https://motherboard.vice.com/en_us/article/nekzzq/wayback-machine-deleting-evidence-flexispy|title=The Wayback Machine Is Deleting Evidence of Malware Sold to Stalkers|last=Cox|first=Joseph|date=May 22, 2018|accessdate=May 23, 2018|archiveurl=https://archive.is/20180522192132/https://motherboard.vice.com/en_us/article/nekzzq/wayback-machine-deleting-evidence-flexispy|archivedate=May 23, 2018|deadurl=no}}</ref>.
 
==== Оклендська архівна політика ====
Політика винятку заднім числом Wayback Machine частково ґрунтується на ''рекомендаціях з управління запитами на вилучення і збереження архівної цілісності'' ({{lang-en|Recommendations for Managing Removal Requests and Preserving Archival Integrity}}), опублікованих Школою інформаційного управління і систем в [[Університет Каліфорнії (Берклі)|Університеті Каліфорнії]] (Берклі) у 2002 році, які дають власникові сайту право заблокувати доступ до архіву сайту<ref>{{Cite web|title=Recommendations for Managing Removal Requests And Preserving Archival Integrity|date=December 14, 2002|publisher=[[University of California]]|url=http://www2.sims.berkeley.edu/research/conferences/aps/removal-policy.html|accessdate=September 14, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20170918025220/http://www2.sims.berkeley.edu/research/conferences/aps/removal-policy.html|archivedate=September 18, 2017}}</ref>. Wayback дотримується цієї політики, щоб за можливості уникнути дорогих судових розглядів<ref>{{Cite web|title=Retroactive robots.txt removal of past crawls AKA Oakland Archive Policy|date=July 7, 2014|publisher=Internet Archive|url=https://archive.org/post/1019415/retroactive-robotstxt-removal-of-past-crawls-aka-oakland-archive-policy|accessdate=September 14, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171010124036/https://archive.org/post/1019415/retroactive-robotstxt-removal-of-past-crawls-aka-oakland-archive-policy|archivedate=October 10, 2017}}</ref>.
 
Політика винятку заднім числом Wayback почала послаблюватися 2017 року, коли він перестав зважати на файли robots.txt на американських урядових і військових веб-сайтахвебсайтах як для їх сканування, так і показу відсканованих веб-сторінок. Станом на квітень 2017 Wayback ігнорує robots.txt в ширших межах, не тільки для урядових сайтів США<ref>{{Cite web|url=http://blog.archive.org/2017/04/17/robots-txt-meant-for-search-engines-dont-work-well-for-web-archives/|title=Robots.txt meant for search engines don't work well for web archives|website=Internet Archive Blogs|last=Mark Graham|date=April 17, 2017|accessdate=April 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20170417131508/http://blog.archive.org/2017/04/17/robots-txt-meant-for-search-engines-dont-work-well-for-web-archives/|archivedate=April 17, 2017}}</ref><ref>{{Cite web|title=Archivierung des Internets: Internet Archive ignoriert künftig robots.txt|url=https://www.heise.de/newsticker/meldung/Archivierung-des-Internets-Internet-Archive-ignoriert-kuenftig-robots-txt-3693558.html|publisher=heise online|accessdate=May 14, 2017|language=de-DE|deadurl=no|archiveurl=https://web.archive.org/web/20170427035659/https://www.heise.de/newsticker/meldung/Archivierung-des-Internets-Internet-Archive-ignoriert-kuenftig-robots-txt-3693558.html|archivedate=April 27, 2017}}</ref><ref>{{Cite web|title=Suchmaschinen: Internet Archive will künftig Robots.txt-Einträge ignorieren – Golem.de|url=https://www.golem.de/news/suchmaschinen-internet-archive-will-kuenftig-robots-txt-eintraege-ignorieren-1704-127446.html|accessdate=May 14, 2017|language=de-DE|deadurl=no|archiveurl=https://web.archive.org/web/20170619210648/https://www.golem.de/news/suchmaschinen-internet-archive-will-kuenftig-robots-txt-eintraege-ignorieren-1704-127446.html|archivedate=June 19, 2017}}</ref><ref>{{Cite web|title=Internet Archive will ignore robots.txt files to keep historical record accurate|url=https://www.digitaltrends.com/computing/internet-archive-robots-txt/|publisher=Digital Trends|accessdate=May 14, 2017|date=April 24, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20170516130029/https://www.digitaltrends.com/computing/internet-archive-robots-txt/|archivedate=May 16, 2017}}</ref>.
 
== Використання ==
Від 2001 року, коли Wayback Machine стала доступною громадськості, науковці вивчали як способи, якими вона зберігає і збирає дані, так і самі сторінки, що вже містяться в її архіві. Станом на 2013 рік науковці написали близько 350 статей про Wayback Machine, здебільшого в галузях інформаційних технологій, бібліотекознавства та суспільних наук. Представники суспільних наук скористалися Wayback Machine, щоб проаналізувати, як розвиток веб-сайтіввебсайтів, починаючи з середини 1990-х років і дотепер вплинув на темпи зростання компаній<ref name="Arora (2015)" />.
 
Коли Wayback Machine архівує сторінку, вона зазвичай вміщує більшість гіперпосилань, зберігаючи ці посилання активними, коли вони запросто могли бути порушені нестабільністю Інтернету. Індійські вчені вивчали здатність Wayback Machine зберігати гіперпосилання в наукових онлайн-публікаціях і визначили, що вона зберігає трохи більш як половину з них<ref>{{cite journal |last=Sampath Kumar |first=B.T. |last2=Prithviraj |first2=K.R. |date=October 21, 2014 |title=Bringing life to dead: Role of Wayback Machine in retrieving vanished URLs |journal=Journal of Information Science |language=en |volume=41 |issue=1 |pages=71–81 |doi=10.1177/0165551514552752 |issn=0165-5515}}</ref>.
Рядок 92:
 
=== Обмеження ===
Попри свої можливості, Wayback Machine також має деякі обмеження. У 2014 році затримка між скануванням вмісту сайтів і часом, коли він був доступним на Wayback Machine, становила шість місяців<ref>{{Cite web|url=https://archive.org/about/faqs.php|title=Internet Archive Frequently Asked Questions|last=|first=|date=April 2, 2014|website=Internet Archive|archiveurl=https://web.archive.org/web/20140402223358/https://archive.org/about/faqs.php|archivedate=2014-04-02|deadurl=yes|accessdate=November 23, 2018}}</ref>. Станом на листопад 2018 року час затримки становив від 3 до 10 годин<ref>{{Cite web|url=https://archive.org/about/faqs.php|title=Internet Archive Frequently Asked Questions|website=archive.org|language=en|accessdate=November 23, 2018}}</ref>. Wayback Machine не є «історичним Google»; користувачі самі мають знати URL-адреси веб-сайтіввебсайтів, які вони хочуть переглянути<ref name=":4" />. Існує функція «Site Search» (пошук сайту), яка дозволяє користувачам знайти сайт на основі слів, що описують сайт, а не слів, знайдених на самих веб-сторінках<ref name=":4" />.
 
Wayback Machine не містить усіх сторінок, коли-небудь створених, через обмеження свого веб-краулера. Wayback Machine не може повністю архівувати веб-сторінки, які містять інтерактивні функції, як-от Флеш-платформи і форми, написані на JavaScript, бо ці функції вимагають взаємодії з хост-сайтом. Веб-краулеру складно відсканувати все, що закодовано не в HTML (або одному з його варіантів), що часто призводить до зламаних гіперпосилань та відсутніх зображень. Через це веб-краулер не архівує «сторінок-сиріт», які не містять посилань на інші сторінки<ref name=":2">{{Cite web|url=https://archive.org/about/faqs.php|title=Internet Archive Frequently Asked Questions|website=archive.org|language=en|accessdate=October 18, 2018|archiveurl=https://web.archive.org/web/20130420213122/http://archive.org/about/faqs.php|archivedate=April 20, 2013|deadurl=no}}</ref><ref name=":4">{{cite journal |last=Bates |first=Mary Ellen |date=2002 |title=The Wayback Machine |url= |journal=Online |volume=26 |pages=80 |via=EBSCOhost}}</ref>. Краулер Wayback Machine може відсканувати лише наперед визначену кількість гіперпосилань, згідно з наперед заданим обмеженням глибини, тому він не може заархівувати всі гіперпосилання на кожній сторінці<ref name=":3" />.
 
Деякі власники поміщають на свій сайт файл robot.txt, який не дозволяє Wayback Machine знаходити та архівувати їх. Крім того, власники веб-сайтіввебсайтів також можуть безпосередньо зв'язатися з Інтернет-архівом і просити, щоб їх сторінки було вилучено з архіву<ref name=":2" />.
 
=== Як юридичні докази ===
Рядок 134:
* {{iw|Heritrix||}}
* [[Library Genesis]]
* {{нп|The Memory Hole (веб-сайтвебсайт)|The Memory Hole|en|The Memory Hole (web site)}}
* {{нп|Веб-архівування||en|Web archiving}}
* [[WebCite]]