Wayback Machine: відмінності між версіями
[перевірена версія] | [перевірена версія] |
Вилучено вміст Додано вміст
Goo3 (обговорення | внесок) Немає опису редагування |
м https://lcorp.ulif.org.ua/dictua/ |
||
Рядок 15:
== Історія ==
2001 року засновники [[Інтернет-архів]]у {{нп|Брюстер Кале||en|Brewster Kahle}} і {{нп|Брюс Джилліат||en|Bruce Gilliat}} запустили проект Wayback Machine, щоб розв'язати проблему зникнення контенту
Назву ''Wayback Machine'' вибрали як посилання на пристрій для [[Подорож у часі|подорожей у часі]], який застосовують персонажі {{нп|Містер Пібоді||en|Mr. Peabody}} і Шерман в анімаційному фільмі ''{{нп|Шоу Роккі та Буллвінкля||en|The Rocky and Bullwinkle Show}}''<ref>{{Cite news|url=http://www.businessweek.com/technology/content/feb2002/tc20020228_1080.htm|title=A Library as Big as the World|last=Green|first=Heather|date=February 28, 2002|archiveurl=https://web.archive.org/web/20111220074306/http://www.businessweek.com/technology/content/feb2002/tc20020228_1080.htm|archivedate=December 20, 2011|publisher=BusinessWeek}}</ref><ref>{{Cite news|url=https://www.nytimes.com/2002/09/08/business/responsible-party-brewster-kahle-a-library-of-the-web-on-the-web.html|title=Responsible Party – Brewster Kahle; A Library Of the Web, On the Web|last=Tong|first=Judy|date=September 8, 2002|work=New York Times|accessdate=August 15, 2011|archiveurl=https://web.archive.org/web/20110220181725/http://www.nytimes.com/2002/09/08/business/responsible-party-brewster-kahle-a-library-of-the-web-on-the-web.html|archivedate=February 20, 2011|deadurl=no}}</ref> під назвою «{{iw|WABAC machine||}}» (вимовляється ''вей-бек''). В одній з частин цього анімаційного мультфільму, ''{{нп|Неймовірна історія Пібоді||en|Peabody's Improbable History}}'', персонажі за допомогою машини часу часто стають свідками відомих історичних подій, беруть в них участь і, здебільшого, змінюють їхній перебіг.
Рядок 21:
У травні 1996 року Wayback Machine почала архівувати [[кеш]]овані веб-сторінки, з метою через п'ять років зробити послугу доступною громадськості<ref name="IA: Wayback">{{Cite web|url=https://archive.org/web/|title=Internet Archive: Wayback Machine|website=archive.org|language=en|accessdate=October 15, 2018|archiveurl=https://web.archive.org/web/20140103004344/http://archive.org/web/|archivedate=January 3, 2014|deadurl=no}}</ref>. Від 1996 до 2001 року інформація зберігалася на магнітних плівках, а Кале зрідка дозволяв дослідникам і науковцям під'єднуватись до громіздкої бази даних<ref>{{Cite news|last=Cook|first=John|title=Web site takes you way back in Internet history|url=http://www.seattlepi.com/news/article/Web-site-takes-you-way-back-in-Internet-history-1070534.php|accessdate=August 15, 2011|work=Seattle Post-Intelligencer|date=November 1, 2001|deadurl=no|archiveurl=https://web.archive.org/web/20140812205508/http://www.seattlepi.com/news/article/Web-site-takes-you-way-back-in-Internet-history-1070534.php|archivedate=August 12, 2014}}</ref>. 2001 року, коли архівові виповнилося п'ять років, відбулась церемонія його відкриття громадськості в [[Університет Каліфорнії (Берклі)|Університеті Каліфорнії]] (Берклі)<ref>{{cite journal |url=https://www.wired.com/2001/10/wayback-goes-way-back-on-web/ |title=Wayback Goes Way Back on Web |journal=Wired |author= |date=October 28, 2001 |accessdate=October 16, 2017 |deadurl=no |archiveurl=https://web.archive.org/web/20171016225914/https://www.wired.com/2001/10/wayback-goes-way-back-on-web/ |archivedate=October 16, 2017 |df= }}</ref>. На час запуску Wayback Machine вона вже містила понад 10 мільярдів архівованих сторінок<ref name="Arora (2015)" />.
Нині дані зберігаються на великому кластері обчислювальних вузлів [[Linux]] компанії Інтернет-архів<ref name=":0" />. Він час від часу заново відвідує і архівує нові версії
== Технічні деталі ==
Wayback Machine за допомогою спеціального [[пошуковий робот|пошукового робота]] сканує Інтернет і завантажує всі загальнодоступні веб-сторінки, ієрархію [[Gopher]], електронну дошку оголошень [[Usenet]], а також завантажуване програмне забезпечення<ref name="ArchivingInternet">{{Cite web|last=Kahle|first=Brewster|title=Archiving the Internet|url=http://www.uibk.ac.at/voeb/texte/kahle.html|publisher=Scientific American – March 1997 Issue|accessdate=August 19, 2011|deadurl=no|archiveurl=https://web.archive.org/web/20120403042627/http://www.uibk.ac.at/voeb/texte/kahle.html|archivedate=April 3, 2012}}</ref>. Ці роботи можуть відсканувати не всю доступну в Інтернеті інформацію, оскільки доступ до значної частини даних обмежують власники сайтів, або ж ці дані зберігається в недоступних базах. Щоб подолати неузгодженості частково кешованих
Сканування надходять з різних джерел, деякі імпортуються від третіх сторін, тоді як інші генеруються всередині самого Архіву<ref name=leetaru/>. Наприклад, сканування надходять від [[Фундація Альфреда Слоуна|Фундації Альфреда Слоуна]] і [[Alexa Internet|Alexa]], сканування зроблені ІА для [[Національне управління архівів та документації|Національного управління архівів та документації]] та {{iw|Internet Memory Foundation||}}, дзеркал {{iw|Common Crawl||}}<ref name="leetaru" />. «Worldwide Web Crawls» працює з 2010 року і сканує всемережжя<ref name=":3">{{Cite web|url=https://archive.org/details/widecrawl&tab=about|title=Worldwide Web Crawls|publisher=Internet Archive|last=|date=|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171019222740/https://archive.org/details/widecrawl%26tab%3Dabout|archivedate=October 19, 2017}}</ref><ref name="leetaru" />.
Частота зроблених знімків сторінок змінюється в залежності від
=== Місткість сховища та її зростання ===
Рядок 74:
}}
=== Політики винятків
Історично, Wayback Machine поважав стандарт винятків для роботів ([[Robots.txt]]), визначаючи коли сайт можна сканувати; або ж, якщо вже робот його обійшов, чи ці архіви будуть у відкритому доступі. Власники
==== Оклендська архівна політика ====
Політика винятку заднім числом Wayback Machine частково ґрунтується на ''рекомендаціях з управління запитами на вилучення і збереження архівної цілісності'' ({{lang-en|Recommendations for Managing Removal Requests and Preserving Archival Integrity}}), опублікованих Школою інформаційного управління і систем в [[Університет Каліфорнії (Берклі)|Університеті Каліфорнії]] (Берклі) у 2002 році, які дають власникові сайту право заблокувати доступ до архіву сайту<ref>{{Cite web|title=Recommendations for Managing Removal Requests And Preserving Archival Integrity|date=December 14, 2002|publisher=[[University of California]]|url=http://www2.sims.berkeley.edu/research/conferences/aps/removal-policy.html|accessdate=September 14, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20170918025220/http://www2.sims.berkeley.edu/research/conferences/aps/removal-policy.html|archivedate=September 18, 2017}}</ref>. Wayback дотримується цієї політики, щоб за можливості уникнути дорогих судових розглядів<ref>{{Cite web|title=Retroactive robots.txt removal of past crawls AKA Oakland Archive Policy|date=July 7, 2014|publisher=Internet Archive|url=https://archive.org/post/1019415/retroactive-robotstxt-removal-of-past-crawls-aka-oakland-archive-policy|accessdate=September 14, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171010124036/https://archive.org/post/1019415/retroactive-robotstxt-removal-of-past-crawls-aka-oakland-archive-policy|archivedate=October 10, 2017}}</ref>.
Політика винятку заднім числом Wayback почала послаблюватися 2017 року, коли він перестав зважати на файли robots.txt на американських урядових і військових
== Використання ==
Від 2001 року, коли Wayback Machine стала доступною громадськості, науковці вивчали як способи, якими вона зберігає і збирає дані, так і самі сторінки, що вже містяться в її архіві. Станом на 2013 рік науковці написали близько 350 статей про Wayback Machine, здебільшого в галузях інформаційних технологій, бібліотекознавства та суспільних наук. Представники суспільних наук скористалися Wayback Machine, щоб проаналізувати, як розвиток
Коли Wayback Machine архівує сторінку, вона зазвичай вміщує більшість гіперпосилань, зберігаючи ці посилання активними, коли вони запросто могли бути порушені нестабільністю Інтернету. Індійські вчені вивчали здатність Wayback Machine зберігати гіперпосилання в наукових онлайн-публікаціях і визначили, що вона зберігає трохи більш як половину з них<ref>{{cite journal |last=Sampath Kumar |first=B.T. |last2=Prithviraj |first2=K.R. |date=October 21, 2014 |title=Bringing life to dead: Role of Wayback Machine in retrieving vanished URLs |journal=Journal of Information Science |language=en |volume=41 |issue=1 |pages=71–81 |doi=10.1177/0165551514552752 |issn=0165-5515}}</ref>.
Рядок 92:
=== Обмеження ===
Попри свої можливості, Wayback Machine також має деякі обмеження. У 2014 році затримка між скануванням вмісту сайтів і часом, коли він був доступним на Wayback Machine, становила шість місяців<ref>{{Cite web|url=https://archive.org/about/faqs.php|title=Internet Archive Frequently Asked Questions|last=|first=|date=April 2, 2014|website=Internet Archive|archiveurl=https://web.archive.org/web/20140402223358/https://archive.org/about/faqs.php|archivedate=2014-04-02|deadurl=yes|accessdate=November 23, 2018}}</ref>. Станом на листопад 2018 року час затримки становив від 3 до 10 годин<ref>{{Cite web|url=https://archive.org/about/faqs.php|title=Internet Archive Frequently Asked Questions|website=archive.org|language=en|accessdate=November 23, 2018}}</ref>. Wayback Machine не є «історичним Google»; користувачі самі мають знати URL-адреси
Wayback Machine не містить усіх сторінок, коли-небудь створених, через обмеження свого веб-краулера. Wayback Machine не може повністю архівувати веб-сторінки, які містять інтерактивні функції, як-от Флеш-платформи і форми, написані на JavaScript, бо ці функції вимагають взаємодії з хост-сайтом. Веб-краулеру складно відсканувати все, що закодовано не в HTML (або одному з його варіантів), що часто призводить до зламаних гіперпосилань та відсутніх зображень. Через це веб-краулер не архівує «сторінок-сиріт», які не містять посилань на інші сторінки<ref name=":2">{{Cite web|url=https://archive.org/about/faqs.php|title=Internet Archive Frequently Asked Questions|website=archive.org|language=en|accessdate=October 18, 2018|archiveurl=https://web.archive.org/web/20130420213122/http://archive.org/about/faqs.php|archivedate=April 20, 2013|deadurl=no}}</ref><ref name=":4">{{cite journal |last=Bates |first=Mary Ellen |date=2002 |title=The Wayback Machine |url= |journal=Online |volume=26 |pages=80 |via=EBSCOhost}}</ref>. Краулер Wayback Machine може відсканувати лише наперед визначену кількість гіперпосилань, згідно з наперед заданим обмеженням глибини, тому він не може заархівувати всі гіперпосилання на кожній сторінці<ref name=":3" />.
Деякі власники поміщають на свій сайт файл robot.txt, який не дозволяє Wayback Machine знаходити та архівувати їх. Крім того, власники
=== Як юридичні докази ===
Рядок 134:
* {{iw|Heritrix||}}
* [[Library Genesis]]
* {{нп|The Memory Hole (
* {{нп|Веб-архівування||en|Web archiving}}
* [[WebCite]]
|