Wayback Machine: відмінності між версіями

[перевірена версія][перевірена версія]
Вилучено вміст Додано вміст
оформлення
оформлення
Рядок 23:
Wayback Machine почала архівувати [[кеш]]овані веб-сторінки 1996 року, з метою зробити послугу доступною громадськості п'ять років по тому.<ref name="IA: Wayback">{{Cite web|url=https://archive.org/web/|title=Internet Archive: Wayback Machine|website=archive.org|language=en|accessdate=October 15, 2018|archiveurl=https://web.archive.org/web/20140103004344/http://archive.org/web/|archivedate=January 3, 2014|deadurl=no}}</ref> Від 1996 до 2001 року інформація зберігалася на цифрових плівках, а Кале зрідка дозволяв дослідникам і дослідникам і науковцям підключатися до громіздкої бази даних.<ref>{{Cite news|last=Cook|first=John|title=Web site takes you way back in Internet history|url=http://www.seattlepi.com/news/article/Web-site-takes-you-way-back-in-Internet-history-1070534.php|accessdate=August 15, 2011|work=Seattle Post-Intelligencer|date=November 1, 2001|deadurl=no|archiveurl=https://web.archive.org/web/20140812205508/http://www.seattlepi.com/news/article/Web-site-takes-you-way-back-in-Internet-history-1070534.php|archivedate=August 12, 2014}}</ref> 2001 року, коли архівові виповнилося п'ять років, його відкрили для публіки на церемонії в [[Університет Каліфорнії (Берклі)|Університеті Каліфорнії]] (Берклі).<ref>{{Cite journal}}</ref> До часу запуску Wayback Machine вона вже містила понад 10 мільярдів архівних сторінок.<ref name="Arora (2015)">{{Cite journal}}</ref>
 
Нині дані зберігаються на великому кластері вузлів [[Linux]] Інтернет-архіву.<ref name=":0">{{Cite web|url=https://blog.archive.org/2016/10/25/20000-hard-drives-on-a-mission/|title=20,000 Hard Drives on a Mission {{!}} Internet Archive Blogs|website=blog.archive.org|language=en-US|accessdate=October 15, 2018|archiveurl=https://web.archive.org/web/20181020153727/https://blog.archive.org/2016/10/25/20000-hard-drives-on-a-mission/|archivedate=October 20, 2018|deadurl=no}}</ref> Він заново відвідує і архівує нові версії веб-сайтів випадково (див. технічні дані нижче).<ref name="leetaru">{{Cite web|url=https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|title=The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web|website=Forbes|last=Kalev Leetaru|date=January 28, 2016|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171016230439/https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|archivedate=October 16, 2017}}</ref> Сайти також можна архівувати вручну, вводячи його [[Уніфікований локатор ресурсів|URL-адресу]] в поле пошуку, за умови, що сайт дозволяє Wayback Machine "проковзати" по ньому пошуковим роботом і зберегти дані.<ref name="IA: Wayback">{{Cite web|url=https://archive.org/web/|title=Internet Archive: Wayback Machine|website=archive.org|language=en|accessdate=October 15, 2018|archiveurl=https://web.archive.org/web/20140103004344/http://archive.org/web/|archivedate=January 3, 2014|deadurl=no}}</ref>
 
== Технічні подробиці ==
Програмне забезпечення було розроблено, щоб [[Пошуковийпошуковий робот|"повзати"]] вміг інтернеті"проковзувати" по Інтернету і завантажитизавантажувати всіхвсі загальнодоступнихзагальнодоступні веб-сторінкахсторінки, наієрархію [[Gopher|ховраха]] ієрархії, систему дошки оголошень [[Usenet|конференціях]] (Київ) дошка оголошень системи, і завантажуване програмне забезпечення.<ref name="ArchivingInternet">{{Cite web|last=Kahle|first=Brewster|title=Archiving the Internet|url=http://www.uibk.ac.at/voeb/texte/kahle.html|publisher=Scientific American – March 1997 Issue|accessdate=August 19, 2011|deadurl=no|archiveurl=https://web.archive.org/web/20120403042627/http://www.uibk.ac.at/voeb/texte/kahle.html|archivedate=April 3, 2012}}</ref> Інформація, зібрана за допомогою цих "падлюк"роботів не включає в себе всю доступну інформацію в інтернетіІнтернеті, такоскільки якзначну більша частиначастину даних обмеженийобмежують видавці, видавцемабо чивона зберігається в недоступних базах даних, які не доступні. ДляЩоб подоланняподолати протиріч всуперечності частково кешованийкешованих веб-сайтів, 2005 року Інтернет архів розробив Archive-It.org був розроблений в 2005 році в архіві інтернету Якяк засобузасіб, що дозволяє установустановам і творцям контенту добровільно врожаюзбирати і збереженнязберігати колекції цифрового контенту та створеннястворювати цифровихцифрові архівівархіви.<ref>{{Cite web|url=https://blog.archive.org/2014/10/27/archive-it-crawling-the-web-together/|title=Archive-It: Crawling the Web Together|website=Internet Archive Blogs|last=Jeff Kaplan|date=October 27, 2014|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171012212827/http://blog.archive.org/2014/10/27/archive-it-crawling-the-web-together/|archivedate=October 12, 2017}}</ref>
 
ОбходиCrawls надходять з різних джерел, деякі імпортованіімпортуються звід третіх осібсторін, татоді як інші генерувалигенеруються всередині самого архіву.<ref name="leetaru">{{Cite web|url=https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|title=The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web|website=Forbes|last=Kalev Leetaru|date=January 28, 2016|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171016230439/https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|archivedate=October 16, 2017}}</ref> Наприклад, обходиCrawls сприяєнадходять від [[Фундація Альфреда Слоуна|Фундації Альфреда Слоуна]] і [[Alexa Internet|АлексаAlexa]], повзає веденні ІА від імені [[Національне управління архівів та документації|НараНаціонального управління архівів та документації]] іта [[{{iw|Internet Memory Foundation|інтернет пам'яті Фонду]]|}}, дзеркаладзеркал з [[{{iw|Common Crawl|загального обходу]]|}}.<ref name="leetaru" /> У "всесвітнійWorldwide павутиніWeb повзеCrawls" працює з 2010 року і захопленнязахоплює глобальнійглобальне павутиніпавутиння.<ref name=":3">{{Cite web|url=https://archive.org/details/widecrawl&tab=about|title=Worldwide Web Crawls|publisher=Internet Archive|last=|date=|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171019222740/https://archive.org/details/widecrawl%26tab%3Dabout|archivedate=October 19, 2017}}</ref><ref name="leetaru" />
 
Частота знімківзахоплень захоплюєдля зберігання змінюється нав сайтізалежності від сайту.<ref name="leetaru">{{Cite web|url=https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|title=The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web|website=Forbes|last=Kalev Leetaru|date=January 28, 2016|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171016230439/https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|archivedate=October 16, 2017}}</ref> СайтівСайти ву "світовійWorldwide павутиніWeb повзеCrawls" включені в список"crawl "повзтиlist", зодин сайтусайт архівованіархівується раз вза обхід.<ref name="leetaru" /> Обхід може зайнятитривати кілька місяців або навіть років, щоб завершити ву залежності від розміру.<ref name="leetaru" /> Наприклад, "широкийWide повзтиCrawl номерNumber 13" розпочалисярозпочався 9 січня 2015 року, і завершеній назавершився 11 липня 2016 року.<ref>{{Cite web|url=https://archive.org/details/wide00013?&sort=-publicdate&page=3|title=Wide Crawl Number 13|publisher=Internet Archive|last=|date=|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171019223332/https://archive.org/details/wide00013?&sort=-publicdate&page=3|archivedate=October 19, 2017}}</ref> Однак, причинв можеодин бутиі кількатой обходівсамий триваємомент вможе будь-якийпроходити часкілька обходів, і сайт може бути включений більшу ніж впонад один списокcrawl повзатиlist, тактож якчастота частообходу ділянцісайтів обходузмінюється в широкошироких варіюєтьсямежах.<ref name="leetaru">{{Cite web|url=https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|title=The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web|website=Forbes|last=Kalev Leetaru|date=January 28, 2016|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171016230439/https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|archivedate=October 16, 2017}}</ref>
 
=== ЄмністьМісткість для зберіганнясховища і зростання ===
Оскільки технологія розвивалася протягом багатьох років, ємність машина Wayback виріс. У 2003 році, через два роки публічного доступу, машина Wayback зростало зі швидкістю 12 терабайт в місяць. Дані зберігаються на [[PetaBox]] системи шафи користувальницькі розроблений інтернет-архіві співробітників. Перші стійки 100ТВ була повністю введена в дію в червні 2004 року, хоча незабаром стало ясно, що їх потрібно значно більше місця, ніж це.<ref>{{Cite web|url=https://archive.org/web/petabox.php|title=Internet Archive: Petabox|website=archive.org|language=en|accessdate=October 25, 2018}}</ref><ref>{{Cite news|url=http://news.zdnet.com/2100-9584_22-5808754.html|title=Big storage on the cheap|last=Kanellos|first=Michael|date=July 29, 2005|accessdate=July 29, 2007|archiveurl=https://web.archive.org/web/20070403030705/http://news.zdnet.com/2100-9584_22-5808754.html <!-- Bot retrieved archive -->|archivedate=April 3, 2007|publisher=CNET News.com}}</ref>