Пошуковий робот

Пошуковий робот (також англ. web crawler, англ. web spider) — програма для краулінгу, тобто збору контенту в інтернеті. Є складовою частиною пошукової системи та призначена для перегляду сторінок інтернету з метою введення інформації про них до бази даних.

Пошукові роботи завантажують сторінки, зберігають їх зміст, індексують його і добувають підсумкову інформацію. Вони також переглядають заголовки, деякі посилання і відправляють проіндексовану інформацію до бази даних пошукового механізму.

Як закрити сайт від індексації

За допомогою файла robots.txt
За допомогою мета-тегу

Краулінг

Краулінг (сканування, англ. crawling) — це процес сканування сайту автоматизованою системою. Сканування – початковий етап, дані збираються для подальшої внутрішньої обробки(побудова індексів) та не відображаються в результатах пошуку. Просканована сторінка не обов’язково є проіндексованою. У пошукової системи ресурси обмежені, а алгоритми краулінгу допоможуть оптимізувати процес: щоб для кожного сайту виділялася необхідна кількість «потужності», щоб успішно його індексувати.

Основні задачі

швидка індексація;
швидка переіндексація (якщо відбулися зміни з документом);
якісні індекси (щоб в індекси потрапляли лише якісні документи, не потрапляв малоінформативний контент);

Краулінговий бюджет потрібен лише для сайтів з великим об’ємом інформації (від 100 сторінок). Адже маленькі сайти пошукова система проіндексує за відносно малу кількість часу (неділя, місяць). Також краулінг використовується для сайтів, що часто змінюються.

Що впливає на краулінговий бюджет

Швидкість віддачі, розмір документу;
Об’єм сайту;
Якість контенту (недопустима наявність малоінформативних сторінок);
Коди статусів (якщо не 200/304);
Відвідуваність сайту;
Виділення IP-адреси;
Популярність посилань (кількість, авторитетність посилань необхідні для пришвидшення індексації).

Для того, щоб подивитися на сайт очима краулера, потрібно вимкнути обробку JavaScript
Є декілька способів (на Google Chrome):

Вимкнути через консоль розробника(F12)
Використання інструменту «Подивитися як Googlebot»
Спеціальне програмне забезпечення (http://pr-cy.ru/simulator/ [Архівовано 18 грудня 2017 у Wayback Machine.], https://netpeaksoftware.com/ru/spider [Архівовано 15 січня 2018 у Wayback Machine.] та інші).

Автоматизація краулінгу

Crawljax: Crawling Ajax-based Web Applications - це Java-інструмент з відкритим кодом, що дозволить протестувати ваш web – додаток фактично імітуючи користувача по браузингу сайту. Crawljax може досліджувати сайт, що використовує технологію ajax, при цьому автоматично створюючи динамічний граф станів DOM.
В основу Crawljax покладено дослідження 2007 р. Алі Мешбаха та Арі Ван Дрьосена. Основна ідея була закладена в їх спільній праці «Exposing the Hidden-WebInduced by Ajax», в якій вони показали як динамічний сайт, що використовує технологію ajax, може бути представлений у вигляді графа статичних станів DOM та переходів між ними.
Пізніше ця робота використовувалася для створення алгоритмів для пошукових систем, що давали б змогу їм краулити та аналізувати зміст динамічних web-додатків.
В кінці роботи Crawljax формує html-репорт, що містить граф станів та переходів по сайту, статистику щодо своєї роботи, список відвідуваних url-ів та детальну інформацію щодо кожного стану, в який може переходити DOM.
Також використовують платформу Node.js і т.і..

Див. також

Web scraping

Посилання

A History of Search Engines (англ.)
Najork, Marc; Heydon, Allan. High-Performance Web Crawling (PDF). Процитовано 22 травня 2024.
Barone, Adileo (17 липня 2023). adileo/MicroFrontier.

Це незавершена стаття про Інтернет.
Ви можете допомогти проєкту, виправивши або дописавши її.