Apache Nutch — модульний фреймворк для побудови пошукових систем, написаний на мові Java і заснований на технологіях Lucene, Solr, Tika, Hadoop і Gora, адаптованих для специфіки пошуку у вебі (наприклад, підтримується crawler, база посилального зв'язку, парсинг HTML і інших форматів). Архітектура Nutch дозволяє розробникам створювати плагіни для обробки нового медіа-контенту, отримання даних через нестандартні канали, для формування типових запитів або організації пошукового кластера.

Apache Nutch
Lucene Nutch Logo
Nutch.png
Скріншот 
250px
Nutch Web Interface Search
Тип пошуковий рушій
Розробник Apache Software Foundation
Стабільний випуск 2.0 (9 липня, 2012; 7 років тому (2012-07-09))
Версії 2.4 (11 жовтня 2019)[1]
Платформа Віртуальна машина Java
Операційна система крос-платформовий
Написано на Java
Стан розробки активний
Ліцензія Apache License 2.0
nutch.apache.org

Система надає засоби для побудови високомасштабованих систем індексації, абстрагованих від типу сховища, що дозволяє використовувати такі сховища для великих обсягів даних, як Apache Accumulo, Apache Avro, Apache Cassandra, Apache HBase і HDFS, так і SQL-бази і розміщені в пам'яті NoSQL БД.

ВикористанняРедагувати

На базі Nutch 2.0, запущеного поверх 34-вузлового Hadoop-кластера, побудований пошуковий сервіс компанії Kalooga, в індексі якого перебуває більше мільярда сторінок.[2]

На основі Nutch побудовані такі пошукові системи

ВиноскиРедагувати

  1. https://nutch.apache.org/index.html#11-october-2019-nutch-24-release
  2. Реліз пошукового рушія Apache Nutch 2.0 (рос.)
  3. Our Updated Search. Creative Commons. 2004-09-03. 
  4. Creative Commons Unique Search Tool Now Integrated into Firefox 1.0. Creative Commons. 2004-11-22. Архів оригіналу за 2013-07-22. Процитовано 2012-07-10. 
  5. New CC search UI. Creative Commons. 2006-08-02. 
  6. DiscoverEd home page. Архів оригіналу за 25 квітень 2015. Процитовано 19 червень 2019. 
  7. Where can I get the source code for Wikia Search?. Архів оригіналу за 4 листопад 2011. Процитовано 10 липень 2012. 
  8. Update on Wikia – doing more of what’s working

ПосиланняРедагувати