Apache Tika
Apache Tika — набір бібліотек на мові Java для виявлення, аналізу, виділення мета-даних і структурованого контенту з різноманітних форматів файлів. Всього підтримується більше 1200 форматів, включаючи HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, різні формати зображень, мультимедіа, архівів і пакунків програм.
Тип | набір бібліотек |
---|---|
Розробники | Apache Software Foundation |
Перший випуск | 2011 |
Стабільний випуск | 1.7 (15 січня 2015 ) |
Платформа | JVM |
Мова програмування | Java[1][2] |
Доступні мови | Java |
Ліцензія | Apache License |
Репозиторій | gitbox.apache.org/repos/asf/tika.git |
Вебсайт | tika.apache.org |
Спочатку Apache Tika був розроблений як частина пошукового рушія Apache Lucene, але пізніше переріс в самостійний проєкт.
Крім бібліотек, підготовлені консольна утиліта і GUI-застосунок для зручного вилучення даних з різних файлів. Крім мови Java, в рамках проєкту підготовлені обгортки для мов Python, .NET та C++.
Застосування
ред.Технології Tika використані у фреймворку для побудови пошукових систем Nutch.
Apache Tika був використаний, зокрема, Міжнародним консорціумом журналістів-розслідувачів для дослідження інформації у так званих «панамських документах»[3].
Примітки
ред.- ↑ The tika Open Source Project on Open Hub: Languages Page — 2006.
- ↑ https://projects.apache.org/json/projects/tika.json
- ↑ Mar Cabra, Erin Kissane (11 квітня 2016). The People and Tech Behind the Panama Papers. opennews.org. An OpenNews project. Архів оригіналу за 11 квітня 2016. Процитовано 18 квітня 2016.
Посилання
ред.- Офіційний сайт
- Tika Wiki [Архівовано 16 липня 2012 у Wayback Machine.]
Це незавершена стаття про програмне забезпечення. Ви можете допомогти проєкту, виправивши або дописавши її. |