Apache Tika đã được phát triển như là một bộ công cụ cấp thấp để tìm kiếm nội dung bên trong các tập tin khác.
Tika không làm được gì nhiều trên riêng của mình là một thư viện đơn giản, nhưng nó có thể được tích hợp trong công cụ mạnh hơn như công cụ tìm kiếm, hệ thống quản lý tài sản kỹ thuật số hoặc các CMS để cung cấp một trong tập tin hệ thống tìm kiếm đầy đủ chức năng.
Thư viện có thể truy cập vào phần đầu của tập tin chỉ cho thông tin tập tin nhanh chóng tổng thể, hoặc nó có thể đi thật sâu và tìm kiếm ngay cả trong cơ thể của tập tin với nhiều loại dữ liệu khác nhau, trong văn bản hoặc định dạng nhị phân.
Một loạt các loại tập tin được hỗ trợ và Tika cũng có thể được sử dụng với ngôn ngữ lập trình khác nhờ vào một loạt các cam kết ràng buộc và giấy gói bên thứ ba.
là gì mới trong phiên bản này :
- Phiên bản này bao gồm các bản vá lỗi và các tính năng mới bao gồm một Tesseract OCR mới Parser; một Parser GDAL mới; nhiều định dạng, và cải thiện tổng thể hỗ trợ trong Tika ổn định.
là gì mới trong phiên bản 1.8:
- Phiên bản này bao gồm các bản vá lỗi và các tính năng mới bao gồm một Tesseract mới OCR Parser; một Parser GDAL mới; nhiều định dạng, và cải thiện tổng thể hỗ trợ trong Tika ổn định.
là gì mới trong phiên bản 1.7:
- Phiên bản này bao gồm các bản vá lỗi và các tính năng mới bao gồm một Tesseract mới OCR Parser; một Parser GDAL mới; nhiều định dạng, và cải thiện tổng thể hỗ trợ trong Tika ổn định.
là gì mới trong phiên bản 1.6:
- Phiên bản này bao gồm các bản vá lỗi và các tính năng mới bao gồm một dịch mới API, định dạng hỗ trợ nhiều hơn, và cải thiện tổng thể trong Tika ổn định.
là gì mới trong phiên bản 1.5:.
- Cố định lỗi trong xử lý nhúng xử lý tập tin trong file PDF
- Added SourceCodeParser để hỗ trợ java, Groovy, C ++ file.
- Cập nhật Tika Server để hỗ trợ trọng tải multipart / form-data.
- Cập nhật Tika Server để CXF 2.7.8.
- Cập nhật Tika Server để chấp nhận yêu cầu qua địa chỉ wildcard.
- Thêm tùy chọn để sử dụng NonSequentialPDFParser thay thế.
- Content từ AcroForms PDF hiện trích xuất.
- Cố định dấu sao hợp lệ từ slide chủ trong PPT.
- Các trường hợp kiểm tra thêm để xác nhận việc xử lý tự động cập nhật trong PPT và pptx.
là gì mới trong phiên bản 1.4:
- Gỡ bỏ một tập tin HTML test với một văn bản GPL kém chọn trong nó.
- Cải tiến để Tika-server để cho phép nó để sản xuất text / html và text / xml nội dung.
- Cải tiến đã được thực hiện cho các Compressor Parser để xử lý các tập tin g'zipped mà đòi hỏi sự lựa chọn decompressConcatenated thiết lập là true.
- Có địa chỉ một lỗi chính tả mà đã được ngăn chặn từ phát hiện của các tập tin awk.
là gì mới trong phiên bản 1.2:
- Apache Tika 1.2 chứa một số cải tiến và sửa lỗi.
là gì mới trong phiên bản 1.0:
- Apache Tika 1.0 chứa một số cải tiến và sửa lỗi.
là gì mới trong phiên bản 0.9:.
- Phiên bản này bao gồm một số bản sửa lỗi quan trọng và các tính năng mới
là gì mới trong phiên bản 0.8:
- nhận dạng ngôn ngữ bây giờ là tự động cấu hình, quản lý thông qua một tập tin cấu hình tải từ classpath.
- Tika bây giờ hỗ trợ phân tích Feeds bằng cách gói thư viện Rome nằm bên dưới.
- Một hướng dẫn nhanh cho Tika phân tích cú pháp đã được đóng góp.
- Một cách tiếp cận cho hệ thống ống nước thông qua các thuộc tính XHTML được thêm vào.
- Loại phương tiện thông tin hệ thống phân cấp hiện nay được đưa vào tài khoản khi lựa chọn các phân tích cú pháp tốt nhất cho một tài liệu đầu vào cho trước.
- Hỗ trợ cho việc phân tích các định dạng dữ liệu khoa học phổ biến bao gồm netCDF và HDF4 / 5 đã được bổ sung.
- Đơn vị xét nghiệm cho Windows đã được cố định, cho phép TestParsers để hoàn thành.
là gì mới trong phiên bản 0.7:
- file MP3 phân tích cú pháp đã được cải thiện, bao gồm Channel và SAMPLERATE khai thác và ID3v2 hỗ trợ. Hơn nữa, phát hiện mime phân tích âm thanh cũng được cải thiện cho các định dạng MIDI.
- Tika không còn dựa trên X11 cho các chức năng RTF phân tích của nó.
- Một lỗi Thread-an toàn trong AutoDetectParser được phát hiện và giải quyết.
- Nâng cấp lên PDFBox 1.0.0. Các phiên bản PDFBox mới cải thiện hiệu suất phân tích PDF và sửa chữa một số vấn đề khai thác văn bản.
Yêu cầu :
- Java 6 hoặc cao hơn
Bình luận không