Apache Tika

Phần mềm chụp màn hình:
Apache Tika
Các chi tiết về phần mềm:
Phiên bản: 1.4
Ngày tải lên: 20 Feb 15
Nhà phát triển: The Apache Software Foundation
Giấy phép: Miễn phí
Phổ biến: 6

Rating: nan/5 (Total Votes: 0)

Apache Tika là một bộ công cụ mã nguồn mở được thiết kế để phát hiện và trích xuất siêu dữ liệu, cũng như nội dung văn bản có cấu trúc từ một số tài liệu, sử dụng gì, nhưng hiện tại thư viện phân tích cú pháp.
Apache Tika hỗ trợ các định dạng tài liệu sau đây: HyperText Markup Language (HTTP), các định dạng XML và có nguồn gốc, định dạng tài liệu Microsoft Office, OpenDocument Format (ODF), Portable Document Format (PDF), Electronic Publication Format (EPF), Rich Text Format (RTF ), nén và đóng gói các định dạng, định dạng văn bản / âm thanh / hình ảnh / video, định dạng mbox, và các tập tin lớp Java và tài liệu lưu trữ.
Trước đó, Apache Tika là một tiểu dự án của các thư viện phần mềm Apache Lucene. Bây giờ nó được phân phối như là một gói độc bởi Apache Software Foundation

là gì mới trong phiên bản này:.

  • Loại bỏ một kiểm tra tệp tin HTML với một GPL văn bản kém chọn trong nó (Tika-1129).
  • Cải tiến để Tika-server để cho phép nó để sản xuất text / html và text / xml nội dung (TIKA-1126, Tika-1127).
  • Cải tiến đã được thực hiện cho các Compressor Parser để xử lý file g'zipped đòi hỏi các tùy chọn decompressConcatenated thiết lập là true (Tika-1096).
  • Có địa chỉ một lỗi chính tả mà đã được ngăn chặn từ phát hiện của file awk (Tika-1081).
  • Thêm một kết thúc mới cho máy chủ JAX-RS Văn Tika rằng chỉ phát hiện các phương tiện truyền thông-loại dựa trên một phần nhỏ của các tài liệu nộp (Tika-1047).
  • RTF:. Có thứ tự và danh sách không có thứ tự tại được chiết xuất (TIKA-1062)
  • MP3: Thời gian âm thanh bây giờ được trích xuất (Tika-991)
  • file Java .class:.
  • nâng cấp từ 3,1 đến ASM ASM 4.1 để phân tích các bytecode Java (Tika-1053)
  • Loại Mime: Định nghĩa mở rộng để bao gồm các tùy chọn liên kết (URL) và nhiễm trùng đường tiểu, cùng với các chi tiết cho một số định dạng phổ biến (Tika-1012 / Tika-1083)
  • Exceptions khi phân tích các tài liệu OLE10 nhúng, khi phân tích các thông tin tóm tắt từ tài liệu Office, và khi lưu documennts nhúng trong TikaCLI đang đăng nhập thay vì hủy bỏ khai thác (Tika-1074)
  • MS Word: dòng ký tự bảng hiện nay được thay thế bằng dòng mới (TIKA-1128)
  • XML: ElementMetadataHandlers bây giờ có thể tùy chọn chấp nhận giá trị nhân bản và trống rỗng (TIKA-1133)
  • .

Yêu cầu :

  • Java 2 Standard Edition Runtime Environment

Phần mềm khác của nhà phát triển The Apache Software Foundation

Apache OFBiz
Apache OFBiz

2 Jun 15

Apache Avro
Apache Avro

18 Jul 15

Ý kiến ​​để Apache Tika

Bình luận không
Nhập bình luận
Bật hình ảnh!