PDFTextStream

Phần mềm chụp màn hình:
PDFTextStream
Các chi tiết về phần mềm:
Phiên bản: 2.6.0
Ngày tải lên: 20 Feb 15
Giấy phép: Shareware
Giá: 1900.00 $
Phổ biến: 2

Rating: nan/5 (Total Votes: 0)

dự án PDFTextStream là một thư viện khai thác văn bản PDF và siêu dữ liệu có sẵn cho Java, Python, và .NET.
Nó hỗ trợ tất cả các phiên bản của các đặc điểm kỹ thuật tài liệu PDF, (bao gồm cả v1.6, được sử dụng bởi Acrobat 7), khai thác văn bản được mã hóa bằng cách sử dụng bộ ký tự double-byte (bao gồm cả Trung Quốc, Nhật Bản, và Hàn Quốc), giải mã 40-bit và 128 bit mã hóa tài liệu, và khai thác tất cả các siêu dữ liệu được cung cấp bởi các tài liệu PDF (bao gồm cả dữ liệu hình thức, bookmark, và chú thích).
Dễ dàng tích hợp với Jakarta Lucene được bao gồm

là gì mới trong phiên bản này:.

  • Phiên bản này bao gồm một loạt các bản sửa lỗi được thực hiện để đảm bảo PDFTextStream là khả năng chiết xuất văn bản từ các tài liệu PDF mà không phù hợp với các đặc điểm kỹ thuật PDF.
  • Nó cũng bao gồm một loạt các cải tiến hiệu suất.

là gì mới trong phiên bản 2.3.0:

  • Thêm một phương .isStruckThrough () để com. snowtide.pdf.TextUnit, cho dù một nhân vật có một gạch thẳng bên trong.
  • Cải thiện hỗ trợ cho PDFTextStream của ánh xạ ký tự nhúng.
  • Việc tính khoảng trắng giữa các từ đã được cố định để hạch toán đúng cho khoảng trắng được mã hóa một cách rõ ràng trong tài liệu PDF.
  • Cải thiện xử lý PDFTextStream của các bảng mã nội dung hỗn hợp, mà trước đây có thể không dẫn đến một số phạm vi của nội dung PDF bị 'bỏ qua' trong quá trình trích.
  • Cố định một lỗi trong VisualOutputTarget nơi văn bản từ một dòng duy nhất sẽ được phân chia trên nhiều dòng
  • Cải thiện sự liên kết theo chiều dọc của văn bản đã trích sử dụng VisualOutputTarget
  • Cải thiện VisualOutputTarget sản xuất chiết xuất để loại bỏ tạp thêm khoảng trắng giữa các từ chặt chẽ liền kề

là gì mới trong phiên bản 2.2.5:

  • phát hành này thêm hỗ trợ cho việc trích xuất dữ liệu như hình thức XFA XML.
  • Nó cải thiện đáng kể hiệu suất khai thác văn bản sử dụng VisualOutputTarget. Hỗ trợ cho các tài liệu PDF lớn hơn 2GB.
  • Một sửa chữa cho một lỗi mà các bảng mã từ các phông chữ nhúng Type1 trước đây không được áp dụng đúng trong một số trường hợp.
  • Một sửa chữa cho một vấn đề mà nội dung mới trong các tài liệu PDF được cập nhật đã được đôi khi bị bỏ qua.
  • Một sửa chữa cho một vấn đề mà các bookmark PDFDocEncoding mã hóa và siêu dữ liệu đã không được giải mã đúng.
  • Một phương pháp trong com.snowtide.pdf.Bookmark .getDestinationName ().

Yêu cầu :

  • Apache Lucene

Ý kiến ​​để PDFTextStream

Bình luận không
Nhập bình luận
Bật hình ảnh!