jPDFText là một thư viện Java để trích xuất văn bản từ các tài liệu PDF. Với jPDFText, các tài liệu PDF có thể được xử lý để trích xuất nội dung văn bản để lưu trữ, lưu trữ, tìm kiếm hoặc lập chỉ mục. jPDFText được xây dựng dựa trên công nghệ PDF độc quyền Qoppas, do đó bạn không phải cài đặt bất kỳ phần mềm hoặc trình điều khiển bên thứ ba nào. Vì nó được viết bằng Java, nó cho phép ứng dụng của bạn duy trì nền tảng độc lập và chạy trên Windows, Linux, Unix (Solaris, HP UX, IBM AIX), Mac OS X và bất kỳ nền tảng nào khác hỗ trợ môi trường chạy Java.
Những đặc điểm chính:
Tải tài liệu PDF từ các tệp, ổ đĩa mạng, URL hoặc luồng đầu vào.
Trích xuất văn bản theo thứ tự đọc logic.
Trích xuất các từ dưới dạng vectơ của chuỗi.
Hoạt động trên Windows, Linux, Unix và Mac OS X (100% Java).
Không cần phải cài đặt hoặc cấu hình các trình điều khiển hoặc phần mềm bổ sung khi triển khai.
Thử nghiệm trên JDK 1.4.2 trở lên.
Bình luận không