Nhiều ứng dụng mà đối phó với các dữ liệu phi cấu trúc đòi hỏi phải truy cập vào các nội dung văn bản của văn bản được định dạng hoặc đánh dấu-up. Tổ chức lưu trữ tài liệu thường yêu cầu quyền truy cập vào các nội dung văn bản để thực hiện các văn bản tìm kiếm và cho phép tập hợp nội dung, báo cáo và khai thác tài liệu lưu trữ tài liệu. Tìm kiếm và ứng dụng phục hồi cũng cần phải giải nén và tokenize văn bản từ định dạng file khác nhau.
Một cơ chế tiêu chuẩn để truy cập và trích xuất văn bản từ các tài liệu được cung cấp bởi các plug-in giao diện IFilter được sử dụng trong công cụ tìm kiếm của Microsoft. Có một vài triển khai IFilter phát triển bởi Microsoft và các nhà cung cấp khác bao gồm một loạt các định dạng tập tin. Các tiêu chuẩn chất lượng hoặc độ tin cậy và khai thác văn bản khác nhau trên nhiều nhà phát triển IFilter.
Bộ lọc Tiêu Opait là một chương trình tiện ích nhỏ với một giao diện đơn giản để IFilters đã được cài đặt trên các máy chủ cũng như một vài bộ lọc khai thác văn bản tùy chỉnh mà làm việc trực tiếp với các định dạng tập tin và cải thiện sau khi triển khai IFilter mặc định.
. Các giao diện để trích xuất văn bản được cung cấp bởi một lớp thư viện nhỏ được gọi là Opait.Filters được bao gồm và có thể được sử dụng để tích hợp bộ lọc văn bản vào các ứng dụng .NET
Yêu cầu :
.NET Framework 4.5
Bình luận không