dự án cpdetector là một khuôn khổ nào thông minh nhỏ để phát hiện bảng mã.
cpdetector là một khung nhỏ nhưng thông minh cho phát hiện bảng mã tích hợp các chiến lược khác nhau. Nó có thể được sử dụng như một thư viện cho phần mềm của bên thứ ba truy cập dữ liệu văn bản qua mạng.
Nó cũng bao gồm một thực hành tốt nhất trong hình thức của một công cụ dòng lệnh cho phép phân loại và chuyển các bộ sưu tập lớn các tài liệu dựa trên bảng mã của họ.
Chiến lược có sẵn bao gồm: jchardet (loại trừ, phân tích tần số, và đoán), phát hiện các tài sản HTML charset, phát hiện có sự khai báo mã hóa XML.
Một trang mã là gì?
Lúc đầu, một tài liệu văn bản là không có gì nhiều hơn so với các trình tự của các bit. Một máy tính có quyền quyết định, làm thế nào ông có thể hiển thị dữ liệu này ở dạng ký tự (được xác định bởi các máy tính như là con số).
Một trang mã - cũng được gọi là mã hóa ký tự - bản đồ các dữ liệu thô của một tài liệu văn bản để ký tự. Trang mã ASCII gốc ví dụ như chỉ sử dụng 7 bit của một octet (byte) để quyết định những nhân vật đó được đại diện do đó cho phép chỉ để ánh xạ 128 nhân vật khác nhau. Trong bộ nhớ quá khứ là đắt tiền và máy tính thường chỉ có đăng ký và xe bus 8 bit.
Khi một máy tính lớn đã được hình thành nó đã được quyết định, mà nhân vật cần hỗ trợ. Các bác sĩ và các nhà toán học ví dụ cần thiết ký tự đặc biệt cho phương trình. Kết quả là, một máy tính thường xuyên vận chuyển với một bảng mã đặc biệt
là gì mới trong phiên bản này:.
- Sửa lỗi chính này phiên bản sửa chữa hai vấn đề trong chế độ hàng loạt dòng lệnh.
- Việc chuyển sang bỏ di chuyển tài liệu không bị phát hiện hoạt động bây giờ một lần nữa.
- Không nỗ lực sẽ được thực hiện để chuyển mã văn bản không bị phát hiện (sau này gây ra dòng chảy chương trình đặc biệt).
là gì mới trong phiên bản 1.0.8:
- Phiên bản này là một bản phát hành ổn định và sửa chữa các byte đặt hàng phát hiện dấu và không tương thích với OpenJDK. Nó cũng đòi hỏi phải có Java 1.5 bây giờ.
Bình luận không