uni2ascii và ascii2uni chuyển đổi giữa UTF-8 Unicode và bất kỳ của một loạt các 7-bit ASCII tương đương bao gồm: hệ thập lục phân và thập phân HTML tài liệu tham khảo ký tự số, u-thoát, thập lục phân tiêu chuẩn, và thập lục phân thô.
Tương đương ASCII như vậy là hữu ích khi bao gồm cả văn bản Unicode trong nguồn chương trình, khi nhập văn bản vào các chương trình Web có thể xử lý các ký tự Unicode nhưng không phải là 8-bit an toàn, và khi gỡ lỗi.
Các Unicode thoát có sẵn là:
- HTML hexadecimal tham chiếu ký tự số (ví dụ)
- HTML tài liệu tham khảo ký tự số thập phân (ví dụ như ȳ)
- U-thoát, như được sử dụng trong Python (ví dụ u00E9)
- U-thoát trong BMP và U-thoát vượt ra ngoài BMP, ví dụ: u00E9 nhưng U00010024.
- U -escapes (ví dụ U 00E9)
- U-thoát (ví dụ U00E9)
- U-thoát (ví dụ u00E9)
- U-thoát trong dấu ngoặc nhọn (ví dụ)
- X-thoát (ví dụ x00E9)
- X-thoát với niềng răng (ví dụ x {} 00E9)
- Tiêu chuẩn hệ thập lục phân (ví dụ 0x00E9)
- Thập lục phân thô (ví dụ 00E9)
uni2ascii chấp nhận một lá cờ dòng lệnh xác định liệu để tạo ra chữ hoa AF hoặc thấp hơn trường hợp af như là chữ số thập lục phân từ một số một số chương trình chỉ chấp nhận một hay khác. ascii2uni chấp nhận một trong hai.
Trong trường hợp của uni2ascii theo mặc định, chỉ có nhân vật bên ngoài phạm vi ASCII được chuyển đổi. Thậm chí nếu các ký tự ASCII cũng được chuyển đổi, dòng mới được bảo quản trừ khi chuyển đổi của họ được yêu cầu một cách rõ ràng. Ký tự không gian cũng được bảo quản, trừ khi chuyển đổi được yêu cầu một cách rõ ràng. Trong trường hợp của ba nhân vật không gian phi ASCII (không gian Ethiopic từ, không gian Ogham, và không gian biểu ý), nếu nhân vật không gian không được chuyển đổi, chúng được thay thế bằng không gian ASCII (0x20) để giữ cho đầu ra bên trong 7- phạm vi ASCII bit.
Gói này bao gồm bốn chương trình. Các chương trình chính là uni2ascii. Nó được viết bằng C và phải được biên dịch. uni2html.py là tiền thân uni2ascii. Vì nó được viết bằng Python, nó không cần phải được biên soạn và nên chạy trên chỉ là về bất kỳ máy tính hiện nay. uni2ascii là nếu không vượt trội trong đó:
- Nó tạo ra một phạm vi rộng lớn hơn của định dạng đầu ra.
- Nó là nhanh hơn khoảng 20 lần.
- Nó xử lý đầu vào trong phạm vi 32 bit Unicode đầy đủ. Ngược lại, uni2html chỉ xử lý
Basic Multilingual Plane (Plane 0) vì hiện nay đại diện cho Python Unicode văn bản được mã hóa trong nội bộ bằng cách sử dụng số nguyên 16-bit. Nếu bạn đã có văn bản trong, nói, Linear B hoặc Ugaritic, bạn cần uni2ascii.
Nó thực hiện một công việc tốt hơn về báo cáo lỗi. Nếu nó gặp một lỗi trong đầu vào của nó, chẳng hạn như mal-hình thành UTF-8, nó báo cáo vị trí của lỗi cả về số nhân vật từ đầu của tập tin (bắt đầu từ 0) và về số lượng byte từ đầu của tập tin (cũng bắt đầu từ 0). (Số ký tự và số byte nói chung là không giống nhau từ một nhân vật được mã hóa UTF-8 chiếm từ một đến bốn byte.) Các báo cáo phiên bản Python chỉ số nhân vật. uni2ascii cũng cung cấp thông tin về bản chất của lỗi.
Chương trình thứ ba, ascii2uni, là nghịch đảo của uni2ascii. Nó chấp nhận văn bản có chứa một loạt các cơ quan đại diện ASCII của ký tự Unicode và tạo UTF-8 Unicode.
Chương trình thứ tư, ascii2uni.py, đọc 7-bit ASCII chứa u-thoát Unicode, như được sử dụng trong Python và Tcl, và chuyển đổi nó để UTF-8 Unicode. Đây là chương trình ban đầu trong đó ascii2uni là một sự tổng quát
là gì mới trong phiên bản này:.
- Cố định lỗi trong uni2ascii trong đó trong một số trường hợp các tính subsitution là quá cao, sửa chữa Debian lỗi # 626.268.
- Patched để xử lý tình huống trong NetBSD mà thiếu getline.
- làm rõ ngữ nghĩa của các tùy chọn tinh khiết như chuyển đổi các ký tự trong phạm vi ascii khác với không gian và xuống dòng. Cố định lỗi mà điều này không được thực hiện một cách chính xác cho các loại UTF8.
là gì mới trong phiên bản 4.17:
- Thêm vào uni2ascii các chuyển đổi sau đây để ascii tương đương gần nhất: U 2022 viên đạn 'o', U + 00B7 dot giữa thời kỳ, U + 0085 dòng tiếp theo để xuống dòng, U + 2028 dòng phân cách để xuống dòng.
là gì mới trong phiên bản 4.16:
- Các định dạng Q hoạt động trở lại trong ascii2uni .
- Added U + 2033 DOUBLE PRIME đến các ký tự chuyển đổi sang ascii tương đương gần nhất của họ theo cách sử dụng các định dạng e trong uni2ascii.
là gì mới trong phiên bản 4.15:
- endian.h đổi tên thành u2a_endian.h để tránh xung đột với endian.h bên ngoài.
- copy Removed của GNU getline từ ascii2uni.c như nó là tiêu chuẩn như của POSIX2008.
là gì mới trong phiên bản 4.14:
- Cố định một lỗi đó gây trở ngại đến việc sử dụng của các định dạng Q trong uni2ascii.
- Cố định lỗi trong đó ascification của U + 2502 và U + 2503 thêm đôi báo đến đầu ra.
- Cố định một lỗi trong đó -a tùy chọn S tạo ra một & quot; Chuyển Đổi rất nhiều ký tự & quot; dòng cho mỗi ký tự do để lại trong mã sửa lỗi.
là gì mới trong phiên bản 4.13:
- Sửa lỗi gây ra số lượng quá nhiều ký tự thay đổi để ASCII để được báo cáo.
là gì mới trong phiên bản 4.12:
- Cả hai chương trình hiện nay cho phép tên tập tin đầu vào được quy định trên dòng lệnh mà không chuyển hướng.
là gì mới trong phiên bản 4.11:
- phát hành này thêm hỗ trợ cho các & lt; XX & gt; & lt; XX & gt; và các định dạng% uXXXX.
là gì mới trong phiên bản 4.10:
- Phiên bản này sửa lỗi đã làm cho lý luận Y đến cờ -a của ascii2uni một không-op, và sửa chữa các trang con người và giúp cho Y và Q đối số cho cờ -a cho cả hai chương trình.
- Lập luận Y bây giờ là một lỗi cho uni2ascii.
- Các thông tin phiên bản và hành động tóm tắt được nhiều thông tin hơn.
Bình luận không