Jericho HTML Parser

Phần mềm chụp màn hình:
Jericho HTML Parser
Các chi tiết về phần mềm:
Phiên bản: 3.3
Ngày tải lên: 20 Feb 15
Nhà phát triển: Martin Jericho
Giấy phép: Miễn phí
Phổ biến: 56

Rating: nan/5 (Total Votes: 0)

Jerich HTML Parser là một mã nguồn mở, đơn giản, nhưng thư viện mạnh mẽ được viết hoàn toàn bằng Java.
Nó cho phép các lập trình để thao tác và phân tích các phần của một tài liệu HTML.
Jerich HTML Parser cũng kết hợp các chức năng dưới dạng HTML thao tác cấp cao

là gì mới trong phiên bản này:.

  • Sửa chữa lỗi:
  • [3581664] CharacterReference.decode () không giải mã đơn vị có chứa chữ số - & frac12; & Frac14; & Frac34; & Sup1; & Sup2; & Sup3; & There4;
  • [3311286] SourceCompactor không tôn trọng TEXTAREA
  • [3519131] Renderer đầu ra không chính xác khi xây dựng với một đối tượng Element.
  • [3538829] cho ra Renderer trang trí phông chữ trên khối ranh giới không chính xác.
  • Segment.getAllStartTags (tên) và Segment.getFirstElement (tên) không làm việc nếu đối số chứa các ký tự chữ hoa.
  • Các dấu phân cách cuối của một thẻ máy chủ phổ biến bên trong một thẻ máy chủ thoát được sai công nhận là dấu phân cách cuối của thẻ trốn thoát.
  • THAY ĐỔI MÀ CÓ THỂ ẢNH HƯỞNG CỦA CÁCH HÀNH chương trình hiện có:
  • [3427073] Segment.getStyleURISegments () hiện nay bao gồm nội dung tố phong cách cũng như các giá trị thuộc tính phong cách.
  • [3427927] Segment.getURIAttributes () hiện nay bao gồm các thuộc tính lưu trữ các đối tượng và các yếu tố Applet.
  • Comments không còn được công nhận trong các yếu tố kịch bản trong quá trình phân tích cú pháp đầy đủ trình tự. Trước đây họ đã được công nhận về khả năng tương thích với các trình duyệt lớn nhưng hành vi của trình duyệt hiện đại đã thay đổi.
  • Thay đổi mức độ đăng nhập của tất cả các lỗi phân tích cú pháp từ INFO để LỖI, và mức độ log của Source.fullSequentialParse () tin tư vấn từ WARN để INFO. Các mức trước đó đã được thông báo tư vấn một mức độ cao hơn so với các lỗi phân tích cú pháp, ngăn chặn các hệ thống khai thác gỗ từ ẩn các tin tư vấn trong khi hiển thị phân tích lỗi. Cảnh báo mã hóa ký tự không thay đổi ở mức WARN.
  • Thay đổi hành vi của các Renderer.renderHyperlinkURL (StartTag) phương pháp để URL tương đối không được trả lại.
  • Thay đổi hành vi của các Renderer để nội dung tố siêu liên kết không được trả lại nếu nó là giống như các siêu liên kết URL, bỏ qua http: //. Prefix hoặc / hậu tố
  • EndTag.tidy () bây giờ loại bỏ khoảng trắng trước khung đóng cửa.
  • Added Source (File) constructor.
  • Phương pháp gia tăng OutputDocument.getSegment ().
  • Added OutputDocument.remove (int bắt đầu, int end) phương pháp.
  • Phương pháp gia tăng Renderer.setHRLineLength ().
  • mẫu webapp Added RenderToText.jsp.
  • Phương pháp gia tăng Segment.getRowColumnVector ().
  • phát hiện Encoding giờ bỏ qua mã hóa thông thường được quy định trong các thẻ meta có một kích thước đơn vị mã không tương thích với mã hóa sơ bộ.
  • Nâng cấp các API logger sau: SLF4J-api-1.7.2, log4j-1.2.17

là gì mới trong phiên bản 3.1:

  • Sửa chữa lỗi:
  • [2793556] Infinite loop trên Segment.getAllStartTags ()
  • vòng lặp vô hạn trên Segment.getAllElements ()
  • Segment.getFirst * Các phương pháp phân đoạn quay trở lại bên ngoài đoạn bounding.
  • Segment.getAllElements phương pháp này không trả về tất cả các yếu tố kèm theo trong một số trường hợp.
  • lỗi cố định trong tài liệu hướng dẫn phương pháp Segment.getAllElements.
  • Added StreamedSource lớp.
  • THAY ĐỔI MÀ CÓ THỂ ẢNH HƯỞNG CỦA CÁCH HÀNH chương trình hiện có:
  • Thay đổi ParseText từ lớp giao diện.
  • Segment.getNodeIterator () bây giờ trả lại tài liệu tham khảo nhân vật như các nút riêng biệt.
  • phương pháp tìm kiếm thêm tag dựa trên thuộc tính giá trị biểu thức thông thường.
  • phương pháp tìm kiếm thêm tag dựa trên thuộc tính class HTML.
  • Thêm tài sản Source.LegacyNodeIteratorCompatabilityMode tĩnh tạm thời để khôi phục lại Segment.getNodeIterator () chức năng của các phiên bản trước đó.
  • Bỏ char [] phương pháp tìm kiếm dựa vào ParseText.
  • Added CharacterReference.appendCharTo (Appendable) phương pháp.
  • Added OutputDocument (Segment) constructor.
  • chương trình mẫu Added StreamedSourceCopy.

là gì mới trong phiên bản 3.0:

  • Sửa chữa lỗi:
  • tài liệu tham khảo nhân vật đại diện cho các ký tự unicode bổ sung không được giải mã một cách chính xác cho các cặp đơn vị UTF-16 mã.
  • [2188446] Element.getDepth () và Element.getParentElement () trả lại kết quả không chính xác nếu gọi trong phân tích về chế độ yêu cầu.
  • Comments đang nhận bên trong & lt; script & gt; yếu tố.

  • THAY ĐỔI
  • API DỤNG KHÔNG tương thích ngược:
  • Thay đổi tên gói để net.htmlparser.jericho
  • giá trị thuộc tính bây giờ phải là String hơn CharSequence.
  • tất cả các phương pháp phản Removed / lớp học từ các phiên bản trước đó.
  • Tất cả tìm phương pháp * phản đối ủng hộ có được * phương pháp nhằm áp dụng một quy ước đặt tên nhất quán trên tất cả các phương pháp tìm kiếm từ khóa.

  • Lớp
  • Tag, Element và HTMLElements không còn thực hiện các giao diện HTMLElementName. (Sử dụng nhập khẩu thay vì tĩnh)
  • Tất cả các bộ sưu tập tại stongly gõ sử dụng Generics.
  • Thay đổi class FormControlOutputStyle để enum.
  • Thay đổi class FormControlType để enum.
  • Added CharStreamSource.appendTo (Appendable) phương pháp.
  • Phương pháp gia tăng Source.iterator ().
  • Source giờ thực hiện Iterable.
  • Bên trong sử dụng StringBuilder cho hiệu suất tốt hơn.
  • Added Source.getNextStartTag (StartTagType) phương pháp.
  • Added Source.getNextEndTag (EndTagType) phương pháp.
  • Added Source.getPreviousStartTag (StartTagType) phương pháp.
  • Added Source.getPreviousEndTag (EndTagType) phương pháp.
  • Added Segment.getAllStartTags (StartTagType) phương pháp.
  • Thêm tất cả Segment.getFirst * phương pháp.
  • Added Renderer.renderHyperlinkURL (StartTag) phương pháp.
  • chương trình mẫu Added HTMLSanitiser.
  • Nâng cấp để SLF4J-api-1.5.6

Yêu cầu :

  • Java 2 Standard Edition Runtime Environment

Phần mềm tương tự

dayone_export
dayone_export

20 Feb 15

Haroopad
Haroopad

19 Feb 15

txt2html
txt2html

3 Jun 15

lxml
lxml

17 Feb 15

Phần mềm khác của nhà phát triển Martin Jericho

Ý kiến ​​để Jericho HTML Parser

Bình luận không
Nhập bình luận
Bật hình ảnh!