Jericho HTML Parser

Phần mềm chụp màn hình:
Jericho HTML Parser
Các chi tiết về phần mềm:
Phiên bản: 3.4
Ngày tải lên: 10 Dec 15
Nhà phát triển: Martin Jericho
Giấy phép: Miễn phí
Phổ biến: 105

Rating: 5.0/5 (Total Votes: 1)

Nó có thể chỉnh sửa phía máy chủ và phía khách hàng thẻ, trong khi tái tạo đúng nguyên văn bản HTML mà không biết hoặc không hợp lệ.

Nó cũng cung cấp các chức năng dưới dạng HTML thao tác cấp cao

Tính năng .

  • Sự hiện diện của bị định dạng HTML không can thiệp với những phân tích của các phần còn lại của các tài liệu, mà làm cho các thư viện lý tưởng để sử dụng với & quot; thực thế giới & quot; HTML triệt parsers khác.
  • ASP, JSP, PSP, PHP và Mason thẻ máy chủ được công nhận một cách rõ ràng bằng cách phân tích cú pháp. Điều này có nghĩa là HTML thông thường vẫn được phân tích đúng ngay cả khi có thẻ máy chủ bên trong chúng, mà là phổ biến ví dụ như khi tự động thiết lập các thuộc tính nguyên tố.
  • Một dòng dựa tùy chọn phân tích cú pháp mới sử dụng lớp StreamedSource, cho phép bộ nhớ xử lý hiệu quả các tập tin lớn bằng cách sử dụng một iterator sự kiện. Đây thực chất là một thay thế Stax với khả năng xử lý HTML và XML không kiểm duyệt, cũng như một số tính năng khác không có sẵn trong phân tích cú pháp streaming khác.
  • Ở dạng tiêu chuẩn của nó, nó không phải là một sự kiện cũng không phải cây phân tích cú pháp dựa trên, nhưng thay vì sử dụng một sự kết hợp của tìm kiếm văn bản đơn giản, hiệu quả và nhận thẻ một bộ nhớ cache vị trí tag. Các văn bản của các nguồn tài liệu toàn bộ được đầu tiên được nạp vào bộ nhớ, và sau đó chỉ có các phân đoạn có liên quan tìm kiếm cho các nhân vật có liên quan của mỗi hoạt động tìm kiếm.
  • So với một cây phân tích cú pháp dựa như DOM, bộ nhớ và tài nguyên yêu cầu có thể được tốt hơn nếu chỉ có phần nhỏ của các tài liệu cần phải được phân tích cú pháp hoặc sửa đổi. HTML không chính xác hoặc bị định dạng có thể dễ dàng bị bỏ qua, không giống như phân tích cú pháp dựa trên cây đó phải xác định tất cả các nút trong các tài liệu từ trên xuống dưới.
  • So với một sự kiện dựa trên phân tích cú pháp như SAX, giao diện trên một mức độ cao hơn và trực quan hơn, và một cây đại diện của hệ thống phân cấp yếu tố tài liệu được tạo ra một cách dễ dàng nếu có yêu cầu.
  • Các vị trí bắt đầu và kết thúc trong các nguồn tài liệu của tất cả các phân đoạn phân tích cú pháp có thể truy cập, cho phép sửa đổi các đoạn chỉ chọn của tài liệu mà không cần phải tái tạo lại toàn bộ tài liệu từ một cái cây.
  • Số lượng hàng và cột của từng vị trí trong các nguồn tài liệu có thể dễ dàng tiếp cận được.
  • Cung cấp một giao diện đơn giản nhưng toàn diện để phân tích và thao tác điều khiển dạng HTML, bao gồm cả việc khai thác và dân số của các giá trị ban đầu, và chuyển đổi để chỉ đọc hoặc hiển thị dữ liệu chế độ. Phân tích các hình thức kiểm soát cũng cho phép dữ liệu nhận được từ các mẫu được lưu trữ và trình bày một cách thích hợp.
  • Tích hợp chức năng để trích xuất tất cả các văn bản từ ngữ đánh dấu HTML, thích hợp cho ăn vào một công cụ tìm kiếm văn bản như Apache Lucene.
  • Tích hợp chức năng để làm cho đoạn mã HTML với định dạng văn bản đơn giản.
  • Tích hợp chức năng để định dạng mã nguồn HTML Canh lề các yếu tố theo chiều sâu của họ trong hệ thống phân cấp yếu tố tài liệu. (Bấm vào đây để biểu diễn công trực tuyến)
  • Tích hợp chức năng để mã nguồn HTML gọn bằng cách loại bỏ tất cả các khoảng trắng không cần thiết.
  • loại thẻ tùy chỉnh có thể được dễ dàng xác định và đăng ký để được công nhận bởi các cú pháp.

là gì mới trong phiên bản này:.

  • Thêm Source (File) constructor
  • Phương pháp gia tăng OutputDocument.getSegment ().
  • Added OutputDocument.remove (int bắt đầu, int end) phương pháp.
  • Phương pháp gia tăng Renderer.setHRLineLength ().
  • mẫu webapp Added RenderToText.jsp.
  • Phương pháp gia tăng Segment.getRowColumnVector ().
  • phát hiện Encoding giờ bỏ qua mã hóa thông thường được quy định trong các thẻ meta có một kích thước đơn vị mã không tương thích với mã hóa sơ bộ.

là gì mới trong phiên bản 3.1:

  • Sửa chữa lỗi:
  • vòng lặp vô hạn trên Segment.getAllStartTags ()
  • vòng lặp vô hạn trên Segment.getAllElements ()
  • Segment.getFirst * phương pháp trở lại phân đoạn bên ngoài đoạn bounding.
  • Segment.getAllElements phương pháp này không trả về tất cả các yếu tố kèm theo trong một số trường hợp.
  • lỗi cố định trong tài liệu hướng dẫn phương pháp Segment.getAllElements.
  • Added StreamedSource lớp.
  • Thay đổi có thể ảnh hưởng đến hành vi của các chương trình hiện có:
  • Thay đổi ParseText từ lớp giao diện.
  • Segment.getNodeIterator () bây giờ trả lại tài liệu tham khảo nhân vật như các nút riêng biệt.
  • phương pháp tìm kiếm thêm tag dựa trên giá trị thuộc tính biểu thức thông thường.
  • phương pháp tìm kiếm thêm tag dựa trên thuộc tính class HTML.
  • Thêm tài sản Source.LegacyNodeIteratorCompatabilityMode tĩnh tạm thời để khôi phục lại Segment.getNodeIterator () chức năng của các phiên bản trước đó.
  • Bỏ char [] phương pháp tìm kiếm dựa vào ParseText.
  • Added CharacterReference.appendCharTo (Appendable) phương pháp.
  • Added OutputDocument (Segment) constructor.
  • chương trình mẫu Added StreamedSourceCopy.

Phần mềm tương tự

Sanitize
Sanitize

12 May 15

JSCapture
JSCapture

13 May 15

Pleeease
Pleeease

10 Dec 15

dope
dope

13 May 15

Phần mềm khác của nhà phát triển Martin Jericho

Ý kiến ​​để Jericho HTML Parser

Bình luận không
Nhập bình luận
Bật hình ảnh!
Tìm kiếm theo chủ đề