dự án Beautiful Soup là một phân tích cú pháp Python HTML / XML được thiết kế cho các dự án quay vòng nhanh như màn hình-scraping. Ba tính năng làm cho nó mạnh mẽ:
Soup đẹp sẽ không bị nghẹn nếu bạn cho nó đánh dấu xấu. Nó mang một cây phân tích cú pháp mà làm cho khoảng như nhiều ý nghĩa như tài liệu gốc của bạn. Điều này thường là đủ tốt để thu thập các dữ liệu bạn cần và chạy đi.
Đẹp Soup cung cấp một vài phương pháp đơn giản và Pythonic thành ngữ để điều hướng, tìm kiếm, và sửa đổi một cây phân tích: một bộ công cụ cho mổ xẻ một tài liệu và giải nén những gì bạn cần. Bạn không cần phải tạo ra một phân tích cú pháp tùy chỉnh cho mỗi ứng dụng.
Đẹp Soup tự động chuyển đổi văn bản đến để Unicode và các tài liệu gửi đi đến UTF-8. Bạn không cần phải suy nghĩ về mã hóa, trừ các tài liệu không chỉ định một mã hóa và Beautiful Soup không thể tự động phát một. Sau đó, bạn chỉ cần có để xác định mã hóa ban đầu.
Đẹp Soup phân tích bất cứ điều gì bạn cho nó, và làm những thứ traversal cây cho bạn. Bạn có thể nói "Tìm tất cả các liên kết", hoặc "Tìm tất cả các liên kết của lớp externalLink", hoặc "Tìm tất cả các liên kết mà các url phù hợp" foo.com ", hoặc" Tìm bảng tiêu đề đó là có chữ in đậm, sau đó cung cấp cho tôi rằng văn bản. "
Dữ liệu có giá trị mà đã từng bị nhốt trong các trang web được thiết kế kém hiện nay là trong tầm tay của bạn. . Các dự án mà đã có thể lấy giờ mất vài phút chỉ với Beautiful Soup
Yêu cầu :
- Python
Bình luận không