Các phần mềm Methabot là một tốc độ tối ưu, web kịch bản và cấu hình cao, ftp và địa phương tập tin hệ thống thu thập thông tin. Nó hỗ trợ filetype Scripted phân tích, một loạt các lựa chọn tùy biến và được cấu hình một cách dễ dàng để phù hợp với nhu cầu cụ thể bất kỳ ai.
Với việc sử dụng các hệ thống mô-đun và ngôn ngữ kịch bản, người dùng có thể kiểm soát toàn bộ hoặc một phần của quá trình thu thập dữ liệu và quyết định tuy nhiên Methabot nên lưu trữ dữ liệu web, thống kê và nhiều hơn nữa.
Chỉ cần bằng cách chạy Methabot từ dòng lệnh, bạn có thể định dạng tập tin cấu hình tùy chỉnh, chọn lọc các biểu thức, hành vi, và nhiều hơn nữa, vì vậy bạn không phải là một scripter
Tính năng :
- Đó là nhanh chóng, được thiết kế từ mặt đất lên với tốc độ tối ưu hóa trong tâm trí .
- Scriptable qua Javascript với E4X
- Người dùng định nghĩa filetype lọc (theo kiểu MIME, phần mở rộng tập hoặc biểu UMEX)
- Multi-ren
- Cấu hình cao từ dòng lệnh
- hệ thống mô-đun mở rộng, hỗ trợ phân tích cú pháp dữ liệu tùy chỉnh và bộ lọc.
- đơn giản nhưng mạnh mẽ lọc URL qua UMEX.
- tải tự động
- Hỗ trợ xử lý cookie tự động khi chạy trên HTTP
- đáng tin cậy, mạng chịu lỗi
- Portable, thử nghiệm thành công trên 32-bit / 64-bit Linux 2.6, 32-bit / 64-bit FreeBSD 6.x / 7.0, Windows XP và Mac OS X. Nên hoạt động trên hầu hết các hệ điều hành Unix-like.
là gì mới trong phiên bản này:
- Sửa lỗi, khi bên ngoài-ú đã được sử dụng giới hạn chiều sâu là điều sai lầm.
- Memory dọn dẹp
- dynamic-url không còn được thiết lập để tra cứu theo mặc định, vì nó làm chậm bò đáng kể
- Xây dựng hệ thống doanh nghiệp tạo ra và cài đặt một số tập tin tiêu đề mô-đun có thể sử dụng khi liên kết
- công cụ Metha-config thêm
- lmm_mysql di chuyển bên ngoài của gói này
Sửa lỗi sử dụng
Tùy chọn
là gì mới trong phiên bản 1.5.0:
- Thay đổi và tính năng mới:
- Hỗ trợ đọc đệm ban đầu từ stdin
- - loại và --base-url tùy chọn dòng lệnh thêm, cùng với tùy chọn initial_filetype trong các tập tin cấu hình
- Cookies và thông tin DNS hiện đang được chia sẻ đúng cách giữa người lao động khi chạy đa luồng
- Nhập một số ví dụ sử dụng lệnh để --examples
- cải tiến lớn tới việc truyền thông liên thread, bây giờ nhanh hơn và nhiều hơn nữa tổ chức
- Thêm hỗ trợ cho các chức năng 'init' để kịch bản. Tìm hiểu thêm về chức năng init tại http://bithack.se/projects/methabot/docs/e4x/init_functions.html
- libmetha không đóng băng khi làm nhiều yêu cầu HTTP ĐẦU đồng thời nữa. Lý do cho sự đóng băng là một lỗi trong libcurl mà bây giờ là cố định. Một số cách giải quyết đã được thêm vào libmetha để ngăn chặn sự đóng băng từ xảy ra khi sử dụng các phiên bản libcurl khiếm khuyết là tốt.
- Hỗ trợ cho các phiên bản cũ hơn libcurl 7.17.x và 7.16.x
- Thông tin mới là có sẵn trong các & quot; này & quot; đối tượng của javascript phân tích cú pháp, nội dung kiểu và tình trạng chuyển nhượng mã. Tìm hiểu thêm tại http://bithack.se/projects/methabot/docs/e4x/this.html
- - tùy chọn tiết thay thế bằng --silent, kể từ khi chế độ tiết bây giờ là mặc định
- hỗ trợ ban đầu cho FTP bò và các tùy chọn ftp_dir_url bánh xích
- Độ sâu hạn chế hiện nay là thu thập thông tin cụ thể
- Thêm các tùy chọn dòng lệnh --crawler và --filetype
- Hỗ trợ cho việc mở rộng và trọng trình thu thập đã được xác định và loại file
- Hỗ trợ cho các từ khóa bản trong các tập tin cấu hình
- Hỗ trợ tự động chuyển đổi các trình thu thập hoạt động, điều này cho phép bạn thu thập dữ liệu trang web khác nhau theo những cách hoàn toàn khác nhau trong một phiên bò. Tìm hiểu thêm về chuyển bánh xích tại http://bithack.se/projects/methabot/docs/crawler_switching.html
- phiên bản libev nâng cấp lên 3.51
- Các bao gồm chỉ thị trong tập tin cấu hình bây giờ làm cho chắc chắn rằng file cấu hình bao gồm một đã được nạp, để ngăn chặn bao gồm-vòng và nhiều định nghĩa filetype / bánh xích.
- Nhiều SpiderMonkey sửa thu gom rác thải, libmetha không sụp đổ nữa khi lau dọn sau một phiên multithreaded
- Nhập một số thông tin bổ sung cho các tùy chọn --info
- Các tùy chọn 'bên ngoài' bây giờ là cố định và bật trở lại
- Lựa chọn mới --spread nghiệp
- New libmetha API chức năng lmetha_global_setopt () cho phép thay đổi các lỗi / tin nhắn / cảnh báo phóng viên toàn cầu
- Thêm thực hiện ban đầu của một bộ thử nghiệm cho các nhà phát triển
- báo cáo lỗi tốt hơn khi tải các tập tin cấu hình
- Sửa lỗi khi một máy chủ HTTP không trở về một Content-Type sau khi một yêu cầu HEAD
- Sửa lỗi khi phân loại các URL sau khi các yêu cầu đa HTTP ĐẦU
- * Sửa lỗi trong html để chuyển đổi xml khi trang HTML không có một & lt; html & gt; tag
- Sửa lỗi, tùy chọn extless-url không hoạt động
- Sửa lỗi, html để chuyển đổi xml không còn cuộn cảm trên dấu byte ở hoặc văn bản khác trước khi HTML thực tế
- Sửa lỗi, ngăn libmetha từ cố gắng để truy cập vào các URL của các giao thức không được hỗ trợ
- Sửa lỗi khi tắt máy tính sau khi một lỗi.
- Sửa lỗi, URL không thể giải quyết không thoát ra khỏi vòng lặp thử lại sau ba lần thử lại
- Rất nghiệm và hỗ trợ ổn định cho Win32, chủ yếu dành cho các nhà phát triển
- file cấu hình mới:
- google.conf, để thực hiện tìm kiếm google
- youtube.conf, youtube tìm kiếm
- meta.conf, in thông tin meta như các từ khoá và mô tả về các trang HTML
- title.conf, in các tiêu đề của các trang HTML
- ftp.conf, thu thập thông tin các máy chủ FTP
là gì mới trong phiên bản 1.4.1:
- Configure không thể tìm thấy jsapi.h trên một số hệ thống , điều này cần được cố định ngay bây giờ.
- Các file cấu hình hiện nay có thể thay đổi bánh xích và filetype cờ, thêm các tùy chọn 'bên ngoài' và 'external_peek'
- Sửa lỗi, Methabot sẽ đôi khi tai nạn khi làm sạch các URL rỗng sau nhiều HTTP ĐẦU
- Cố định một vụ tai nạn xảy ra khi chạy đồng bộ.
- Xây dựng hệ thống bao gồm sửa chữa khi jsconfig.h không thể tìm được.
Yêu cầu :
- tiêu đề SpiderMonkey
- cURL
Bình luận không