dự án Apache Nutch là một mã nguồn mở, khả năng mở rộng, dễ mở rộng và miễn phí phần mềm web crawler trên nền web được xây dựng trên Apache Lucene (phiên bản Java) thư viện.
Nó cho biết thêm chi tiết cụ thể Web, chẳng hạn như một trình thu thập, một cơ sở dữ liệu liên kết biểu đồ, phân tích cú pháp cho HTML và các định dạng tài liệu khác, vv Nó được phát triển và phân phối bởi Apache Foundation, nó hai ngành riêng biệt.
Là mô-đun và pluggable, Apache Nutch có lợi ích của nó, bằng cách cung cấp các giao diện mở rộng như Parse, Index và ScoringFilter cho việc triển khai tùy chỉnh, chẳng hạn như Apache Tika cho phân tích cú pháp.
Hơn nữa, Apache Nutch được thiết kế để chạy trên một máy tính duy nhất, nhưng nó là mạnh mẽ hơn khi chạy trong một cụm Hadoop. Indexing pluggable tồn tại cho Elastic Search, Apache Solr, vv
là gì mới trong phiên bản này:.
- Nutch-1779 Áp dụng định dạng cho mã (lewismc)
- Nutch-1907 sản lượng không đúng Outlinks Hosts trong HostDbUpdateReducer (lewismc)
- Nutch-1856 Document webpage.avsc và host.avsc (lewismc)
- Nutch-1834 GeneratorMapper vi này phụ thuộc vào mức độ đăng nhập (Gerhard Gossen qua snagel)
- Nutch-1899 lib nâng cấp Restlet để tránh tích thất bại (Talat)
- Nutch-1797 loại bỏ không sử dụng gói oanhtml (Saurabh Chhajed qua snagel)
- Nutch-1888 Chỉ định HTMLMapper để sử dụng trong TikaParser (Halil Simsek qua jnioche)
- Nutch-1897 dễ dàng hơn gỡ lỗi của lỗi Plugin XML (markus)
- Nutch-1823 Nâng cấp lên elasticsearch 1.4.1 (Phú Kiều, markus, lewismc)
- Nutch-1829 Máy phát điện: không thể phân biệt lỗi thực (Mathieu Bouchard, jnioche, snagel)
- Generator Nutch-1778 không đăng nhập được số URL trong hàng loạt một cách chính xác (jnioche qua snagel)
- Nutch-1877 lọc URL Suffix để bỏ qua chuỗi truy vấn theo mặc định (markus qua snagel)
- Nutch-1825 giao thức http thể treo cho các trang web nhất định (Phú Kiều qua snagel)
- Nutch-1483 không thể thu thập thông tin hệ thống tập tin với giao thức-file plugin (Rogerio Pereira Araujo, Mengying Wang, snagel)
- Nutch-1885 Nghị định thư-file nên điều trị liên kết tượng trưng như đổi hướng (Mengying Wang, snagel)
- Nutch-1880 URLUtil không nên thêm dấu gạch chéo bổ sung cho các URL tập tin (snagel)
- Nutch-1879 Regex URL bình thường hóa cho nên loại bỏ nhiều dấu gạch chéo sau khi file: giao thức (snagel)
- Nutch-1820 trường remove & quot; orig & quot; mà sao lại & quot; id & quot; (lewismc, snagel)
- Upgrade Nutch-1843 để Gora 0,5 (Talat, lewismc, Kiril Menshikov, drazzib)
- Nutch-1883 bin / bò: chức năng sử dụng để chạy bin / Nutch và kiểm tra giá trị nhập xuất cảnh (snagel)
- Nutch-1882 mục tiêu eclipse kiến để thêm đường dẫn đầu ra để src / test (snagel)
- Nutch-1827 Cảng Nutch-1467 và Nutch-1561 tới 2.x (snagel)
- Upgrade Nutch-1876 tới Crawler Commons 0.5 (jnioche)
- Nutch-1866 mục tiêu eclipse kiến không nên xóa thời gian chạy (nimafl qua lewismc)
- Nutch-1859 Hãy cổng webapp Nutch cấu hình (Nima Falaki qua lewismc)
- Bug Nutch-1848 trong DashboardPage.html trường hợp truy cập (Nima Falaki qua lewismc)
- Nutch-841 Tạo một ứng dụng Web dựa trên Wicket cho Nutch (Fjodor Vershinin qua lewismc)
- Nutch-1832 Hãy Nutch công việc mà không có một bộ chỉ mục (mattmann qua lewismc)
- Nutch-1840 mô tả các chức năng trong SolrIndexWriter là không đúng (Kaveh minooie qua jnioche)
- Upgrade Nutch-1837 để Tika 1.6 (lewismc)
- Nutch-1829 Máy phát điện: không thể phân biệt lỗi thực (Mathieu Bouchard qua jnioche)
- Nutch-1828 bin / bò: xử lý không đúng lỗi Nutch (Mathieu Bouchard qua jnioche)
- Nutch-1693 TextMD5Signature tính theo nội dung văn bản (Tiến Nguyễn Mạnh, markus qua snagel)
- Nutch-1409 loại bỏ phản đối tính db. {mặc định, max} .fetch.interval, generate.max.per.host.by.ip (Matthias Agethle qua snagel)
- Nutch-1819 batchId trong GeneratorJob (Fjodor Vershinin qua lewismc)
- Nutch-1708 sử dụng cùng một id khi lập chỉ mục và xóa trang đổi hướng (snagel)
- Nutch-1817 Di pom.xml từ nguồn (jnioche)
- Nutch-1811 bin / JUnit Nutch sử dụng JUnit 4 thử nghiệm runner (snagel)
- Nutch-1776 đường dẫn tập tin Log plugin.folder không chính xác (Diaa qua snagel)
- Nutch-1566 bin / Nutch để cho phép khoảng trắng trong đường dẫn (tejasp, snagel)
- Nutch-1605 kiểu MIME dò nhận xlsx như file zip (snagel)
- Nutch-385 Cải thiện mô tả về chủ đề liên quan đến cấu hình cho Fetcher (jnioche, Lufeng)
- Nutch-1798 Thu thập thông tin kịch bản không gọi chỉ số lệnh một cách chính xác (Aaron Bedward qua jnioche)
- Nutch-1769 REST API refactoring (Fjodor Vershinin qua lewismc)
- Nutch-1633 slf4j được cung cấp bởi hadoop và không nên được bao gồm trong các tập tin công việc (Kaveh minooie qua jnioche)
- Nutch-1787 cập nhật và đầy đủ trang API doc tổng quan (snagel)
- Nutch-1767 loại bỏ điều trị đặc biệt của & quot; params & quot; trong các liên kết tương đối (snagel)
- Nutch-1718 xác định lại http.robots.agent như & quot; tên đại lý thêm & quot; (snagel, Tejas Patil, Daniel Kugel)
- Nutch-1796 Đảm bảo Gora nhà xây dựng đối tượng được sử dụng như là phản đối đơn vị thi công có sản phẩm nào (snagel qua lewismc)
- Nutch-1590 [AN] Khung lỗ hổng tiêm trong Javadoc xuất bản (jnioche)
- Nutch-1736 Không thể tìm nạp trang nếu đáp ứng tiêu đề http chứa Transfer-Encoding: chửi rủa (YSC qua jnioche)
- Nutch-1782 NodeWalker trở về nút hiện tại (markus)
- Nutch-1781 Cập nhật Gora - * - mapping.xml và gora.proeprties để phản ánh Gora 0,4 (lewismc)
- Upgrade Nutch-1768 đến ElasticSearch 1.1.0 (jnioche)
- -stats readdb Nutch-1634 cho thấy kết quả hai lần (Kaveh minooie qua jnioche)
- Nutch 1780 ttl và gc_grace_seconds thuộc tính bị thiếu từ tập tin Gora-cassandra-mapping.xml (Kaveh minooie qua lewismc)
- Nutch-1676 Thêm hỗ trợ SSL thô sơ để giao thức http (jnioche, markus)
- Nutch-1674 Sử dụng bộ lọc batchId để cho phép quét (Gora-119) cho Fetch, Parse, Update, Index (Tiến Nguyễn Mạnh và Alparslan Avci qua jnioche)
- Upgrade Nutch-1714 để Gora 0,4 (Alparslan Avci qua jnioche)
- Nutch-1752 quy cache robots.txt cho mỗi giao thức: host: port (snagel)
- Nutch-1613 Thời gian hết trong giao thức httpclient khi thu thập cùng một máy chủ với & gt; 2 bài (brian44 qua jnioche)
- fetcher Nutch-1182 để đăng bài hung (snagel)
- Nutch-1618 Rẽ thực hiện suy đoán ra cho tìm nạp (Talat)
- Nutch-1657 ORIGINAL_CHAR_ENCODING và CHAR_ENCODING_FOR_CONVERSION không bao giờ đặt trong HTMLParser (Talat)
- giảm Nutch-1725 CleaningJob của không cam kết tài liệu đã bị xóa. (ilhamikalkan qua Talat)
- Nutch-1728 indexer-Solr plugin không xóa tài liệu từ Solr (ilhamikalkan qua Talat)
- Nutch-1753 Eclipse vấn đề dependecy cho 2.x (Talat)
- Nutch-1720 dòng trùng lặp trong HttpBase.java (Walter Tietze qua jnioche)
- Nutch-797 URL không được xây dựng đúng khi mục tiêu liên kết bắt đầu với một & quot;? & quot; (Doug Cook, Robert Hohman, Stondet, ab qua snagel)
- Upgrade Nutch-1759 để Crawler Commons 0.4 (jnioche)
- Nutch-1700 Loại bỏ phản đối mã trong src / plugin / creativecommons / build.xml (lewismc)
- Nutch-1761 Thu thập thông tin kịch bản không tìm thấy tập tin công việc nếu không bắt đầu từ bên trong bin dir (David Hosking, jnioche)
- Nutch-1603 phân tích cú pháp ZIP than phiền về việc cắt ngắn tập tin PDF (snagel qua lewismc)
- Nutch-1743 parsechecker để hiển thị outlinks (snagel)
- Nutch-1732 dòng Better cmd phân tích cú pháp cho NutchServer (Fjodor Vershinin qua lewismc)
- Nutch-1751 neo rỗng không nên chỉ số (Sertac TURKEL qua lewismc)
- Nutch-1733-parse html để hỗ trợ HTML5 định nghĩa charset (snagel)
- Nutch-1727 chiều dài cấu hình cho tên miền cấp cao (Sertac TURKEL qua lewismc)
- Nutch-1738 Expose số URL được tạo ra cho mỗi lô trong GeneratorJob (Talat UYARER qua ewismc)
- indexchecker Nutch-1671 để thêm tiêu hóa lĩnh vực (snagel, Lufeng)
- Nutch-1645 JUnit Test Case cho thích ứng Fetch Schedule lớp (Yasin Kilinc, Lufeng, Sertac URKEL qua snagel)
- Nutch-1478 Parse-MetaTags và chỉ số siêu dữ liệu plugin cho Nutch loạt 2.x (Kiran, Nguyễn anh Tiến, Talat UYARER, Vangelis Karvounis qua lewismc)
- Upgrade Nutch-1729 để Tika 1.5 (jnioche)
- Nutch-1721 Nâng cấp lên trình thu thập thông thường 0,3 (tejasp)
- Nutch-1719 DomainStatistics bị lỗi trong 2.x vì URL không unreversed (Gerhard Gossen qua lewismc)
- Nutch-1253 Incompatable neko và xerces phiên bản (snagel, lewismc, Talat UYARER)
- Nutch-1715 RobotRulesParser thêm thêm '*' với tên robot (tejasp)
- Nutch-356 Plugin kho cache có thể dẫn đến rò rỉ bộ nhớ (Enrico TRIOLO, Dogacan Guney qua markus)
- Nutch-1164 kiểm tra Viết JUnit cho giao thức http (Sertac TURKEL qua tejasp)
- Nutch-1710 Add gora gói logging để log4j.properties (lewismc)
- Nutch-1655 Indexer Plugin cho Elastic Search (Talat UYARER qua lewismc)
- Nutch-1699 Tika Parser - Hình ảnh Parse Bug (Mehmet Zahid Yuzuguldu, snagel qua lewismc)
- Nutch-1568 cổng kiến trúc pluggable lập chỉ mục để 2.x (Talat UYARER qua lewismc)
- Inlinks Nutch-1672 được bổ sung hai lần trong DbUpdateReducer (Tiến Nguyễn Mạnh qua lewismc)
- Nutch-1667 updatedb luôn luôn bỏ qua batchId (Tiến Nguyễn Mạnh qua lewismc)
- Nutch-1695 NutchDocument.toString () (markus qua lewismc)
- Nutch-1696 Kích hoạt sử dụng (Gora) phụ thuộc SNAPSHOT (lewismc)
- Nutch-1681 Trong URLUtil.java, phương pháp toUNICODE không hoạt động đúng (A
Bình luận không