ASPseek là một phần mềm công cụ tìm kiếm Internet phát triển bởi SWsoft và cấp phép như là phần mềm miễn phí theo GNU GPL.
ASPseek gồm một robot lập chỉ mục, một daemon tìm kiếm, và một lối vào tìm kiếm CGI. Nó có thể chỉ số như nhiều như một vài triệu URL và tìm kiếm các từ và cụm từ, ký tự đại diện sử dụng, và làm một tìm kiếm Boolean. Kết quả tìm kiếm có thể được giới hạn trong khoảng thời gian nhất định, trang web hoặc không gian web (thiết lập các khu vực) và được sắp xếp theo độ liên quan (PageRank được sử dụng) hoặc ngày.
ASPseek được tối ưu hóa cho nhiều trang web (chỉ số luồng, tra cứu DNS async, nhóm kết quả của trang web, không gian Web), nhưng có thể được sử dụng để tìm kiếm một trang web là tốt. ASPseek có thể làm việc với nhiều ngôn ngữ / mã hóa cùng một lúc (bao gồm cả mã hóa nhiều byte như Trung Quốc) do chế độ lưu trữ Unicode. Các tính năng khác bao gồm hỗ trợ stopwords và ispell, một charset và ngôn ngữ guesser, mẫu HTML cho kết quả tìm kiếm, trích đoạn, và các từ hỏi làm nổi bật.
ASPseek được viết bằng C ++ sử dụng thư viện STL, và sử dụng hỗn hợp các cơ sở dữ liệu SQL và các tập tin nhị phân để lưu trữ.
Dưới đây là một số tính năng chính của "ASPseek":
Khả năng chỉ mục và tìm kiếm thông qua một số hàng triệu tài liệu
· Sử dụng ASPseek, bạn có thể xây dựng một cơ sở dữ liệu và tìm kiếm thông qua nhiều trang web, và kết quả cho mỗi truy vấn sẽ được trả lại nhanh chóng ngay cả khi bạn có một vài triệu tài liệu lập chỉ mục. Tất nhiên, điều này phụ thuộc vào phần cứng, do đó, không mong đợi "tốt cũ" máy i486 để xử lý tất cả các trang web trong tên miền .com. Tất cả mọi thứ phụ thuộc vào CPU (s), bộ nhớ, tốc độ đĩa vv Vì vậy, xét nghiệm của riêng bạn trước khi bạn mua phần cứng chuyên dụng.
· Việc ASPseek được tối ưu hóa cho khối lượng cao không nên ngăn cản bạn sử dụng nó để tìm kiếm trang web của bạn có chứa vài trăm tài liệu - nó hoạt động đó là tốt.
Tính thích hợp rất tốt về kết quả
· Mục đích của công cụ tìm kiếm là để tìm thấy những gì người dùng muốn. Có thể có hàng ngàn các URL tìm thấy như là một kết quả của truy vấn tìm kiếm, nhưng tất cả nó có thể là không thích hợp, vì vậy người dùng sẽ không hài lòng.
· Kết quả đầu ra trong ASPseek được sắp xếp theo mức độ liên quan (hay cấp bậc), nhưng tính toán thứ hạng không phải là một nhiệm vụ dễ dàng. Các nhà phát triển đã cố gắng hết sức mình để kết hợp các kỹ thuật vĩ đại nhất và mới nhất vào ASPseek động cơ trong khi duy trì tốc độ tìm kiếm tốt.
Hỗ trợ Ispell
· Khi ASPseek được sử dụng với sự hỗ trợ ispell, searchd (1) tùy ý có thể tìm thấy tất cả các hình thức cho tất cả các từ chỉ định (ví dụ: tạo -> tạo ra hoặc tạo OR tạo). Vì vậy, nó cho phép bạn tìm các từ trong tất cả các hình thức khác nhau.
Chế độ lưu trữ Unicode
· ASPseek có thể lưu trữ thông tin về tài liệu trong Unicode, do đó làm cho có thể thực hiện một công cụ tìm kiếm đa ngôn ngữ. Vì vậy, bạn có thể chỉ mục và tìm kiếm các tài liệu bằng tiếng Anh, tiếng Nga và thậm chí cả Trung Quốc, tất cả trong một cơ sở dữ liệu.
HTTP, HTTPS, HTTP proxy, FTP (thông qua proxy) giao thức
· Như ASPseek là một công cụ tìm kiếm Web, nó sử dụng giao thức HTTP để các trang web chỉ mục. ASPseek cũng hỗ trợ https an toàn: // giao thức. Giao thức FTP không được hỗ trợ trực tiếp, nhưng bạn có thể sử dụng proxy (như mực) và các trang web chỉ số FTP thông qua proxy.
· ASPseek hỗ trợ "quyền cơ bản" tính năng của HTTP, do đó bạn có thể chỉ mục các khu vực bảo vệ mật khẩu (ví dụ như thông tin cá nhân trong mạng nội bộ của bạn).
Text / html và text / plain loại tài liệu hỗ trợ
· ASPseek có thể hiểu được các văn bản viết bằng HTML, và các tài liệu văn bản đơn giản. Đây là những định dạng phổ biến nhất trên Internet.
· Các định dạng khác như PDF, RTF, vv, có thể được hỗ trợ với sự giúp đỡ của bất kỳ chương trình / script bên ngoài mà có thể chuyển đổi các dạng HTML hoặc văn bản đơn giản.
Thiết kế đa luồng, async DNS resolver vv
· ASPseek sử dụng đề POSIX, mà có nghĩa là một quá trình có nhiều chủ đề đang chạy song song. Vì vậy, chỉ số tải tài liệu từ nhiều trang web, và các quá trình tìm kiếm daemon nhiều truy vấn tìm kiếm cùng một lúc. Điều này không chỉ giúp ASPseek quy mô tốt trên SMP (multiprocessor) hệ thống, mà còn cải thiện tốc độ lập chỉ mục, bởi vì trong trường hợp của một sợi thời gian nhất sẽ được chi chờ đợi dữ liệu từ mạng.
· Một điều mà quá trình lập chỉ mục chậm xuống rất nhiều là tra cứu DNS (một quá trình xác định địa chỉ IP bằng cách sử dụng tên máy chủ). Để tránh sự chậm trễ, tra cứu không đồng bộ (tra cứu được thực hiện bởi các quá trình chuyên dụng riêng biệt) và địa chỉ IP bộ nhớ cache được thực hiện.
Stopwords
· Stopwords là một từ mà không có ý nghĩa của chính nó. Ví dụ: được, là, ở, điều này. Tìm kiếm tại là vô ích, vì thế những từ như vậy được loại trừ khỏi truy vấn tìm kiếm. Stopwords cũng được loại trừ khỏi cơ sở dữ liệu trong quá trình lập chỉ mục, vì vậy cơ sở dữ liệu trở nên nhỏ hơn và nhanh hơn.
· Không có "xây dựng trong" stopwords trong ASPseek, chúng được nạp trong quá trình khởi động từ tập tin. Nhiều tập tin từ vô nghĩa cho các ngôn ngữ khác nhau đi kèm với ASPseek.
Charset guesse
· Một số máy chủ bị hỏng hoặc sai không nói cho khách hàng các charset trong đó họ cung cấp nội dung. Nếu bạn đang lập chỉ mục các máy chủ đó, hoặc sử dụng ASPseek đến các máy chủ ftp index (giao thức FTP không biết gì về bảng mã), charset guesser có thể được sử dụng để đối phó với nó. Charset guesser sử dụng bảng tần số từ (gọi là langmaps) để xác định chính xác charset.
Tiêu chuẩn loại trừ robot (robots.txt) hỗ trợ
· ASPseek hỗ trợ đầy đủ tiêu chuẩn này. Nó là để dành cho các tác giả trang web để nói cho robot (ví dụ, chỉ số ASPseek của (1)) để bỏ qua lập chỉ mục một số thư mục của trang web của họ.
· Để biết thêm thông tin xem http://www.robotstxt.org/wc/robots.html
Cài đặt để kiểm soát việc sử dụng băng thông mạng và máy chủ Web tải
· Bạn có thể chính xác kiểm soát băng thông mạng mà chỉ số (1) sử dụng. Chính xác, bạn có thể giới hạn băng thông (thể hiện trong byte mỗi giây) được sử dụng bởi chỉ số (1) cho đưa ra thời gian của ngày. Ví dụ, bạn có thể giới hạn băng thông trong giờ làm việc để mọi người ở văn phòng của bạn sẽ không trải nghiệm Internet chậm.
· Bạn cũng có thể thiết lập thời gian tối thiểu giữa hai truy vấn đến máy chủ Web cùng, vì vậy nó sẽ không bị quá tải và đã xuống đến đầu gối của nó trong khi bạn chạy chỉ số (1).
Real-thời gian lập chỉ mục không đồng bộ
· Một số công cụ tìm kiếm đòi hỏi tìm kiếm phải được dừng lại trong thời điểm cập nhật cơ sở dữ liệu. ASPseek không cần nó, vì vậy bạn có thể tìm kiếm không ngừng.
· Nhiều hơn để nói, có một chế độ đặc biệt của chỉ mục được gọi là "thời gian thực" chỉ mục. Bạn có thể sử dụng nó cho số lượng nhỏ các tài liệu, và theo như tài liệu đó sẽ được tải về và xử lý, thay đổi được hiển thị ngay trong giao diện tìm kiếm. Tính năng này là một sự trợ giúp tuyệt vời nếu bạn đang xây dựng công cụ tìm kiếm cho các trang web có thay đổi đến chóng nội dung như tin tức trực tuyến, vv
· Lưu ý rằng số lượng tài liệu trong "thời gian thực" cơ sở dữ liệu bị hạn chế. Đó là khoảng 1000 trên phần cứng của chúng tôi (mileage của bạn có thể thay đổi), và các tài liệu nhiều hơn bạn có trong "thời gian thực" cơ sở dữ liệu, tốc độ sẽ được tốc độ lập chỉ mục vào đó (và duy nhất) cơ sở dữ liệu. Điều này sẽ không ảnh hưởng đến tốc độ tìm kiếm mặc dù.
· Tài liệu từ "thời gian thực" cơ sở dữ liệu được chuyển đến cơ sở dữ liệu bình thường sau khi chạy chỉ số (1) một cách bình thường.
Sắp xếp kết quả theo độ liên quan hoặc theo ngày
· Công cụ tìm kiếm thường trả về kết quả có liên quan nhất đầu tiên. Nhưng nếu bạn đang tìm kiếm cho các trang mới nhất, bạn có thể nói với ASPseek để sắp xếp kết quả theo ngày sửa đổi cuối cùng, vì vậy gần đây đã sửa đổi (hoặc tạo ra) các trang sẽ được hiển thị đầu tiên.
Trích đoạn, từ hỏi làm nổi bật
· Trích đoạn là một phần của tài liệu được tìm thấy với những từ tìm kiếm nhấn mạnh, chỉ để cho một ý tưởng về những gì các tài liệu là về. Bạn có thể tùy chỉnh số trích đoạn hiển thị và thời gian của họ. Nếu bạn sẽ vô hiệu hóa các đoạn trích, sự khởi đầu của tài liệu sẽ được hiển thị.
· Mỗi tài liệu tìm thấy được đi kèm với "Cached" liên kết. ASPseek giữ một bản sao nén cục bộ của mỗi tài liệu được xử lý, vì vậy người dùng có thể xem toàn bộ tài liệu bằng (tùy chọn) nhấn mạnh những từ được tìm kiếm, ngay cả khi nó đã được gỡ bỏ khỏi trang web ban đầu (điều đó xảy ra đôi khi).
Nhóm các kết quả của trang web
· Kết quả từ một trang web có thể được nhóm lại với nhau. Nếu nhóm của trang web này là vào, chỉ có hai kết quả được hiển thị từ cùng một trang web theo mặc định, và người dùng có thể xem các trang khác từ cùng một trang web bằng cách làm theo một "kết quả khác từ ..." liên kết.
Clones
· Clones là văn bản giống hệt nhau tại các địa điểm khác nhau. Chúng được phát hiện và được nhóm lại với nhau, vì vậy người dùng sẽ không được trình bày với một trang đầy đủ của URL với các văn bản giống hệt nhau.
· Phát hiện Clone thường được giới hạn bởi một trang web (nên tài liệu giống hệt nhau từ các trang web khác nhau không được tính là nhái), nhưng bạn có thể thay đổi điều này bằng cách biên dịch lại ASPseek với --disable-nhái-by-site tùy chọn.
Không gian và tập hợp con
· Không gian là tập hợp của các trang web. Vì vậy, nếu bạn muốn cung cấp tìm kiếm thu hẹp đối với một số khu vực, bạn có thể tạo ra một không gian và tìm kiếm trong không gian đó. Chỉ có toàn bộ các trang web (ví dụ như http://www.mysite.com/) được cho phép để được bao gồm trong không gian.
· Các phân nhóm cũng có thể được sử dụng để hạn chế việc tìm kiếm. Bạn có thể tạo ra tập hợp con và đeo mặt nạ URL (như http://www.mysite.com/mydir/%) vào đó, và sau đó giới hạn phạm vi tìm kiếm để tập hợp chỉ định.
· Bạn có thể giới hạn phạm vi tìm kiếm để không chỉ một mà nhiều tập con hoặc các không gian.
Mẫu HTML cho kết quả tìm kiếm dễ dàng tùy chỉnh
· Bạn có thể tùy chỉnh các trang tìm kiếm của bạn, do đó, họ sẽ như thế và được tích hợp hoàn toàn với phần còn lại của trang web của bạn. Điều này được thực hiện bằng cách chỉnh sửa đơn giản của mẫu tìm kiếm file.
Lắp đặt
gzip -dc aspseek-1.2.10.tar.gz | tar xf -
cd aspseek-1.2.10. / cấu hình
làm
su
thực hiện cài đặt
Tìm kiếm theo chủ đề
- Cải tiến máy tính để bàn
- Công cụ phát triển
- Giáo dục và khoa học phần mềm
- Kinh doanh và phần mềm văn phòng
- Nhà và gia đình phần mềm
- Phần mềm âm thanh
- Phần mềm bảo mật
- Phần mềm hình ảnh kỹ thuật số
- Phần mềm internet
- Phần mềm mạng
- Phần mềm năng suất
- Phần mềm phát triển web
- Phần mềm thiết kế đồ họa
- Phần mềm truyền thông
- Phần mềm video
- Screensavers
- Tiện ích hệ thống
- Trình duyệt
- Trình điều khiển
- Trò chơi
- đĩa và tập tin phần mềm
Phần mềm phổ biến
-
PyVISA 3 Jun 15
-
DDRescue-GUI 17 Aug 18
-
Elastix 2 Oct 16
-
Super Grub2 Disk 20 Jan 18
-
Zorin OS Ultimate 16 Aug 18
-
Syslinux 17 Feb 15
-
VueScan 16 Aug 18
ASPseek
Phần mềm khác của nhà phát triển SWsoft
Ý kiến để ASPseek
Tìm kiếm theo chủ đề
- Cải tiến máy tính để bàn
- Công cụ phát triển
- Giáo dục và khoa học phần mềm
- Kinh doanh và phần mềm văn phòng
- Nhà và gia đình phần mềm
- Phần mềm âm thanh
- Phần mềm bảo mật
- Phần mềm hình ảnh kỹ thuật số
- Phần mềm internet
- Phần mềm mạng
- Phần mềm năng suất
- Phần mềm phát triển web
- Phần mềm thiết kế đồ họa
- Phần mềm truyền thông
- Phần mềm video
- Screensavers
- Tiện ích hệ thống
- Trình duyệt
- Trình điều khiển
- Trò chơi
- đĩa và tập tin phần mềm
Phần mềm phổ biến
-
Redis 28 Sep 15
-
CrossOver 16 Aug 18
-
DDRescue-GUI 17 Aug 18
-
Java-Chess 3 Jun 15
-
Apricity OS 12 Jan 17
-
Slax 20 Feb 15
-
Wifislax 9 Aug 16
Bình luận không