Apache Hadoop

Phần mềm chụp màn hình:
Apache Hadoop
Các chi tiết về phần mềm:
Phiên bản: 1.0
Ngày tải lên: 2 Apr 18
Nhà phát triển: The Apache Software Foundation
Giấy phép: Miễn phí
Phổ biến: 1
Kích thước: 17862 Kb

Rating: nan/5 (Total Votes: 0)

Dữ liệu lớn là thuật ngữ tiếp thị bao gồm toàn bộ ý tưởng dữ liệu được khai thác từ các nguồn như công cụ tìm kiếm, mẫu mua hàng của cửa hàng tạp hóa được theo dõi thông qua thẻ điểm. Trong thế giới hiện đại, Internet có rất nhiều các nguồn dữ liệu, mà thường xuyên hơn không phải là quy mô làm cho nó không sử dụng được mà không cần xử lý và chế biến sẽ mất một khoảng thời gian đáng kinh ngạc của bất kỳ một máy chủ. Nhập Apache Hadoop

Ít thời gian hơn để xử lý dữ liệu

Bằng cách tận dụng kiến ​​trúc Hadoop để phân phối các tác vụ xử lý trên nhiều máy trên mạng , thời gian xử lý bị giảm đi về mặt thiên văn và các câu trả lời có thể được xác định trong một khoảng thời gian hợp lý. Apache Hadoop được chia thành hai thành phần khác nhau: một thành phần lưu trữ và một thành phần xử lý. Trong các thuật ngữ đơn giản nhất, Hapood tạo một máy chủ ảo ra khỏi nhiều máy vật lý . Trong thực tế, Hadoop quản lý giao tiếp giữa nhiều máy sao cho chúng hoạt động cùng nhau đủ để nó xuất hiện như thể chỉ có một máy làm việc trên tính toán. Dữ liệu được phân phối trên nhiều máy để được lưu trữ và các tác vụ xử lý được phân bổ và điều phối bởi kiến ​​trúc Hadoop

. Loại hệ thống này là một yêu cầu để chuyển đổi dữ liệu thô thành thông tin hữu ích về quy mô đầu vào dữ liệu lớn. Xem xét lượng dữ liệu mà Google nhận được mỗi giây từ người dùng nhập các yêu cầu tìm kiếm. Theo tổng khối lượng dữ liệu, bạn sẽ không biết phải bắt đầu từ đâu, nhưng Hadoop sẽ tự động giảm tập dữ liệu thành các tập con nhỏ hơn, được tổ chức và chỉ định các tập hợp con có thể quản lý này cho các tài nguyên cụ thể. Tất cả các kết quả được báo cáo trở lại và được tập hợp thành thông tin có thể sử dụng được .

Một máy chủ dễ cài đặt

Mặc dù hệ thống âm thanh phức tạp, hầu hết các bộ phận chuyển động bị che khuất sau sự trừu tượng. Thiết lập máy chủ Hadoop khá đơn giản , chỉ cần cài đặt các thành phần máy chủ trên phần cứng đáp ứng được các yêu cầu của hệ thống. Phần khó hơn là lập kế hoạch cho mạng máy tính mà máy chủ Hadoop sẽ sử dụng để phân phối các vai trò lưu trữ và chế biến. Điều này có thể bao gồm thiết lập mạng cục bộ hoặc kết nối nhiều mạng với nhau trên Internet . Bạn cũng có thể sử dụng các dịch vụ đám mây hiện tại và trả tiền cho cụm Hadoop trên các nền tảng đám mây phổ biến như Microsoft Azure và Amazon EC2. Các cấu hình này thậm chí còn dễ dàng hơn khi bạn có thể xoay chúng theo thời điểm và sau đó hủy bỏ các cụm khi bạn không cần đến chúng nữa. Các loại cụm này rất lý tưởng để thử nghiệm vì bạn chỉ phải trả cho thời gian nhóm Hadoop hoạt động.

Quá trình xử lý dữ liệu của bạn để có được thông tin bạn cần

Dữ liệu lớn là nguồn lực vô cùng mạnh mẽ, nhưng dữ liệu là vô dụng, trừ khi nó có thể được phân loại đúng và chuyển thành thông tin. Vào thời điểm hiện tại, các cụm Hadoop cung cấp một phương pháp cực kỳ hiệu quả về chi phí để xử lý những bộ sưu tập dữ liệu này thành thông tin.

Hệ thống hoạt động hỗ trợ

Phần mềm khác của nhà phát triển The Apache Software Foundation

Apache Tika
Apache Tika

20 Feb 15

Apache Cassandra
Apache Cassandra

19 Feb 15

Batik
Batik

3 Jun 15

Apache Mahout
Apache Mahout

19 Feb 15

Ý kiến ​​để Apache Hadoop

Bình luận không
Nhập bình luận
Bật hình ảnh!