mrjob

Phần mềm chụp màn hình:
mrjob
Các chi tiết về phần mềm:
Phiên bản: 0.4
Ngày tải lên: 20 Feb 15
Nhà phát triển: David Marin
Giấy phép: Miễn phí
Phổ biến: 16

Rating: 3.0/5 (Total Votes: 1)

mrjob là một mô-đun Python giúp bạn viết và chạy các công việc Hadoop Streaming.
mrjob hỗ trợ đầy đủ dịch vụ của Amazon Elastic MapReduce (EMR), cho phép bạn để mua thời gian trên một cụm Hadoop trên cơ sở từng giờ. Nó cũng làm việc với các cụm Hadoop của riêng bạn.
Cài đặt:
python setup.py cài đặt
Thiết lập EMR trên Amazon
& Nbsp; * tạo một tài khoản Amazon Web Services: http://aws.amazon.com/
& Nbsp; * đăng ký Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Hãy truy cập của bạn và khóa bí mật (đi http://aws.amazon.com/account/ và click vào "Tiêu Security") và thiết lập các biến môi trường $ AWS_ACCESS_KEY_ID và $ AWS_SECRET_ACCESS_KEY phù hợp

Hãy thử nó ra!

# Địa phương
python mrjob / examples / mr_word_freq_count.py README.md> đếm
# Trên EMR
python mrjob / examples / mr_word_freq_count.py README.md -r EMR> đếm
# Trên cụm Hadoop của bạn
python mrjob / examples / mr_word_freq_count.py README.md -r hadoop> đếm
Advanced Configuration
Chạy trong các vùng AWS khác, tải lên cây nguồn của bạn, chạy make, và sử dụng các tính năng tiên tiến mrjob khác, bạn sẽ cần phải thiết lập mrjob.conf. mrjob trông cho tập tin conf của nó trong:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf bất cứ nơi nào trong $ PYTHONPATH của bạn
& Nbsp; * /etc/mrjob.conf
Xem mrjob.conf.example để biết thêm thông tin

Tính năng .

  • Run việc làm trên EMR, cụm Hadoop của riêng bạn, hoặc tại địa phương (để thử nghiệm).
  • Viết công ăn việc làm nhiều bước (một map-giảm bước vào nguồn cấp dữ liệu tiếp theo)
  • Duplicate môi trường sản xuất của bạn bên trong Hadoop
  • Upload cây nguồn và đặt nó trong của công việc của bạn $ PYTHONPATH
  • Run thực hiện và thiết lập các kịch bản khác
  • Đặt biến môi trường (ví dụ: $ TZ)
  • Dễ dàng cài đặt các gói python từ tarball (EMR chỉ)
  • Setup xử lý minh bạch của tập tin cấu hình mrjob.conf
  • Tự động giải thích các bản ghi lỗi từ EMR
  • SSH tunnel để theo dõi công việc hadoop trên EMR
  • thiết lập tối thiểu
  • Để chạy về EMR, đặt $ AWS_ACCESS_KEY_ID và $ AWS_SECRET_ACCESS_KEY
  • Để chạy trên cụm Hadoop của bạn, thiết lập $ HADOOP_HOME

Yêu cầu :

  • Python

Phần mềm tương tự

Mrs
Mrs

20 Feb 15

cloud-calculator
cloud-calculator

12 May 15

Phần mềm khác của nhà phát triển David Marin

doloop
doloop

11 May 15

Ý kiến ​​để mrjob

Bình luận không
Nhập bình luận
Bật hình ảnh!