Apache Spark

Phần mềm chụp màn hình:
Apache Spark
Các chi tiết về phần mềm:
Phiên bản: 1.6.0 Cập nhật
Ngày tải lên: 6 Mar 16
Nhà phát triển: Apache Software Foundation
Giấy phép: Miễn phí
Phổ biến: 104

Rating: 1.0/5 (Total Votes: 1)

Apache Spark được thiết kế để cải thiện tốc độ xử lý cho các chương trình phân tích dữ liệu và thao tác.

Nó được viết bằng Java và Scala và cung cấp các tính năng không tìm thấy trong các hệ thống khác, chủ yếu là bởi vì họ không chính thống cũng không phải là hữu ích cho các ứng dụng xử lý không có dữ liệu.

Spark lần đầu tiên được tạo ra tại UC Berkeley AMP Lab và sau đó tặng cho Apache Software Foundation

Điều gì là mới trong phiên bản này:.

  • Thống nhất quản lý bộ nhớ -. Bộ nhớ chia sẻ để thực thi và bộ nhớ đệm thay vì bộ phận độc quyền của khu vực
  • Hiệu suất Parquet - Cải thiện Parquet quét hiệu suất khi sử dụng lược đồ phẳng
  • .
  • Cải thiện kế hoạch truy vấn cho các truy vấn có các kết hợp khác biệt -. Kế hoạch truy vấn của các kết hợp khác nhau là mạnh mẽ hơn khi các cột riêng biệt có cardinality cao
  • Thích ứng truy vấn thực hiện -. Hỗ trợ ban đầu cho tự động lựa chọn số lượng gia giảm cho gia nhập và quy tụ
  • Tránh lọc đôi trong nguồn dữ liệu API -. Khi thực hiện một nguồn dữ liệu với bộ lọc kéo xuống, các nhà phát triển có thể nói Spark SQL để tránh đôi đánh giá một bộ lọc đẩy xuống
  • nhanh null-an toàn tham gia - tham gia sử dụng null-an toàn bình đẳng (& # x3c; = & # x3e;) bây giờ sẽ thực hiện bằng cách sử SortMergeJoin thay vì tính toán một sản phẩm cartisian
  • .
  • Trong bộ nhớ hiệu suất Columnar Cache - đáng kể (lên đến 14x) tăng tốc độ khi bộ nhớ đệm dữ liệu có chứa các loại phức tạp trong DataFrames hoặc SQL
  • .
  • SQL Execution Sử dụng Off-Heap Memory - Hỗ trợ cấu hình thực hiện truy vấn để xảy ra sử dụng bộ nhớ ngoài đống để tránh GC trên cao

mới trong phiên bản 1.5.2 là gì:

  • Các API lõi bây giờ hỗ trợ cây tập hợp đa cấp để giúp tăng tốc độ đắt tiền giảm hoạt động.
  • Cải thiện báo cáo lỗi đã được thêm vào cho các hoạt động Gotcha nhất định.

  • Jetty phụ thuộc
  • Spark bây giờ là bóng mờ để tránh xung đột với các chương trình sử dụng.
  • Spark bây giờ hỗ trợ mã hóa SSL cho một số thiết bị đầu cuối truyền thông.
  • số liệu Realtime GC và đếm kỷ lục đã được thêm vào giao diện người dùng.

mới trong phiên bản 1.4.0 là gì:

  • Các API lõi bây giờ hỗ trợ cây tập hợp đa cấp để giúp tăng tốc độ đắt tiền giảm hoạt động.
  • Cải thiện báo cáo lỗi đã được thêm vào cho các hoạt động Gotcha nhất định.

  • Jetty phụ thuộc
  • Spark bây giờ là bóng mờ để tránh xung đột với các chương trình sử dụng.
  • Spark bây giờ hỗ trợ mã hóa SSL cho một số thiết bị đầu cuối truyền thông.
  • số liệu Realtime GC và đếm kỷ lục đã được thêm vào giao diện người dùng.

Điều gì là mới trong phiên bản 1.2.0:

  • điều hành loại PySpark hiện hỗ trợ tràn bên ngoài cho các tập dữ liệu lớn .
  • PySpark bây giờ hỗ trợ các biến phát sóng lớn hơn 2GB và thực hiện tràn bên ngoài trong các loại.
  • Spark thêm một trang việc cấp tiến trong giao diện người dùng Spark, một API ổn định để báo cáo tiến độ, và cập nhật năng động của các số liệu đầu ra là công việc hoàn thành.
  • Spark hiện nay có hỗ trợ cho việc đọc các tập tin nhị phân cho các hình ảnh và các định dạng nhị phân khác.

được gì mới trong phiên bản 1.0.0:

  • Phiên bản này mở rộng thư viện chuẩn Spark, giới thiệu mới SQL gói (Spark SQL) cho phép người dùng tích hợp truy vấn SQL vào công việc Spark hiện có.
  • MLlib, thư viện học máy Spark, được mở rộng với sự hỗ trợ vector thưa thớt và một số thuật toán mới.

Điều gì là mới trong phiên bản 0.9.1:

  • Cố định băm va chạm lỗi trong tràn bên ngoài
  • Cố định mâu thuẫn với log4j Spark cho người dùng dựa trên phần phụ trợ khai thác gỗ khác
  • Cố định Graphx mất tích từ jar lắp ráp Spark trong maven xây dựng
  • thất bại im lặng cố định do bản đồ trạng thái đầu ra vượt quá kích thước Akka khung
  • phụ thuộc trực tiếp không cần thiết Removed Spark trên ASM
  • Loại bỏ các số liệu hạch từ xây dựng mặc định do xung đột giấy phép LGPL
  • Cố định lỗi trong tarball phân phối không chứa assembly tia lửa jar

Điều gì là mới trong phiên bản 0.8.0:

  • Phát triển đã chuyển sang Apache Sowftware Foundation như một dự án lồng ấp.

được gì mới trong phiên bản 0.7.3:

  • Python thực hiện: cơ chế Spark đẻ Python máy ảo có được cải thiện để làm như vậy nhanh hơn khi JVM có một kích thước đống lớn, đẩy nhanh tiến độ các API Python.
  • Mesos sửa: lọ thêm vào công việc của bạn bây giờ sẽ được trên classpath khi deserializing kết quả công việc trong Mesos
  • .
  • Báo cáo lỗi:. Báo cáo lỗi tốt hơn cho trường hợp ngoại lệ không serializable và kết quả công việc quá lớn
  • Ví dụ:. Thêm một ví dụ về xử lý dòng trạng thái với updateStateByKey
  • xây dựng:. Spark streaming không còn phụ thuộc vào các repo Twitter4J, mà nên cho phép nó để xây dựng ở Trung Quốc
  • Sửa lỗi trong foldByKey, streaming đếm, thống kê các phương pháp, tài liệu, và giao diện người dùng web.

Điều gì là mới trong phiên bản 0.7.2:.

  • Scala phiên bản cập nhật để 2.9.3
  • Một số cải tiến để Bagel, bao gồm các bản sửa lỗi hiệu suất và mức độ lưu trữ cấu hình.
  • phương pháp API mới:. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition, và những người khác
  • Một số liệu mới giao diện báo cáo, SparkListener, để thu thập thông tin về từng giai đoạn tính toán:. Độ dài nhiệm vụ, byte lê, vv
  • Một vài ví dụ mới bằng cách sử dụng API Java, bao gồm K-means và máy tính pi.

Điều gì là mới trong phiên bản 0.7.0:

  • Spark 0.7 cho biết thêm một API Python gọi PySpark <. / li>
  • jobs Spark nay khởi động một bảng điều khiển web để theo dõi việc sử dụng bộ nhớ của mỗi bộ dữ liệu phân tán (RDD) trong chương trình.
  • Spark bây giờ có thể được xây dựng sử dụng Maven ngoài SBT.

Điều gì là mới trong phiên bản 0.6.1:

  • Sửa báo quá tích cực thời gian chờ có thể gây ra cho người lao động ngắt kết nối từ các cluster.
  • Cố định một lỗi trong chế độ triển khai độc lập mà không lộ hostname tới lịch, ảnh hưởng đến HDFS địa phương.
  • Cải thiện việc tái sử dụng kết nối trong shuffle, do đó có thể tăng tốc độ shuffle nhỏ.
  • Cố định một số bế tắc tiềm năng trong quản lý khối.
  • Cố định một lỗi nhận được ID của máy chủ không thành công từ Mesos.
  • Một số cải tiến EC2 kịch bản, như xử lý tốt hơn các trường hợp tại chỗ.
  • Thực hiện các địa chỉ IP địa phương Spark gắn với tùy chỉnh.
  • Hỗ trợ cho Hadoop 2 phân phối.
  • Hỗ trợ định vị Scala trên các bản phân phối Debian.

Điều gì là mới trong phiên bản 0.6.0:.

  • triển khai đơn giản
  • tài liệu của Spark đã được mở rộng với một hướng dẫn mới nhanh chóng bắt đầu, hướng dẫn triển khai bổ sung, hướng dẫn cấu hình, điều chỉnh hướng, và cải thiện tài liệu Scaladoc API.
  • Một nhà quản lý truyền thông mới sử dụng không đồng bộ Java NIO phép hoạt động ngẫu nhiên chạy nhanh hơn, đặc biệt là khi gửi một lượng lớn dữ liệu hoặc khi công việc có nhiều nhiệm vụ.
  • Một nhà quản lý lưu trữ mới hỗ trợ cho mỗi bộ dữ liệu thiết lập mức độ lưu trữ (ví dụ liệu để giữ cho dữ liệu trong bộ nhớ, deserialized, trên đĩa, vv, hoặc thậm chí nhân rộng trên khắp các nút).
  • Tăng cường gỡ lỗi.

Phần mềm khác của nhà phát triển Apache Software Foundation

Apache Axiom
Apache Axiom

6 Mar 16

Apache Drill
Apache Drill

9 Feb 16

Apache Qpid
Apache Qpid

12 Apr 15

Apache Airavata
Apache Airavata

6 Mar 16

Ý kiến ​​để Apache Spark

Bình luận không
Nhập bình luận
Bật hình ảnh!