Spark được thiết kế để cải thiện tốc độ xử lý để phân tích dữ liệu và các chương trình thao tác.
Nó được viết bằng Java và Scala và cung cấp các tính năng không tìm thấy trong các hệ thống khác, chủ yếu là bởi vì họ không chính thống cũng không phải là hữu ích cho các ứng dụng xử lý không có dữ liệu.
là gì mới trong phiên bản này:.
- Các API cốt lõi hiện nay hỗ trợ cây đa cấp tập hợp để giúp tăng tốc độ đắt tiền giảm hoạt động
- Cải thiện báo cáo lỗi đã được thêm vào cho các hoạt động Gotcha nhất định.
- Spark bây giờ là bóng mờ để giúp tránh xung đột với các chương trình sử dụng.
- Spark bây giờ hỗ trợ mã hóa SSL cho một số thiết bị đầu cuối thông tin liên lạc.
- số liệu Realtime GC và số lượng kỷ lục đã được thêm vào giao diện người dùng.
Jetty phụ thuộc
mới trong phiên bản 1.3.0 là gì:
- Các API lõi bây giờ hỗ trợ cây tổng hợp đa cấp để giúp tăng tốc độ đắt tiền giảm hoạt động.
- Cải thiện báo cáo lỗi đã được thêm vào cho các hoạt động Gotcha nhất định.
- Spark bây giờ là bóng mờ để giúp tránh xung đột với các chương trình sử dụng.
- Spark bây giờ hỗ trợ mã hóa SSL cho một số thiết bị đầu cuối thông tin liên lạc.
- số liệu Realtime GC và số lượng kỷ lục đã được thêm vào giao diện người dùng.
Jetty phụ thuộc
là gì mới trong phiên bản 1.2.1:
- điều hành loại PySpark hiện hỗ trợ tràn bên ngoài cho các tập dữ liệu lớn .
- PySpark bây giờ hỗ trợ các biến phát sóng lớn hơn 2GB và thực hiện tràn bên ngoài trong các loại.
- Spark thêm một trang tuyển dụng cấp tiến trong giao diện người dùng Spark, một API ổn định để báo cáo tiến độ, năng động và cập nhật các số liệu đầu ra là việc làm hoàn chỉnh .
- Spark hiện nay có hỗ trợ cho việc đọc các tập tin nhị phân cho các hình ảnh và các định dạng nhị phân khác.
được gì mới trong phiên bản 1.0.0:
- Phiên bản này mở rộng thư viện chuẩn Spark, giới thiệu mới gói SQL (SQL Spark) cho phép người dùng tích hợp truy vấn SQL thành những quy trình Spark hiện có.
- MLlib, thư viện học máy Spark, được mở rộng với sự hỗ trợ vector thưa thớt và một số thuật toán mới.
là gì mới trong phiên bản 0.9.1:
- Cố định băm lỗi va chạm ở bên ngoài tràn
- Sửa lỗi xung đột với log4j Spark cho người dùng dựa trên phần phụ trợ khai thác gỗ khác
- Cố định Graphx mất tích từ lắp ráp Spark jar trong maven xây dựng
- Cố định lỗi im lặng do bản đồ trạng thái đầu ra vượt quá kích thước khung hình Akka
- phụ thuộc trực tiếp không cần thiết Spark Removed về ASM
- Loại bỏ các số liệu hạch từ mặc định build do xung đột giấy phép LGPL
- Cố định lỗi trong tarball phân phối không chứa assembly spark jar
là gì mới trong phiên bản 0.8.0:
- Phát triển đã chuyển đến Apache Sowftware Foundation là một dự án lồng ấp.
được gì mới trong phiên bản 0.7.3:
- Python thực hiện: cơ chế Spark đẻ Python máy ảo có được cải thiện để làm như vậy nhanh hơn khi các JVM có kích thước đống lớn, đẩy nhanh tiến độ các API Python.
- Mesos sửa chữa: lọ thêm vào công việc của bạn bây giờ sẽ được trên classpath khi deserializing kết quả công việc trong Mesos .
- Lỗi báo cáo:. Báo cáo lỗi tốt hơn cho trường hợp ngoại lệ không serializable và kết quả công việc quá lớn
- Ví dụ:. Thêm một ví dụ về xử lý dòng trạng thái với updateStateByKey
- xây dựng:. Spark streaming không còn phụ thuộc vào các repo Twitter4J, mà nên cho phép nó để xây dựng ở Trung Quốc
- Sửa lỗi trong foldByKey, streaming đếm, thống kê các phương pháp, tài liệu, và giao diện người dùng web.
là gì mới trong phiên bản 0.7.2:.
- Scala phiên bản cập nhật 2.9.3
- Một vài cải thiện Bagel, bao gồm các bản sửa lỗi hiệu suất và mức độ lưu trữ cấu hình.
- phương pháp API mới:. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition, và những người khác
- Một số liệu mới giao diện báo cáo, SparkListener, để thu thập thông tin về từng giai đoạn tính toán:. Độ dài nhiệm vụ, byte lê, vv
- Một số ví dụ mới bằng cách sử dụng API Java, bao gồm K-means và pi điện toán.
là gì mới trong phiên bản 0.7.0:
- Spark 0.7 cho biết thêm một API Python gọi PySpark <. / li>
- jobs Spark giờ khởi động một bảng điều khiển web để theo dõi việc sử dụng bộ nhớ của mỗi bộ dữ liệu phân tán (RDD) trong chương trình.
- Spark bây giờ có thể được xây dựng bằng cách sử dụng Maven ngoài SBT.
là gì mới trong phiên bản 0.6.1:
- Sửa báo thờ gian tạm ngưng quá tích cực mà có thể gây ra người lao động ngắt kết nối từ các cluster.
- Cố định một lỗi trong chế độ triển khai độc lập mà không lộ tên máy để lên lịch, ảnh hưởng đến HDFS địa phương.
- Cải thiện việc tái sử dụng kết nối trong shuffle, do đó có thể tăng tốc độ shuffle nhỏ.
- Sửa một số deadlocks tiềm năng trong quản lý khối.
- Cố định một lỗi nhận được ID của máy chủ không thành công từ Mesos.
- Một số cải tiến EC2 kịch bản, như xử lý tốt hơn các trường hợp chỗ.
- Thực hiện các địa chỉ IP địa phương Spark gắn kết để tùy chỉnh.
- Hỗ trợ cho Hadoop 2 phân phối.
- Hỗ trợ định vị Scala trên các bản phân phối Debian.
là gì mới trong phiên bản 0.6.0:.
- triển khai đơn giản
- tài liệu của Spark đã được mở rộng với một hướng dẫn mới nhanh chóng bắt đầu, hướng dẫn triển khai bổ sung, hướng dẫn cấu hình, điều chỉnh hướng, và cải thiện tài liệu Scaladoc API.
- Một nhà quản lý truyền thông mới sử dụng không đồng bộ Java NIO phép hoạt động ngẫu nhiên chạy nhanh hơn, đặc biệt là khi gửi một lượng lớn dữ liệu hoặc khi công việc có nhiều nhiệm vụ.
- Một nhà quản lý lưu trữ mới hỗ trợ cho mỗi bộ dữ liệu thiết lập mức độ lưu trữ (ví dụ như để giữ cho các bộ dữ liệu trong bộ nhớ, deserialized, trên đĩa, vv, hoặc thậm chí nhân rộng trên khắp các nút).
- Tăng cường gỡ lỗi.
Bình luận không