Apache Parquet là một định dạng lưu trữ "cột" dữ liệu đã được tạo ra đặc biệt cho các Apache Hadoop gia đình của các dự án.
Ván sàn nên được sử dụng với dữ liệu lớn, chủ yếu là bởi vì nó sử dụng một hệ thống nén dữ liệu phức tạp, dựa trên một loạt các kỷ lục băm nhỏ và tái lắp ráp các thuật toán tối ưu hóa.
Điều này cho phép dữ liệu được chia nhỏ, tổ chức trong một định dạng lồng nhau, và lắp ráp lại bất cứ khi nào truy vấn.
Các định dạng ván sàn cũng có thể được sử dụng bên ngoài hệ sinh thái Hadoop, được thiết kế đặc biệt để được như bất khả tri càng tốt, làm việc với bất kỳ loại khung xử lý dữ liệu và mô hình lưu trữ dữ liệu.
< strong> là gì mới trong phiên bản này:
- Đổi tên gói và maven phối để org.apache
- Thêm số liệu thống kê mã hóa để ColumnMetaData
- streaming tiết kiệm API
- loại logic mới
Điều gì là mới trong phiên bản 2.3.0:
- Đổi tên gói và maven phối để org.apache
- Thêm số liệu thống kê mã hóa để ColumnMetaData
- streaming tiết kiệm API
- loại logic mới
Hạn chế :
- Dự án vẫn đang được phát triển trong các kho lưu trữ Apache Vườn ươm và có thể thay đổi đáng kể từ phiên bản phiên bản.
Bình luận không