DataCleaner là một mã nguồn mở và giải pháp hoàn toàn miễn phí cho các tổ chức và doanh nghiệp có nhu cầu tăng và đo lường chất lượng của dữ liệu của họ.
Với DataCleaner, người dùng sẽ có thể đến hồ sơ, đối chiếu, xác nhận dữ liệu chống lại các quy tắc kinh doanh, và theo dõi sự tiến triển của các phép đo thời gian.
Trong số các tính năng của nó, chúng ta có thể đề cập đến theo dõi dữ liệu, dữ liệu hồ sơ và phân tích DQ, làm sạch dữ liệu và làm giàu, phát hiện và hợp nhất các bản sao, chất lượng dữ liệu khách hàng, cũng như ETLightweight siêu nhanh (Extract-Transform-Load).
Để tìm hiểu thêm về tính năng và khả năng của DataCleaner, cũng như làm thế nào để làm việc với nó, xin vui lòng tham khảo http://eobjects.dk/docs
What là mới trong phiên bản này :
- Cải tiến và tính năng mới:
- Chúng tôi đã làm cho nó có thể tạo ra và thả các bảng thông qua giao diện người dùng máy tính để bàn của DataCleaner. Lưu ý rằng thuật ngữ & quot; bảng & quot; đây thực sự bao gồm hơn bảng cơ sở dữ liệu chỉ quan hệ. Nó cũng bao gồm Sheets trong kho dữ liệu MS Excel, bộ sưu tập trong MongoDB, các loại tài liệu trong CouchDB và ElasticSearch và vv ... Về cơ bản tất cả các loại kho dữ liệu có hỗ trợ ghi hoạt động, ngoại trừ kho dữ liệu đơn bảng như kho dữ liệu CSV, hỗ trợ chức năng này! Các chức năng được tiếp xúc thông qua:
- & quot; Tạo bảng & quot; kích hoạt thông qua menu chuột phải của các lược đồ trong cây ở phía bên trái của ứng dụng.
- & quot; Tạo bảng & quot; cũng được kích hoạt thông qua các đầu vào bảng lựa chọn trong các thành phần như Insert vào bảng, tra cứu bảng và bảng Update.
- & quot; Drop bảng & quot; kích hoạt thông qua menu chuột phải của bảng trong cây ở phía bên trái của ứng dụng.
- Chúng tôi đã thêm (tùy chọn) khả năng xác định dịch vụ web Salesforce.com của bạn Endpoint URL. Điều này cho phép bạn sử dụng DataCleaner để kết nối với môi trường sandbox của Salesforce.com cũng đến các điểm cuối của riêng tùy chỉnh của bạn.
- Hỗ trợ ElasticSearch đã được cải thiện, cho phép ánh xạ tùy chỉnh cũng như việc tái sử dụng các định nghĩa kho dữ liệu ElasticSearch bây giờ cũng để tìm kiếm và lập chỉ mục.
- Việc lấy mẫu hồ sơ và lựa chọn các bản sao tiềm năng trong các chức năng phát hiện trùng lặp đã được cải thiện, dẫn đến cấu hình nhanh hơn bởi vì các quyết định được đưa ra trong các buổi tập có nhiều đại diện.
- Các định dạng tập tin mô hình phát hiện trùng lặp đã được cập nhật trong đó đã loại bỏ sự cần thiết cho một 'tham khảo' tập tin riêng biệt để lưu quyết định đào tạo qua. Khả năng tương thích với các định dạng cũ đã được giữ lại, nhưng bằng cách sử dụng định dạng mới bổ sung thêm nhiều lợi ích cho kinh nghiệm người dùng.
- Sửa lỗi:
- Một vấn đề chủ đề đói đã được cố định trong DataCleaner màn hình. Các tác động của vấn đề này là rất lớn, nhưng nó đã xảy ra trong những trường hợp hiếm hoi và rất tùy chỉnh. Nếu người nghe tùy chỉnh các đối tượng trên màn hình DataCleaner sẽ ném ra một lỗi, nó sẽ dẫn đến một tài nguyên không bao giờ được giải phóng và chiếm một sợi từ hồ Quartz lập lịch trên máy chủ. Nếu điều này xảy ra nhiều lần các máy chủ cuối cùng có thể chạy ra khỏi chủ đề trong hồ bơi mà.
- Các menu dọc trên màn hình kết quả là bây giờ làm một công việc thích hợp hiển thị các nhãn của các thành phần có kết quả. Điều này làm cho nó dễ dàng hơn để nhận ra các mục trình đơn điểm để những kết quả hàng.
là gì mới trong phiên bản 3.5.7:
- Các 'đồng nghĩa tra cứu' chuyển đổi hiện nay có một lựa chọn để tìm kiếm mọi dấu hiệu của đầu vào. Điều này rất hữu ích nếu bạn đang làm thay các từ đồng nghĩa trong các giá trị của một trường văn bản dài.
- Chặn thực hiện các công việc DataCleaner thông qua dịch vụ web của màn hình cho điều này đôi khi có thể thất bại với một lỗi gây ra bởi các sợi chặn. Vấn đề này đã được cố định.
- Một cải tiến đã được thực hiện trong cách các công việc và trình tự của các thành phần được đóng / làm sạch sau khi thực hiện.
- Các JNLP / Java WebStart phiên bản của DataCleaner đã bị lộ bởi một lỗi trong thời gian chạy Java gây file JAR nhất định không được công nhận bởi các phóng WebStart, trong những hoàn cảnh nhất định. Vấn đề này đã được cố định bằng cách làm thay đổi nhỏ cho các tập tin JAR.
- Một số liên kết đã chết trong các tài liệu đã được cố định.
là gì mới trong phiên bản 3.5.4:
- Bây giờ có thể để ẩn cột đầu ra của biến đổi . Ẩn sẽ không ảnh hưởng đến các luồng xử lý ở tất cả, nhưng chỉ đơn giản là ẩn chúng từ giao diện người dùng, và do đó có khả năng làm cho kinh nghiệm sạch hơn, khi tương tác với các thành phần khác.
- Một dịch vụ web mới đã được thêm vào ứng dụng giám sát web, cung cấp một cách để thăm dò ý kiến các tình trạng của việc thực hiện một công việc cụ thể.
- Một lỗi đã được cố định, gây ra các báo cáo HTML để thất bại với nhiều loại phân tích nào đó khi không có hồ sơ đã được xử lý.
- Và 6 lỗi nhỏ khác đã được adressed.
là gì mới trong phiên bản 3.5.1:
- Capture thay đổi bản ghi:
- Một bộ lọc mới đã được thêm vào cho phép xử lý gia tăng các hồ sơ mà đã không được xử lý trước, ví dụ: cho hồ sơ hay sao chép chỉ sửa đổi hồ sơ. Tên các bộ lọc mới là Capture thay đổi hồ sơ, đề cập đến khái niệm chụp Thay đổi dữ liệu.
- xếp hàng đợi thực hiện các công việc:
- Màn DataCleaner bây giờ sẽ xếp hàng thực hiện cùng một công việc, nếu nó được kích hoạt nhiều lần. Điều này đảm bảo rằng bạn không vô tình chạy cùng một công việc đồng thời có thể dẫn đến nhiều vấn đề, tùy thuộc vào những gì công việc nào.
- sửa lỗi nhỏ:
- Một số sửa lỗi đã được thực hiện.
là gì mới trong phiên bản 3.5:
- Một số pháp sư đang có sẵn cho đăng ký kho dữ liệu; bao gồm cả tập tin upload lên máy chủ cho các tập tin CSV, nhập cảnh, kết nối cơ sở dữ liệu, đăng ký theo hướng dẫn của các thông tin Salesforce.com và nhiều hơn nữa.
- Chương trình thuật xây dựng công việc cũng đã được mở rộng với một số tính năng nâng cao; Lựa chọn phân phối giá trị và mô hình tìm kiếm các lĩnh vực trong bảng phân tích nhanh, một thuật sĩ hoàn toàn mới để tạo công ăn việc làm sạch EasyDQ khách hàng dựa và một Wizard cho công việc mới cho công việc bắn Pentaho Data Integration (đọc thêm bên dưới).
- Bạn có thể bây giờ ad-hoc truy vấn bất kỳ kho dữ liệu trực tiếp trong giao diện người dùng web. Điều này làm cho nó dễ dàng để có được những hiểu biết nhanh chóng hoặc không thường xuyên vào các dữ liệu mà không thành lập các công việc hoặc cách tiếp cận quản lý khác của xử lý dữ liệu.
- Một khi công việc hoặc kho dữ liệu được tạo ra, người dùng được hướng dẫn để hành động với các đối tượng mới được xây dựng. Ví dụ, bạn có thể rất nhanh chóng chạy việc làm ngay sau khi nó được xây dựng, hoặc truy vấn một kho dữ liệu sau khi nó được đăng ký.
- Quản trị doanh nghiệp có thể trực tiếp tải lên việc làm cho các kho lưu trữ, trong đó đặc biệt hữu ích nếu bạn muốn tay chỉnh sửa nội dung XML của tập tin công việc.
- Rất nhiều các mã lệnh hay kỹ thuật hiện đang ẩn mình trong lợi hiển thị hộp thoại đơn giản. Ví dụ, khi một công việc được kích hoạt một chỉ số tải lớn được hiển thị, và khi kết thúc, kết quả sẽ được hiển thị. Màn hình khai thác gỗ tiên tiến mà trước đây có thể vẫn được hiển thị khi nhấp chuột vào một liên kết để biết thêm chi tiết.
là gì mới trong phiên bản 3.1.2:
- Chúng tôi đã thêm một dịch vụ web trong việc theo dõi ứng dụng để nhận được một (danh sách) giá trị metric. Điều này làm cho việc theo dõi thậm chí có thể sử dụng nhiều như một thành phần cơ sở hạ tầng quan trọng, như là một cách để theo dõi dữ liệu (chất lượng) và phơi bày các kết quả cho các ứng dụng của bên thứ ba.
- Các 'tra cứu Bảng' thành phần đã được cải thiện bằng cách thêm tham gia ngữ nghĩa như một thuộc tính cấu hình. Sử dụng tham gia ngữ nghĩa bạn có thể tinh chỉnh nếu bạn muốn tra cứu ngữ nghĩa để làm việc như một LEFT JOIN hoặc một INNER JOIN.
- Các thành phần EasyDQ đã được nâng cấp, bổ sung thêm tùy chọn cấu hình hơn nữa và một pc giao diện kết quả phong phú hơn.
- Hiệu suất cải tiến đã được tập trung cụ thể của phiên bản này. Cải tiến đã được thực hiện trong các động cơ của DataCleaner để tiếp tục sử dụng một cách tiếp cận xử lý trực tuyến trong trường hợp góc nào đó mà không được bảo hiểm trước đó.
là gì mới trong phiên bản 3.1.1:
- Ngày và thời gian liên quan đến lựa chọn phân tích đã được mở rộng , thêm phân tích phân phối cho các số tuần, tháng và năm. Tất cả các phân tích liên quan đến ngày và thời gian hiện nay được nhóm bên trong một menu con tên là & quot; Ngày giờ & quot; dưới & quot; Phân tích & quot;.
- Một tùy chọn & quot; & quot thống kê mô tả; tùy chọn đã được thêm vào để phân tích Số lượng và phân tích ngày / lần. Tùy chọn này cho biết thêm số liệu bổ sung cho các kết quả của các phân tích, như Median, Skewness, percentiles và nhọn. Những số liệu là tùy chọn vì bộ nhớ của họ là hơi lớn hơn so với số liệu hiện có.
- Các dòng trong bảng xếp hạng thời gian của các ứng dụng web giám sát doanh nghiệp có dấu chấm nhỏ trong đó. Điều này đặc biệt hữu ích cho các bảng xếp hạng với số ít (hoặc thậm chí chỉ một) quan sát trong họ -. Chỉ ra chính xác nơi các điểm quan sát là
- Các phân tích cú pháp truy vấn khi gọi truy vấn quảng cáo-hoc cũng đã được cải thiện đáng kể. Bây giờ các truy vấn có thể có những điều khoản riêng biệt, * -wildcards, truy vấn con và chịu lỗi đối với vấn đề văn bản hợp cụ thể.
- Hai máy biến áp mới đã được thêm vào để tạo ra UUIDs và để tạo ra thời gian.
là gì mới trong phiên bản 3.1:
- công thức Metric - xây dựng chất lượng dữ liệu KPIs:
- Nó bây giờ có thể xây dựng nhiều hơn nữa xây dựng chất lượng dữ liệu KPI trong ứng dụng web theo dõi DataCleaner của. Giao diện người dùng cho phép bạn xây dựng các công thức phức tạp trong một công thức kiểu bảng tính giống; sử dụng các biến được thu thập bởi các công việc DataCleaner.
- công thức Metric có thể kết hợp bất kỳ số lượng các số liệu, các hằng số và các hoạt động, miễn là nó có thể được thể hiện bằng một phương trình toán học.
- Ví dụ - đánh giá tốc độ ghi trùng lặp trong tỷ lệ phần trăm của tổng số kỷ lục. Hoặc đo lượng mã sản phẩm cho phù hợp với một tập hợp của nhiều mô hình chuỗi.
- Ad-hoc truy vấn - của bất kỳ kho dữ liệu:
- Với DataCleaner 3.1 bây giờ bạn có thể thực hiện truy vấn quảng cáo-hoc để bất kỳ kho dữ liệu! Truy vấn có thể được thể hiện ở đồng bằng SQL và sẽ được áp dụng cho cơ sở dữ liệu cũng như các tập tin, cơ sở dữ liệu NoSQL và nhiều hơn nữa, cung cấp một cơ chế truy vấn thực sự hữu ích để mở rộng vào kinh nghiệm phát hiện và dữ liệu profiling của bạn.
- Các tùy chọn truy vấn cũng có sẵn thông qua một dịch vụ web để theo dõi người sử dụng với vai trò ADMIN. Các truy vấn được cung cấp như là một tham số HTTP POST hoặc cơ thể, và kết quả được cung cấp như là một bảng XHTML.
- Giá trị khớp - một lựa chọn phân tích mới:
- Thông thường bạn có một ý tưởng vững chắc mà trên đó giá trị này nên được cho phép và dự kiến cho một lĩnh vực cụ thể. Trong DataCleaner có luôn luôn được phân tích lựa chọn giá trị phân phối trong đó sẽ giúp bạn khẳng định giả định của bạn. Trong DataCleaner 3.1, mặc dù bạn có một lời đề nghị chính xác hơn - các khớp Value. Tùy chọn phân tích này cho phép bạn chỉ định một tập hợp các giá trị kỳ vọng và sau đó thực hiện một phân phối giá trị như phân tích, cụ thể để xác nhận và xác định giá trị bất ngờ.
- Sao chép, xóa và quản lý các công việc:
- Quản lý công việc và kết quả trong ứng dụng màn hình DataCleaner đã được cải thiện rất nhiều. Bây giờ bạn có thể bấm vào một công việc trong trang Lịch của màn hình, và tìm các tùy chọn quản lý cho các hoạt động như đổi tên, sao chép, xóa và nhiều hơn nữa. Mỗi hoạt động tôn trọng các mối liên kết với các hiện vật khác trong màn hình, chẳng hạn như kết quả phân tích, lịch và nhiều hơn nữa. Điều này có nghĩa là quản lý của kho giám sát đã trở nên dễ dàng hơn rất nhiều và trưởng thành.
- Quản lý lịch sử chất lượng dữ liệu:
- Đôi khi bạn đang phải đối mặt tình huống mà bạn thực sự muốn làm giám sát với các dữ liệu lịch sử! Nó có thể được rằng bạn có bãi lịch sử hay sao lưu cơ sở dữ liệu mà bạn muốn hiển thị và kể câu chuyện của. Bây giờ bạn có thể làm việc phân tích các dữ liệu lịch sử này, tải nó lên màn hình DataCleaner, và sử dụng một dịch vụ web mới, thiết lập một dữ liệu lịch sử của mà kết quả phân tích cụ thể. Điều này có nghĩa rằng các mốc thời gian của bạn sẽ đúng âm mưu các kết quả sử dụng ngày dự định của họ, nhưng với kết quả mà bạn đã thu thập được có thể tại một điểm sau đó trong thời gian.
- Hỗ trợ lên lịch và Clustered (EE chỉ):
- Các kế hoạch của DataCleaner màn hình đã được ra ngoài, để nó có thể được thay thế bằng các phương tiện cấu hình đơn giản. Trong phiên bản Enterprise (EE) của DataCleaner, chúng tôi cung cấp một lịch trình nhóm, cung cấp khả năng cân bằng tải và phân phối hành của bạn trên một cụm máy.
- đơn signon (SSO) sử dụng CAS (EE chỉ):
- Trong Enterprise Edition (EE) của DataCleaner bây giờ chúng tôi cung cấp một lựa chọn đơn signon cho các ứng dụng màn hình. Bây giờ DataCleaner có thể là một phần tích hợp của cơ sở hạ tầng CNTT của bạn, cũng an ninh-khôn ngoan.
- ... Và rất nhiều thêm:
- Trên đây chỉ là một bản tóm tắt. Hơn ba mươi vấn đề đã được giải quyết trong phiên bản này. Chúng tôi đã giải quyết được một số yêu cầu đến từ các diễn đàn và cộng đồng, và chúng tôi khuyến khích tất cả mọi người sử dụng phương tiện này như một phương tiện cho sự thay đổi. Chúng tôi đang rất hạnh phúc để làm cho sự phát triển của DataCleaner bị ảnh hưởng nặng nề bởi những con suối trong cộng đồng.
là gì mới trong phiên bản 3.0.3:
- Thêm một dịch vụ cho đổi tên công việc trong kho theo dõi .
- Bạn có thể truy cập này như một dịch vụ Web RESTful hoặc tương tác trong các giao diện người dùng.
- Một dịch vụ Web đã được bổ sung cho việc thay đổi ngày lịch sử về một kết quả phân tích trong kho theo dõi.
- Các ứng dụng Web đã được thực hiện tương thích với các container di sản JSF.
- Caching của cấu hình trong ứng dụng Web đã được cải thiện rất nhiều, dẫn đến tải trang và khởi tạo việc làm lần nhanh hơn.
là gì mới trong phiên bản 3.0.2:
- Khi kích hoạt một công việc trong các ứng dụng web theo dõi, bảng điều khiển tự động làm mới mỗi thứ hai để có được trạng thái mới nhất của việc thực hiện.
- File dựa trên kho dữ liệu (chẳng hạn như CSV hoặc Excel bảng tính) với đường dẫn tuyệt đối với doanh nghiệp được giải quyết một cách chính xác trong các ứng dụng giám sát web.
- & quot; Chọn từ khóa / đồ giá trị & quot; biến hiện nay hỗ trợ biểu thức lồng nhau chọn như & quot; Address.Street & quot; hoặc & quot; OrderLines [0] .product.name & quot;.
- Các cơ chế tra cứu bảng đã được tối ưu hóa cho hiệu suất, sử dụng chuẩn bị phát biểu khi tranh cử với cơ sở dữ liệu JDBC.
- Quản trị viên có thể tải về kho dữ liệu dựa trên tập tin trực tiếp từ các & quot; Datastores & quot; trang.
- Xử lý ngoại lệ trong các ứng dụng giám sát web đã được cải thiện một chút, làm cho các thông báo lỗi chính xác hơn và trực quan.
Bình luận không