DSTK - Data Science Toolkit 3 là một bộ dữ liệu và phần mềm khai thác văn bản, theo mô hình DM CRISP. DSTK cung cấp sự hiểu biết dữ liệu bằng cách sử dụng phân tích thống kê và văn bản, chuẩn bị dữ liệu bằng cách sử dụng chuẩn hóa và xử lý văn bản, lập mô hình và đánh giá cho các thuật toán học tập và thống kê máy.
DSTK 3 sẽ cung cấp các tính năng hấp dẫn như Deep Neural Network (Deep Learning), Phân tích liên kết văn bản với Visualizations, KMeans Clustering. Một số tính năng này có thể được trình bày trong phiên bản cũ hơn, nhưng vì các thuật toán được viết lại để giảm việc sử dụng các thư viện bên ngoài như Weka để giảm kích thước tệp, chúng tôi cần thêm thời gian để phát triển chúng. DSTK Engine vẫn đang trong giai đoạn beta, do đó, có thể có một số lỗi và không chính xác.
DSTK 3 bao gồm DSTK Engine, DSTK ScriptWriter, DSTK Studio và DSTK Text Explorer. DSTK Engine được R đơn giản hóa, tập trung vào khai thác dữ liệu. DSTK ScriptWriter cung cấp GUI để viết kịch bản cho DSTK Engine. DSTK Studio cung cấp các thống kê SPSS như GUI cho khai thác dữ liệu, và DSTK Text Explorer cung cấp GUI cho Khai phá văn bản.
Yêu cầu :
Môi trường chạy Java, Microsoft. Net Framework
Hạn chế :
10 lần dùng thử
Bình luận không