MDP (bộ công cụ cho Modular Data Processing) là một thư viện được sử dụng rộng rãi các thuật toán xử lý dữ liệu có thể được kết hợp theo một đường ống dẫn tương tự để xây dựng phần mềm xử lý dữ liệu phức tạp hơn.
Từ quan điểm của người dùng, MDP bao gồm một tập hợp các thuật toán có giám sát và không giám sát việc học tập, và các dữ liệu khác chế biến đơn vị (các nút) mà có thể được kết hợp vào các trình tự xử lý dữ liệu (dòng chảy) và kiến trúc mạng feed-forward phức tạp hơn. Cho một tập hợp các dữ liệu đầu vào, MDP chăm sóc liên tục đào tạo hoặc thực hiện tất cả các nút trong mạng. Điều này cho phép người sử dụng để xác định các thuật toán phức tạp như một loạt các bước đơn giản xử lý dữ liệu một cách tự nhiên.
Các cơ sở của thuật toán có sẵn được tăng đều đặn và bao gồm, để đặt tên nhưng phổ biến nhất, Hiệu trưởng Component Analysis (PCA và NIPALS), một số thuật toán phân tích độc lập Component (CuBICA, FastICA, TDSEP, JADE, và XSFA), Slow Tính năng phân tích, Gaussian phân loại, Restricted Boltzmann Machine, và tại địa phương tuyến tính nhúng.
Chăm sóc đặc biệt đã được thực hiện để làm cho tính toán hiệu quả về tốc độ và bộ nhớ. Để giảm yêu cầu bộ nhớ, nó có thể thực hiện việc học tập sử dụng lô của dữ liệu, và để xác định các thông số bên trong của các nút để được chính xác duy nhất, mà làm cho việc sử dụng dữ liệu rất lớn đặt ra có thể. Hơn nữa, "song song" subpackage cung cấp một thực hiện song song của các nút cơ bản và dòng chảy.
Từ quan điểm của nhà phát triển, MDP là một khuôn khổ mà làm cho việc thực hiện các thuật toán học có giám sát và không giám sát mới dễ dàng và đơn giản. Các lớp cơ bản, "Node", chăm sóc các nhiệm vụ tẻ nhạt như kiểu số và kiểm tra chiều, để lại các nhà phát triển tự do tập trung vào việc thực hiện các giai đoạn học tập và thực hiện. Bởi vì các giao diện chung, các nút sau đó tự động tích hợp với phần còn lại của thư viện và có thể được sử dụng trong mạng cùng với các nút khác. Một nút có thể có nhiều giai đoạn đào tạo và thậm chí một số không xác định giai đoạn. Điều này cho phép thực hiện các thuật toán cần phải thu thập một số số liệu thống kê trên toàn bộ đầu vào trước khi tiến hành việc đào tạo thực tế, và những người khác mà cần phải lặp qua một giai đoạn huấn luyện cho đến một tiêu chuẩn hội tụ là hài lòng. Khả năng để đào tạo mỗi giai đoạn sử dụng khối dữ liệu đầu vào được duy trì nếu khối được tạo ra với vòng lặp. Hơn nữa, hồi phục sự cố là tùy chọn có sẵn: trong trường hợp thất bại, tình trạng hiện tại của các dòng chảy được lưu lại để kiểm tra sau.
MDP đã được viết trong bối cảnh của nghiên cứu lý thuyết trong khoa học thần kinh, nhưng nó đã được thiết kế để thể hữu ích trong bất kỳ bối cảnh mà các thuật toán xử lý dữ liệu được sử dụng khả năng huấn luyện. Đơn giản của nó về phía người sử dụng cùng với việc tái sử dụng các nút thực hiện làm cho nó cũng là một công cụ giáo dục có giá trị
là gì mới trong phiên bản này:.
- hỗ trợ Python 3.
- phần mở rộng mới: bộ nhớ đệm và độ dốc .
- Một hướng dẫn cải thiện và mở rộng.
- Một số cải tiến và sửa lỗi.
- Phiên bản này là theo một giấy phép BSD.
là gì mới trong phiên bản 2.5:
- 2009-06-30: Thêm phát hiện trực tuyến của backend số , hỗ trợ python song song, phụ trợ symeig và backend số cho đầu ra của đơn vị xét nghiệm. Cần giúp đỡ trong việc gỡ lỗi.
- 2009/06/12:. Tích hợp cắt và histogram nút
- 2009/06/12:. Cố định lỗi trong dòng chảy song song (xử lý ngoại lệ)
- 2009-06-09: Cố định lỗi trong LLENode khi output_dim là một phao. Nhờ Konrad Hinsen.
- 2009/06/05:. Cố định lỗi trong dòng chảy song song với nhiều schedulers
- 2009/06/05:. Cố định một lỗi trong lớp nghịch đảo, nhờ Alberto Escalante
- 2009/04/29:. Thêm một LinearRegressionNode
- 2009-03-31: PCANode không phàn nàn nữa khi ma trận hiệp phương sai có giá trị riêng âm iff svd == Đúng hay giảm == True. Nếu output_dim đã được xác định có sai mong muốn, giá trị đặc trưng tiêu cực sẽ được bỏ qua. Cải thiện thông báo lỗi cho SFANode trong trường hợp giá trị đặc trưng tiêu cực, bây giờ chúng tôi đề nghị để thêm vào trước các nút với một PCANode (svd = True) hoặc PCANode (giảm = True).
- 2009/03/26: Migrated từ gói chủ đề cũ sang luồng mới một. Thêm vào lá cờ để vô hiệu hóa bộ nhớ đệm trong quá trình hoạch định sẵn. Có một số thay đổi vi phạm cho schedulers tùy chỉnh (đào tạo dòng chảy song song hoặc thực hiện không bị ảnh hưởng).
- 2009-03-25:. Thêm phiên bản svn hỗ trợ theo dõi
- 2009-03-25: Loại bỏ các lá cờ copy_callable cho lịch trình, điều này bây giờ hoàn toàn thay thế bởi forking các TaskCallable. Điều này không có hiệu lực đối với các giao diện ParallelFlow thuận tiện, nhưng schedulers tùy chỉnh được phá vỡ.
- 2009/03/22:. Thực hiện bộ nhớ đệm trong ProcessScheduler
- 2009/02/22:. Make_parallel nay công trình hoàn toàn tại chỗ để tiết kiệm bộ nhớ
- 2009/02/12:. Thêm phương pháp container đến FlowNode
- 2009/03/03:. Added CrossCovarianceMatrix với các xét nghiệm
- 2009-02-03:. Added IdentityNode
- 2009/01/30:. Thêm một chức năng trợ giúp trong hinet trực tiếp trưng bày một đại diện HTML dòng
- 2009/01/22:. Cho phép output_dim trong lớp được thiết lập một cách lười biếng
- 2008/12/23:. Thêm total_variance đến nút nipals
- 2008/12/23:. Luôn đặt explained_variance và total_variance sau khi đào tạo trong PCANode
- 2008/12/12: Được thay đổi symrand để thực sự trở lại ma trận đối xứng (và không chỉ tích cực xác định). GaussianClassifierNode thích nghi để chiếm đó. Symrand thích nghi để trở về cũng ma trận Hermitian phức tạp.
- 2008/12/11: Cố định một vấn đề trong PCANode (khi output_dim đã được thiết lập để input_dim tổng phương sai được coi là chưa biết). Tham số cố định var_part trong ParallelPCANode.
- 2008/12/11:. Thêm tính năng var_part để PCANode (lọc theo đúng so với absoute phương sai)
- 2008/12/04: lỗi thiếu trục arg trong cuộc gọi Amax trong hướng dẫn. Nhờ Samuel John!
- 2008/12/04: Cố định các biến lặp dữ liệu rỗng xử lý trong ParallelFlow. Cũng nói thêm kiểm tra lặp trống trong dòng chảy bình thường (nâng cao một ngoại lệ nếu iterator là trống).
- 2008/11/19: Được thay đổi PCA và các nút SFA để kiểm tra các giá trị riêng negaive trong ma trận cov
- 2008/11/19: symeig tích hợp trong scipy, MDP có thể sử dụng nó từ bây giờ .
- 2008-11-18:. Added ParallelFDANode
- 2008-11-18:. Cập nhật các tàu có thể được gọi cho ParallelFlow để hỗ trợ đối số bổ sung
- 2008/11/05: Rewrite của make mã song song, bây giờ hỗ trợ cấu trúc hinet .
- 2008/11/03: Rewrite của người sáng tạo repesentation hinet HTML. Thật không may này cũng phá vỡ giao diện nào, nhưng những thay đổi này là khá đơn giản.
- 2008-10-29: Hãy tắt các cảnh báo đến từ các quá trình từ xa trong ProcessScheduler
- 2008/10/27:. Cố định vấn đề với ghi đè kwargs trong phương thức init của ParallelFlow
- 2008-10-24:. Cố định pretrained lỗi nút trong hinet.FlowNode
- 2008-10-20:. Sửa lỗi nhập khẩu quan trọng trong gói song song khi pp (thư viện python song song) được cài đặt
Yêu cầu :
- Python
- NumPy
- scipy
Bình luận không