猎鹰数据挖掘平台

一、功能介绍

本项目提供的猎鹰数据挖掘平台系统,提供了一系列核心算法,包括并行ETL算法,并行数据挖掘算法,并行数据探索,数据交换等功能。其中:

  • 并行ETL算法包括:断行清洗、空行过滤、最优离散化、因子分析、标准化(分最大最小和正态化两个功能)、连续化、逆归一化、去极值、Join组件支持多表关联、基于字段的去重、属性选择算法等40余个算法。
  • 并行数据挖掘算法提供了分类、聚类、关联规则、CART决策树和CHAID决策树等常用并行挖掘算法。
  • 并行数据探索算法实现了集中趋势探索、离散趋势探索、分布趋势探索,并完成单个统计算法和相关性分析。单变量和多变量。其中集中趋势探索包括:包括合计、计数、算术均值、众数、中位数、百分位数、四分位数等;离散趋势探索包括:最大值、最小值、全距、方差、标准差等;分布趋势探索包括:峰度和偏度;单个统计算法,计算每个变量值的频数和百分比;相关性分析包括:单变量分析(计算协方差)和多变量分析(计算皮尔逊积矩相关系数)。
  • 数据交换是提供从云平台导出数据到RDBMS和从RDBMS导入数据到云平台的功能。
  • 同时还包括其它一些功能,例如任务监控、调度系统、用户管理等。

数据挖掘界面中的每个算法由组件的形式组成,单机可以将左边栏的算法组件拖动到右侧画布中,双击组件图标可以打开组件配置面板,右键单机组件可以运行当前流程或者删除该组件。

wajue

 

二、数据库导入

测试数据要求必须是关系型数据库(目前只支持Mysql和Oracle)中的数据表。

选择左侧功能栏的数据库导入FS按钮,弹出数据库导入FS配置框,如图 2.1‑3所示:

wajue1

 

 

三、并行分类算法

并行分类算法模块包括:层次C45 决策树分类器、朴素贝叶斯分类器、线性回归分类、神经网络分类器、Pchaid分类器、Pcart分类器、Pfs分类器,同时还包括自动分类器。四期优化了神经网络和线性回归算法,增加了分类算法混淆矩阵。

wajue2

 

四、样例流程说明

  •  demo_NaiveBayes样例流说明
  • 数据说明:
  • 训练数据和测试数据为汽车质量分类数据,其中第一列为类标号列(unacc、acc、vgood、good),其余列为属性列(共6列,分别表示汽车的不同属性参数),
  • 测试数据路径为 demoData/demo_classifier/CarTrain.txt
  • 训练数据路径为 demoData/demo_classifier/CarTest.txt
  • 数据样例如下表:

 

unacc vhigh 2, 2 small Med vhigh
Unacc Vhigh 2 2 Med Low vhigh
Unacc Vhigh 2 2 Med High Vhigh
good Low 5more 4 Big Med low
Acc Low 3 More Big High vhigh
Vgood Low 2 4 Big High med

 

  • 流程展示

该流程主要是完成汽车质量数据的训练和测试

liu1

 

  • 流程结果展示
  • 文本展示训练数据所建立的模型:

liu 2

 

 

  • 饼图展示测试结果预测出的类别比例

liu3

 

  • 柱形图展示测试结果预测出的每个类别数

liu4