IMG_2567

普开数据猎鹰大数据平台

什么是猎鹰大数据平台

猎鹰大数据平台是基于分布式大数据平台,整合了数据采集系统、数据质量监控系统、数据集市系统、大数据资源管理系统、数仓建模系统、大数据图形化编程系统、工作流调度系统、数据视图系统。提供数据统一采集、数据清洗、数据计算、数据建模、数据索引及数据资源统一调度的管理平台;同时实现了具有代表性的云搜索、关系分析、数据比对、轨迹分析、数据可视化与案例分析等业务分析功能模块;典型应用于农业、物流、运营商等行业大数据平台组建与业务数据分析场景。

平台特性

总体架构

猎鹰大数据平台各子系统介绍

数据采集系统

系统特性

  • 基于数据状态划分采集:实时采集、离线采集;数据爬虫系统
  • 通过端口自定义汇集数据流、自定义数据采集资源灵活调配;
  • 容错性:代理、采集和存储之间均有高可靠容错机制;
  • 负载均衡:各类节点之间使用Zookeeper作负载均衡,无缝衔接;
  • 可扩展性:可根据业务增长或降低,动态添加或减少节点个数;
  • 高可靠性:系统提供了多样数据缓存方式,直接可以使用,可直接支持HDFS做数据存储;
  • 支持各种类型丰富的数据源;

系统架构

功能展示

大数据资源管理系统

系统特性

  • 系统可存储、处理PB级数据,包括结构化和非结构化的数据;
  • 部署方式灵活,支持多机部署。支持组件包括HDFS、MapReduce、Hive、Pig、HBase、Zookeper、Sqoop和Hcatalog等;
  • 并行架构、易扩展;
  • 界面友好,部署简易,可实时监控;
  • 数据高可靠性:基于分布式、冗余处理技术,保障数据完整,防止数据丢失。
  • 高性能:采用分布式文件系统的方式,使得负载分摊,节点之间可以动态的移动数据,以保证各个节点之间的动态平衡,因此保证了高效的数据处理能力。
  • 系统能够自动保存数据的多份副本,且能够自动将失败的任务重新分配等。

系统架构

功能展示

仪表盘导航:这部分内容显示所有在平台上安装上的组件的参数监控图

热度图监控:热度值是信息论中量度信息多少的一个计量单位, 热度图是用来把记录的热度值进行统计,以图表形式展示

服务管理:HDFS组件在集群中运行状态、配置查看修改和服务的启动和停止等功能,在管理界面按集群整体资源情况。

数仓建模系统

系统特性

  • SMS是基于Hadoop的一个数据仓库工具
  • 支持索引,将元数据保存在关系数据库中,加快数据查询时间
  • 不同的存储类型,例如,纯文本文件、HBase 中的文件
  • 可以直接使用存储在Hadoop 文件系统中的数据
  • 学习成本低,通过类SQL语句快速实现简单的MapReduce统计

系统架构

功能展示

大数据图形化编程系统

系统特性

  • LPS是可快速开发和调试Hadoop生态系统各种应用的一个基于浏览器的图形化用户接口;
  • LPS打破传统繁琐访问方式,通过浏览器直接访问HDFS;
  • 通过web调试和开发Hive以及数据结果展示;
  • SQL编辑器,支持Hive, MySQL, Oracle等;
  • Spark和Hadoop的友好界面支持;
  • HBase数据查询和修改,数据展示。

系统架构

功能展示

工作流调度系统

系统特性

  • WSS是一个批量工作流任务调度器;
  • 提供KV 文件格式来建立任务之间的依赖关系;
  • 提供易于使用的 web 用户界面维护和跟踪工作流;
  • 扩展性好,可针对某一问题开发组件(目前有三个插件HDFSBrowser,JobtypePlugins和HadoopSecurityManager);
  • 支持重试失败job,并设置邮件提醒。

系统架构

功能展示

数据质量监控系统

系统特性

  • 支持系统预设规则或自定义规则进行大批量数据清洗,支持一键自动化处理;
  • 支持数据质量自动检查分析;
  • 支持数据清洗后动态生成数据质量检测报告;
  • 支持数据清洗后统一批量存至HBase数据库。

数据集市系统

系统特性

  • 支持多数据统一API接口查询对接;
  • 提供用户自定义查询,自设查询条件;
  • 支持用户根据自身企业需求发布数据或调用数据;
  • 支持可追溯用户查询。

数据视图系统

系统特性

  • 针对大数据学习者和开发者设计的大数据图表可视化产品。解决了研发人员对前端技术不熟悉无法将数据进行可视化的问题;
  • 支持自由布局随意更换富有表现力的可视化主题;
  • 解决无需学习前端知识即可完成漂亮的图表;
  • 提供方便的管理数据和图表。

功能展示