Universe大数据分析平台特性简介-批量数据处理

[复制链接]
liufc
liufc   中级会员    发表于 2016-10-17 14:18:29   最新回复:2016-10-17 14:18:29

产生背景

运营商数据现状有以下特点:

l   每日产生PB级数据。

l   各公司、各部门之间数据源种类多样。

l   数据价值密度低。

需要有效的数据集成工具来实现:

l   多种数据输入源之间的屏蔽,统一数据格式,汇总多个部门、多个公司之间的数据。

l   高速的数据抽取、清洗、转换和加载能力,将数据加载至数据模型,为数据分析提供基础数据。

传统数据集成厂家大多依赖传统数据仓库的库内计算能力,在集成Hadoop时需要大量编写Java代码实现数据处理逻辑,计算和存储性能依赖小型机等高端计算存储设备。

Universe大数据平台提供批量数据处理特性:

l   利用分布式计算框架Map/Reduce实现PB级海量数据处理,无缝对接HiveHBase数据源。

l   基于B/S架构实现图形界面的***化开发过程,拥有在线调测模式以及快速问题定位能力,内置多种常用数据源,满足大部分企业需求。

l   基于廉价的x86架构服务器搭建,数据处理过程不落地,降低数据存储开销。

功能描述

批量数据处理特性的功能清单如3-3所示。

功能清单

功能

描述

图形化配置

数据集成模块提供基于Web的流程配置界面。通过可视化的图形配置界面,提供客户更人性化更个性化的优质操作体验。通过图形化界面实现的配置有:控制流配置数据流配置函数配置变量配置虚拟资源配置预警配置数据集成模块参数配置

图形化运维

用户通过界面化的监控和维护操作,能够清晰的了解流程的数据的处理情况,即时处理数据流程,以及方便的对数据集成模块进行日常维护。

控制流配置

支持执行任务和控制任务类的节点配置。

数据流配置

支持数据抽取、转换、加载、稽核类的节点配置。

 

控制流功能清单

功能

描述

FTP/SFTP上传、下载

通过FTP协议将存放在节点机服务器主机(FTP主机)上的数据与HDFS或数据集成服务器之间互传。

存储过程

用于调用执行数据库存储过程的任务。

外部脚本调用

数据集成系统提供外部程序调用接口,用户可以使用这个功能执行操作系统命令、第三方程序,或自行开发的应用程序。

转换

调用执行数据流的任务。

计算

用于改变控制流变量的取值。

触发器

触发任务是从当前控制流触发启动另一个控制流。触发任务并不执行实际的数据处理功能,只能用于创建控制流或任务触发关系。

汇接

将多个任务流程汇聚到一起的任务。汇接任务不执行实际的数据处理功能,仅起汇总连接作用。

文件等待

当等待的文件已经到达且数量满足要求时,文件等待任务执行成功。若超过等待超时时间,并且文件仍未到达或到达文件的数目不足时,则文件等待任务执行失败或上报告警。

依赖

依赖任务是添加跨控制流依赖关系的任务。依赖任务并不执行实际的数据处理功能,只能用于创建任务、控制流依赖关系。

指标稽核

指标稽核任务主要是通过校验表达式对转换任务中数据处理过程中的各项指标进行校验,并提供有效预警。

自定义节点

自定义节点任务是在控制流中调用用户自定义的控制流任务。

循环入口

用来作为一个循环体的入口,本身不做任何操作。只有当流程中使用了“循环入口”节点,才能够配置循环流程。

空白任务

空白任务是不执行任何处理的任务。引入空白任务,当控制流的流程图中存在多个任务,而其中一个或多个任务功能不清楚时,可以暂时引入空白任务来代替。待用户确认该任务功能后,再用实际的任务取代空白任务。您也可以引入其他任务作为起始任务,之所以建议引入空白任务,是因为空白任务不产生问题数据。

功能

描述

FTP/SFTP上传、下载

通过FTP协议将存放在节点机服务器主机(FTP主机)上的数据与HDFS或数据集成服务器之间互传。

存储过程

用于调用执行数据库存储过程的任务。

外部脚本调用

数据集成系统提供外部程序调用接口,用户可以使用这个功能执行操作系统命令、第三方程序,或自行开发的应用程序。

转换

调用执行数据流的任务。

计算

用于改变控制流变量的取值。

触发器

触发任务是从当前控制流触发启动另一个控制流。触发任务并不执行实际的数据处理功能,只能用于创建控制流或任务触发关系。

汇接

将多个任务流程汇聚到一起的任务。汇接任务不执行实际的数据处理功能,仅起汇总连接作用。

文件等待

当等待的文件已经到达且数量满足要求时,文件等待任务执行成功。若超过等待超时时间,并且文件仍未到达或到达文件的数目不足时,则文件等待任务执行失败或上报告警。

依赖

依赖任务是添加跨控制流依赖关系的任务。依赖任务并不执行实际的数据处理功能,只能用于创建任务、控制流依赖关系。

指标稽核

指标稽核任务主要是通过校验表达式对转换任务中数据处理过程中的各项指标进行校验,并提供有效预警。

自定义节点

自定义节点任务是在控制流中调用用户自定义的控制流任务。

循环入口

用来作为一个循环体的入口,本身不做任何操作。只有当流程中使用了“循环入口”节点,才能够配置循环流程。

空白任务

空白任务是不执行任何处理的任务。引入空白任务,当控制流的流程图中存在多个任务,而其中一个或多个任务功能不清楚时,可以暂时引入空白任务来代替。待用户确认该任务功能后,再用实际的任务取代空白任务。

您也可以引入其他任务作为起始任务,之所以建议引入空白任务,是因为空白任务不产生问题数据。

 

数据流-抽取功能清单

功能

描述

HDFS文本抽取

Hadoop分布式文件系统上进行数据抽取。HDFS文件抽取节点可以从不同类型的文件中读取数据,也可以从不同格式的文件(定长格式文件、列分隔符字段文件和"名称-"对文件)中读取数据。

HDFSXML抽取

Hadoop分布式文件系统(HDFS)上进行XML文件抽取。

XML抽取

从数据集成服务器上进行XML文件抽取。

JDBC抽取

采用JDBC数据库连接技术从数据库表中抽取数据。支持JDBC数据库连接技术的数据库,都可以通过JDBC抽取从数据库表中抽取数据。

Oracle抽取

Oracle抽取节点采用ORACLE数据库提供的OCIOracle Call Interface)接口来读取Oracle数据库中的数据。与JDBC抽取节点相比有处理速度快的优点。支持版本:Oracle Database 11g

DB2抽取

DB2抽取节点采用DB2数据库提供的CLICall-Level Interface)接口来读取DB2数据库中的数据。与JDBC抽取节点相比有处理速度快的优点。

支持版本:DB2 9.7

HBase抽取

HBase中抽取数据。HBase是一个分布式的、面向列的开源数据库,其基于列的而不是基于行的模式,适用于非结构化数据存储。

支持版本:HBase 1.0.0

Hive抽取

Hive数据仓库中抽取数据。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的HQLHive Query Language)查询功能。

支持版本:Hive 1.1.0

内存抽取

内存抽取节点从VCUVecSurf Compute Unit 内存计算单元)的共享内存中读取指定XDR表(X Detail Record 详单)的数据。

文本抽取

文件抽取节点可以从不同类型的文件(普通文件和“.gz”文件)中读取数据,也可以从不同格式的文件(定长格式文件、列分隔符字段文件和"名称-"对文件)中读取数据。

 

数据流-转换功能清单

功能

描述

过滤

过滤节点用于对数据集根据函数表达式进行过滤。在过滤节点中,用户可以设置过滤条件输出过滤记录。系统根据用户设置的过滤条件对输入的数据进行过滤,并将结果输出。

分组

支持对分组字段做求平均值、求和、求最大值、求非0个数的计算,并支持自定义表达式计算。

查找

查找节点提供精确查找、递减查找、区间查找和模糊查找的功能。

连接

连接节点用于将两个数据集按字段进行连接,支持按照内连接、左外连接、右外连接和全外连接输出字段。

剔重

剔重节点用于根据关键字段把输入数据源中的重复记录剔除出去,保证输出记录中不会出现关键字段重复的记录。

路由

使用路由节点将数据拆分成多份。用户可以指定数据拆分规则,原始文件将根据拆分规则拆成多份。按指定字段拆分,例如地市分公司、月份或者数据值大小。

合并

用于将对两个数据集进行合并成一个数据集。

数据集是通过数据抽取节点从数据源中读取出来的一组数据,在合并节点中分为主数据集和增量数据集。在合并节点中对于增量数据集中的每一条记录,需要根据关键字段检查主数据集中是否存在相同的记录。当主数据集与增量数据集存在相同记录时,则使用增量数据集中的记录替换主数据集中的记录;否则,将增量数据集中的记录添加到主数据集中。

排序

排序字段根据关键字段将源数据进行排序,用户可根据需求对任意字段进行排序。

转换

在转换中,用户可新增字段,并为该字段定义函数表达式。系统根据用户定义的表达式对相关的输入字段进行计算。用户可以输出该字段到目标文件或数据集中。

在转换节点中还可以直接对数据类型进行转换。

联合

联合节点将多个数据集中配置的关联字段进行追加,生成一个新的数据集。与合并节点不同的是联合节点不会根据关键字段对数据集中的相同内容进行合并。

列转行

列转行节点支持将多列转换成多行,转换的列数需要大于等于2行。

增量合并

将增量数据与主数据合并,根据增量数据中的插入、删除和更新关键字将增量数据合并到主数据中。

功能

描述

过滤

过滤节点用于对数据集根据函数表达式进行过滤。在过滤节点中,用户可以设置过滤条件输出过滤记录。系统根据用户设置的过滤条件对输入的数据进行过滤,并将结果输出。

分组

支持对分组字段做求平均值、求和、求最大值、求非0个数的计算,并支持自定义表达式计算。

查找

查找节点提供精确查找、递减查找、区间查找和模糊查找的功能。

连接

连接节点用于将两个数据集按字段进行连接,支持按照内连接、左外连接、右外连接和全外连接输出字段。

剔重

剔重节点用于根据关键字段把输入数据源中的重复记录剔除出去,保证输出记录中不会出现关键字段重复的记录。

路由

使用路由节点将数据拆分成多份。用户可以指定数据拆分规则,原始文件将根据拆分规则拆成多份。按指定字段拆分,例如地市分公司、月份或者数据值大小。

合并

用于将对两个数据集进行合并成一个数据集。数据集是通过数据抽取节点从数据源中读取出来的一组数据,在合并节点中分为主数据集和增量数据集。在合并节点中对于增量数据集中的每一条记录,需要根据关键字段检查主数据集中是否存在相同的记录。当主数据集与增量数据集存在相同记录时,则使用增量数据集中的记录替换主数据集中的记录;否则,将增量数据集中的记录添加到主数据集中。

排序

排序字段根据关键字段将源数据进行排序,用户可根据需求对任意字段进行排序。

转换

在转换中,用户可新增字段,并为该字段定义函数表达式。系统根据用户定义的表达式对相关的输入字段进行计算。用户可以输出该字段到目标文件或数据集中。在转换节点中还可以直接对数据类型进行转换。

联合

联合节点将多个数据集中配置的关联字段进行追加,生成一个新的数据集。与合并节点不同的是联合节点不会根据关键字段对数据集中的相同内容进行合并。

列转行

列转行节点支持将多列转换成多行,转换的列数需要大于等于2行。

增量合并

将增量数据与主数据合并,根据增量数据中的插入、删除和更新关键字将增量数据合并到主数据中。

 

数据流-加载功能清单

功能

描述

文本加载

文件加载节点可以将经系统加工处理后的数据加载到数据集成服务器上的目标文件,可以加载到一个目标文件,也可以加载到多个目标文件,还可以输出记录的行号。

HDFS文本加载

HDFS文本加载节点可以将经系统加工处理后的数据加载到Hadoop文件系统上的目标文件,可以加载到一个目标文件,也可以加载到多个目标文件,还可以输出记录的行号。

HDFSXML加载

将数据加载到Hadoop分布式文件系统的XML文件中。

XML加载

XML文件加载节点可以根据配置的文件格式信息,将数据集加载到XML文件中进行保存。

JDBC加载

JDBC加载采用JDBC连接技术将经过系统计算、过滤等加工处理的数据加载入库。支持JDBC连接技术的数据库,都可以采用JDBC加载节点。

Oracle加载

Oracle加载采用Oracle SQL*Loader工具将经系统计算、过滤加工处理的数据加载到Oracle数据库。

支持版本:Oracle Database 11g

DB2加载

DB2加载节点调用DB2 Loader命令将系统计算、过滤加工处理后的数据加载到DB2数据库,因此,DB2加载具有专用性和高效性(加载速度快)特点。

支持版本:DB2 9.7

HBase加载

将转换处理后的数据加载到HBase数据库。

支持版本:HBase 1.0.0

Greenplum加载

将转换处理后的数据加载到Greenplum数据库。

支持版本:Greenplum Database 4.3.2.2

Hive加载

将数据加载到Hive数据仓库。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的HQLHive Query Language)查询功能。

支持版本:Hive 1.1.0

缓慢变化维数据加载

当加载的管控模型的“实体类型”为Oracle“维表拉链表(Typ2 Dimension Table)”时,默认通过JDBC缓慢变化维(TYPE 2)方式加载到Oracle数据库。

数据模型加载

支持与数据治理对接从数据模型抽取加载数据。

Redis加载

将数据加载到Redis数据库。Redis是一个开源的基于内存的日志型、Key-Value数据库,它支持的Value类型包括string(字符串)list(链表)set(集合)zset(有序集合)hash(哈希类型)。

支持版本:Redis 3.0.3

 

 


跳转到指定楼层
快速回复 返回顶部