会员大数据智能清洗方案

2016-01-15 09:13:47

大数据的鉴定标准

所谓大数据,不是纯粹意义上量的堆砌,而是具有很强关联性海量数据集合,只有立体的、关联性强的数据,才能被叫作大数据,才具备其数据挖掘和分析价值,否则只能叫大规模数据。

大数据清洗的重要性

会员大数据不是指会员数量的平面扩大,而是以特定会员群为对象,不断地进行关联数据补充后的结构性立体数据,即可理解为通过特定会员的基本信息,去了解更多会员内外部的行为属性特征,并生成会员属性标签数据集。

由于数据来源多样性、数据源的动态性、数据之间关系复杂、且数据海量,给数据的有效交互产生了巨大的挑战,因此,会员基本信息的准确性,是大数据链上首要被解决和保障的问题,准确的会员数据是进行大数据会员信息挖掘、大数据会员沟通的基础。为保障大数据挖掘对象的精确性及大数据分析结果的可靠性,构建绿色的、可持续的会员大数据生态系统,必须构建长效的大数据清洗机制。

会员大数据清洗的流程

A)基础数据纠错

通过系统添加的监督码元,对数据进行非正常值的检测识别。

例:手机号130 1234 56

前3位网络识别号 正常

第4-7位地区编码 正常

第8-11位用户号码 缺失

判断为无效数据。

B)ETL数据标准化

1、空值处理:可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。

2、规范化数据格式:可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式。

3、拆分数据:依据需求对字段进行分解。例:上海市徐汇区斜土路1223号,可进行省/市、区和路段的分解。

4、验证数据正确性:可利用Lookup及拆分功能进行数据验证。例:手机号131 1234 1234,进行前3位网络识别号;第4-7位地区编码;第8-11位用户号码分解后,可利用Lookup返回主叫网关或交换机记载的主叫地区,进行数据验证。

5、数据替换:对于因业务因素,可实现无效数据、缺失数据的替换。

6、Lookup:查获丢失数据 Lookup实现子查询,并返回用其他手段获取的缺失字段,保证字段完整性。

7、建立ETL过程的主外键约束:对无依赖性的非法数据,可替换或导出到错误数据文件中,保证主键唯一记录的加载。

C)多途径综合运用,智能识别会员状态

云信留客会员大数据清洗工具Big Data Cleaning(BDC)可支持三款清洗工具的集成运作,多途径综合运用,智能精确识别会员状态。

BDC-Mobile,可对会员手机号码的状态进行智能识别,提供十余种状态反馈;

BDC-Email,可对会员邮箱地址进行三步逻辑判断,智能过滤无效邮箱;

BDC-Address,可对会员地址信息进行自动标准化,并提供精准邮政编码匹配;

另,系统可智能识别数据库中完全重复及近似重复的数据,实现新旧数据、内外部数据、跨系统数据的重复性检查,杜绝数据冗余。并支持实时清洗数据统计报告输出,为企业提供科学决策分析。

会员大数据智能清洗应用效果

某保险公司拥有逾1000万会员,为掌握会员的留存状态并进行会员有效维护,执行会员手机号码信息的定期清洗,以往采用传统数据清洗模式,即人工呼叫,需设立专员团队进行人工拨打,每通电话成本达数元人民币,且清洗效率极低,为此,该保险公司找到云信留客 | Winnerlook为其提供智能数据清洗业务。

于是,云信留客 | Winnerlook为该保险公司架构了BDC-Mobile手机号码清洗工具系统,通过建立7*24长效会员状态立体监测机制,运用自主研发的智能语音识别模块,加载计算机机器人控制系统,为该保险公司提供实时会员状态监测(包含活跃、沉睡、离网等)并生成数据报告进行及时反馈通知。BDC-Mobile在为该保险公司提升清洗准确度及效率的同时,为其节省了60%以上的成本支出。而该保险公司的原清洗团队则可专注于高价值客户的专业维护服务,以为企业创造更大的价值。

云信留客 | Winnerlook系贵阳大数据交易所副理事长单位,并作为大数据清洗业务战略合作伙伴,通过交易所平台对接各大省市政府机构,以及中国联通、京东、腾讯、余额宝、华为、中兴、交通银行、中国银行等150余家企业提供大数据清洗业务支持。


收藏 举报

延伸 · 阅读