信贷业务大数据反欺诈技术架构参考-2018

  |  

摘要: 本文介绍一个 2018 年的信贷业务反欺诈技术架构

【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】
我的网站:潮汐朝夕的生活实验室
我的公众号:算法题刷刷
我的知乎:潮汐朝夕
我的github:FennelDumplings
我的leetcode:FennelDumplings


风控数据的特点是有效数据非常多,能够提供有效数据的机构非常多,但没有任何一个超级机关有能力构建完整的大数据平台。于是数据散落在各个角落,成为信息的孤岛。

因此对于具体的风控业务需求,数据源最重要,如果数据源是垃圾,最终产出一定是垃圾。拿到数据的时候需要关注甲方、各个机构,以及数据服务商提供的数据质量。

人行征信,大型电商行为数据,保险数据,机构的贷款记录,通信运营商数据都是价值比较高的核心数据。但需要注意的是这些数据的获取跟当时当地的政策有关,不一定都能获取到,需要提前想好数据源无法采集时的模型降级方案

各个机构提供的数据格式变化很多,有 https 接口的 json, xml;内部各个数据源的 ETL;人工上报的 Excel/csv;以及 sqoop+ozzie 数据抽取通道。

因此拿到了高质量数据源之后,需要将数据抽取后再存储。

存储这块,数据仓库存储各个机构数据源的原始数据(T为单位),实时数仓用于作业系统的核心作业(G为单位)。

有了数据存储之后,计算是这套系统的核心

离线计算:Hive数据整合,把各个数据控的东西清洗过滤,最终写到预先定义的表里。如果是复杂的数据清洗,Hive 的标准 SQL 不能解决,可以用 Spark 做。然后用清洗后的数据进行离线建模;Hive + Ozzie 用于离线批量处理,由于 Hive 数据清洗涉及几百上千张表、复杂的数据清洗规则、任务依赖、任务重跑、数据质量、血缘关系等等问题,必须用工具。

实时计算:SparkStreaming 和 Flink 用于实时流计算,完成统计类的工作以及多个数据流的 join。


Share