信贷业务大数据反欺诈技术架构参考-2018

字数统计: 619字 | 阅读时长: 2分

2021-03-08

摘要: 本文介绍一个 2018 年的信贷业务反欺诈技术架构

【对算法，数学，计算机感兴趣的同学，欢迎关注我哈，阅读更多原创文章】
我的网站：潮汐朝夕的生活实验室
我的公众号：算法题刷刷
我的知乎：潮汐朝夕
我的github：FennelDumplings
我的leetcode：FennelDumplings

风控数据的特点是有效数据非常多，能够提供有效数据的机构非常多，但没有任何一个超级机关有能力构建完整的大数据平台。于是数据散落在各个角落，成为信息的孤岛。

因此对于具体的风控业务需求，数据源最重要，如果数据源是垃圾，最终产出一定是垃圾。拿到数据的时候需要关注甲方、各个机构，以及数据服务商提供的数据质量。

人行征信，大型电商行为数据，保险数据，机构的贷款记录，通信运营商数据都是价值比较高的核心数据。但需要注意的是这些数据的获取跟当时当地的政策有关，不一定都能获取到，需要提前想好数据源无法采集时的模型降级方案。

各个机构提供的数据格式变化很多，有 https 接口的 json, xml；内部各个数据源的 ETL；人工上报的 Excel/csv；以及 sqoop+ozzie 数据抽取通道。

因此拿到了高质量数据源之后，需要将数据抽取后再存储。

存储这块，数据仓库存储各个机构数据源的原始数据(T为单位)，实时数仓用于作业系统的核心作业(G为单位)。

有了数据存储之后，计算是这套系统的核心

离线计算：Hive数据整合，把各个数据控的东西清洗过滤，最终写到预先定义的表里。如果是复杂的数据清洗，Hive 的标准 SQL 不能解决，可以用 Spark 做。然后用清洗后的数据进行离线建模；Hive + Ozzie 用于离线批量处理，由于 Hive 数据清洗涉及几百上千张表、复杂的数据清洗规则、任务依赖、任务重跑、数据质量、血缘关系等等问题，必须用工具。

实时计算：SparkStreaming 和 Flink 用于实时流计算，完成统计类的工作以及多个数据流的 join。

潮汐朝夕的生活实验室 \Doge 陪伴一个算法工程师的职业生涯

AI工程AI系统

信贷业务大数据反欺诈技术架构参考-2018