用 TensorFlow 框架进行非结构化数据特征抽取,可显著补充金融业务专家挖掘数据的经验范围,构建更完整的特征空间支持后续业务建模,提高业务指标。

背景

随着在线消费金融市场的发展,也催生了有组织的羊毛党团伙。羊毛党团伙利用专业的工具和技能,主要关注市场上各类金融机构的营销活动,以低成本甚至零成本换取高额奖励,这导致平台的活动经费大量落入羊毛党的账户中,使活动效果大打折扣,严重损害金融机构的利益。

作为集团化的组织,羊毛党依靠一条完整的黑产生态链,包括通过黑卡运营商、手机卡商、猫池厂商、收码/打码平台、改机工具、群控工具等,不断挑战金融机构的已知设备规则等各类风险模式。在这种背景下,基于融合用户行为模式和半监督网络分析技术的复杂机器学习模型,以及基于对抗网络捕捉不断演化的风险模式的营销反欺诈风控手段至关重要。

在此业务背景下,氪信科技基于 TensorFlow 构建了一套完整的营销风险识别方案。选择 TensorFlow 的原因不仅仅在于它是一个主流且成熟的开发框架,更在于在 TensorFlow 框架基础上开发的模型易于落地,便于产品化,使得技术能够快速与业务交互形成闭环,充分地进行实际业务场景的迭代。

传统营销风险解决方案主要依赖于两类体系:规则体系和高强度实时监控体系。其中,规则体系基于业务人员对历史营销风险出现模式的归纳与总结,部署至实时决策引擎内;高强度实时监控体系进行大量的成本、业务策略层面的预警,帮助业务人员及时发现活动期间内出现的异常情况。

对于实际营销业务来说,营销风险来源于两类:黑产及正常用户的投机行为。其中,黑产客群无论从“薅羊毛”的规模抑或是风险控制的难度,都高出正常用户投机行为的百倍千倍。难点主要在于黑产的欺诈行为模式针对业务方的惩罚手段应变并且极其迅速,现有的规则决策体系及监控体系,只能针对历史信息进行抽象聚合,无法应对新型的欺诈模式;其次,传统建模手段针对 id 的样本进行建模,信息损失严重:黑产群体往往数据巨大,互相关联,但从个体角度难以管中窥豹。

技术架构

氪信构建了一套基于金融机构 APP 用户行为数据的营销风险识别解决方案。解决方案分为如下两部分:

  • 用户级别风险识别 —— 构建基于用户和营销活动数据,识别全量客群各类营销风险行为的评分模型
  • 行为级别风险识别 —— 构建基于用户实时行为(如点击/浏览某一页面)流的对抗神经网络欺诈识别模型,实时标注高风险行为

用户级别风险识别.png

基础营销评分模型体系的核心思想是考虑到羊毛党的团伙效应,利用行内多种类型的用户关联属性构建用户之间的关系网络(包括但不限于设备指纹关联,用户属性关联,交易对手关联),然后基于个体用户的行为模式构建个体用户的营销风险特征(包括行为模式,活动参与模式,交易模式,积分领取模式等)。

分析挖掘的基础就是用户关系网络,结点为用户,边为用户之间的关联模式,结点的属性为用户营销场景的高维风险特征。利用图的半监督挖掘和风险传导技术,以历史积累的营销风险用户以及可疑用户作为风险种子,进行风险种子的局部社区挖掘算法,得到风险密集子图;然后在这张风险子图上,利用图卷积(Graph Convolution Network)技术融合个体营销风险特征以及用户关系网络的局部图结构,对未标注的样本进行半监督学习,最终获取每个用户的营销风险评分。

用户级别风险识别模型使用基于大量的 TensorFlow 底层 API,主要用于对非结构化数据进行编码学习、特征抽象。

行为级别风险识别

基于对抗网络 (GAN) 的在线风险评分模型,是泛事件场景(例如 app 行为)的欺诈行为评分预测模型。其逻辑在于,将好坏样本的分类问题转化为一个异常值检测问题;对于业务上大量的未知行为模式的黑样本,静态的模型难以从历史样本上总结并迁移到在线的真实预测上;因此,行为级别风险识别模型将重点在于总结大量的好样本行为模式,通过自编码学习进行对原始数据的压缩表征。

在线上使用时点,行为级别风险识别将融合窗口内一段数据对当前的行为进行特征表达,并利用异常值检测模型对该特征表达进行判断。整个模型的构建基于 TensorFlow 的相关底层 API,灵活针对网络中不同模块进行定制化的 loss 定义;同时,TensorFlow 灵活的计算框架使得我们可以在由异构模型组成的计算模块中进行灵活的异步训练、高效的损失传导。

这个模型预测体系的极大优势就是可以实现早期预警,对于任何用户的每一个行为事件,都可以更新该用户当前行为序列的行为表征用户判别器的欺诈预测,即每个用户的每一个行为事件都可以进行风险评分,在与多边的营销风险行为持续对抗的过程中,实现更早更全面的预警和拦截。

产出阶段,TensorFlow 支持多种不同形式的部署,如导出模型文件利用 TensorFlow serving 进行实时线上部署,或者以 pb 文件的形式封装模型计算服务 docker。

成功案例

  • 某APP营销风险识别

针对某 app 线上营销活动识别静态用户黑产集团和实时羊毛行为,利用 TensorFlow serving 进行跑批/实时部署,实现对羊毛行为进行 session 级别的拦截。在此场景中,离线对黑产集团的识别按天跑批进行网络迭代更新,成功从千万级亿级用户中识别大量线下黑产集团。Session 级别的行为模型在原有的规则上起到了一定量的补充,增加了规则效率,同时又弥补了业务对羊毛行为模式的响应滞后或行为反欺诈规则的局限性。如在该 app 线上活动中,某活动条件为购买三件 app 内产品即可返若干话费券,活动上线后,大量用户出现领券后即进行退货,使得此部分流量并没有为 app 带来流量收益,反而付出不小成本;在模型判别的过程中,发现此部分用户明显在各类 app 内社交属性、静态属性呈现关联性,且行为特征空间与正常用户分离较严重,缺失常态客户的行为特征,使得其中超过 80% 的客户可被模型识别。

总结

本文以营销风险识别为例,介绍了氪信如何使用 TensorFlow 进行方案的离线构建和线上部署。后续,我们将不断探索先进技术、TensorFlow 框架的丰富功能,丰富氪信针对业务场景的人工智能解决方案。

来源:https://mp.weixin.qq.com/s?__biz=MzU1OTMyNDcxMQ==&mid=2247487165&idx=1&sn=308485ac95eef2273ec41f92ca9feaca&scene=19#wechat_redirect

最后修改:2020 年 01 月 02 日
文章有用,请随意赞赏