当前位置: 包装机器 >> 包装机器发展 >> 70互联网App曾遭黑产欺诈数美科技
随着企业数字化转型的深入,黑产气焰日盛。中国信通院《移动数字广告与互联网反欺诈蓝皮报告》显示,年,中国黑产从业人员规模达到万,国内黑产欺诈造成的财产损失达到亿元,其中,有70%互联网App因缺乏防御技术能力而遭受黑产欺诈。本文从认识黑产开始,全面分析黑产的产生原因、表现场景,以及针对营销链路和内容平台的风控方案。
反黑产,是一场持久的成本对抗,如何找到关键布控点制定应对策略并持续运营,这是每个企业未来将持续面对的课题。
本文根据数美科技CTO梁堃内部分享整理
本文从以下四个方面展开:
一、风险无处不在,反黑产是持久攻防战
认识黑产骗局
认识黑产链条
二、全栈式风险识别:多点检测拦截,全局风控
三、全栈式审核方案:内容风控,防患于未然
四、风控技术架构详解
风险无处不在,反黑产是持久攻防战
提到风控,很容易想到传统的金融行业,其行业属性对风控有很高要求。但最近十年,整个互联网行业、甚至新零售行业,对风控的需求越来越大。这是由几个环境趋势决定的。
趋势之一,企业的数字化程度越来越高。年是互联网化的分水岭,在此之前,互联网是信息的传播介质,检索工具,或是聊天、游戏等虚拟化的环境或服务。但年开始,得益于4G、5G技术的高速发展,几乎所有业务都在互联网化,吃喝住行、教育、金融、医疗,一切都可以在网上完成。
随之而来就是各种各样的风险——因为面对面的交易消失了。
趋势之二,包括互联网在内的所有企业,比如新零售、商超等企业,思路都在逐渐的从交易承担型转向用户运营型。原因在于,互联网发展到今天,用户红利下降,获客成本越来越高。
移动互联网刚兴起时,用户增速非常猛,年的净增用户数能达到40%,也就是说,随便一个业务放到互联网上,只要不犯大错,自然增长就能获得30%-40%的新用户。
但今天不一样了,到年,移动互联网的净增已经下降到不到5%,意味着用户获客成本猛增。红利期获客成本可能是20-30块,到年,成本可以达到-块,更别提现在。
所以,企业都在从交易成单型转向用户运营型。
先解释交易成单型。比如早前的星巴克,你只是一个没有标签的客户,进店买咖啡,再选择堂食或外带。也就是有交易没用户。所有交易都依靠渠道完成,你不知道自己的用户是谁,弊端在于,你的用户会被抢走。
而现在,星巴克也在运营自己的用户。在星巴克App上,用户注册,点单,积分参与活动等等,除了线上点单线下取,星巴克App也提供其它的比如外送服务。
比如你家附近的商业中心,除了电影、购物、餐饮等服务,他也运营自己的用户,比如设置会员机制,送券、积分、停车券等等。
只有转型,把用户运营起来,给用户提供更好的服务,才能促成用户更多的浏览和交易,深度挖掘单个用户的价值。
趋势之三,每个人都是内容生产者,内容井喷,风险也相伴而生。人工是审不过来的,必须让机器来做判断。
举个例子,数美的音频识别产品,每天识别的“狂暴”标签的声音时长,大约是万个小时,人工审核几乎不可能完成。
可以发现,金融、零售等业务互联网化后,营销、交易、渠道、流量、生态、内容生产和传播等互互联网化业务的核心环节,都面临着越来越严峻的安全挑战。
无处不在的风险
盗卡盗刷和杀猪盘,随处可见的交易欺诈
最熟悉的场景就是支付欺诈。
数据显示,随着第三方交易支付规模的增长,支付诈骗的交易金额也在逐年上升。
数美案例——盗卡盗刷
通常情况下,电商App里的快捷支付绑定银行卡不需要输入账号密码,但会收到一个短信验证码,绑定好了再去设置支付密码。
年,互联网金融因为合规原因大量下架,但其中大量用户信息在黑产圈泄露出去,只要几百块就可以在暗网上买到成千上万的身份信息,包括姓名、身份证号、银行卡号和预留手机号。
骗子通过购买伪基站和干扰器。干扰3G、4G和5G信号,只留下2G信号。当时的手机默认设置是,3G、4G信号不好的时候,自动切到2G信号工作。前者加密,后者是明文。等到夜深人静,骗子开车到某个小区,用干扰器屏蔽G的信号。伪基站扫描出附近的手机号,和买到的数据库做对比,一旦匹配上,骗子会用买到的信息去注册一个小众App,再尝试绑定银行卡,开通快捷支付。
正常情况下,受害人会收到一个短信验证码才能完成绑定。在干扰器的作用下,2G信号就是明文敞开,让骗子成功盗用你的卡。
因为银行通常会设定块钱的支付限制,超出就需要验证。所以,黑产绑定了很多卡,但每天就花15-70块钱,连刷一个月。等数美抓到骗子之后对受害人做回访,很多人根本不知道自己被盗刷了——每天吃饭打车,手机上的支付操作太多了,不仔细看,根本不知道今天被多刷了15块钱。
(现在已经能在前期识别这种风险并封堵了)
第二种典型场景是团伙作案的盗卡盗刷黑产,其分工明确,专业性强。
第一伙人是社工团伙,主要负责盗取/骗取受害人的信息。
数美案例
深圳某小县城,小超市旁边有人摆摊儿送保温杯,如果你想要保温杯,必须扫一个小程序,填写姓名、手机号和银行卡号。这就是套取信息,手段非常明目张胆,但很多人完全意识不到其中的风险。第二伙人是盗刷团伙,他们从社工团伙处获得受害人信息,在目标网站上进行盗刷活动。
第三伙人是变现团伙,提供收货信息。在各类平台上销售物品,获得现金。所以一般情况下,盗刷的目标是变现容易的畅销/高价值物品,如电子产品、化妆品等。变现团伙提供收货信息,让盗刷团伙买的耳机、手机等贵重物品寄往指定地址,然后再转卖出去。
第三种典型场景是电信诈骗,比如杀猪盘,这也是国家非常重视的一个场景。今天的电信诈骗已经不是个人作案了,黑产有包括账号、设备、IP、随机脚本等,资源完备,是一个完整的团伙行为。
数美案例
常见的杀猪盘,也就是情感诈骗,骗子会以团伙的形式,套着婚恋的名头去接触一个人,把自己包装成事业成功家庭优越的成功人士,小则几十万,大则几十万。而且杀猪盘的团伙通常在境外,非常难追踪。
杀猪第一步,找人。在婚恋平台上,找明确的目标受害者,即一二线城市的大龄男女青年;
第二步,养猪。骗子不会直接说自己有钱,这太明显,他们会花好几天时间陪你聊,字里行间透露自己身心健康、生活有趣,比如在朋友圈展示自己健身读书出行旅游的照片。接下来透露出自己事业有成但十分渴望爱情,也会袒露既往受伤的情史,获得受害人的同情。
第三步,杀猪。也就是真正的诈骗。整个周期能在十几天到二十几天完成。比如分享自己的朋友一起做的投资,诱导受害人也拿出资金来。一旦拿出资金,你就上当了。
可能是疫情的原因,这两年电信诈骗的比例越来越大,数美也接了越来越多这种客户。我们的后台每天能发现1万个左右的诈骗账号,我们把监测到的信息反馈给客户,他们会给用户发提示,不要给陌生人赚钱,并且封禁诈骗账号。
营销场景欺诈,防不胜防的套利漏洞
用户运营过程本质就是两类活动,拉新和促活。
有一个误区是,做好活动运营的规则设置就能避免黑产,事实上,这是完全不可能的。
拉新环节的本质是花钱买用户。不论是让利还是送券,核心手段就是奖励新用户,给一个新用户对应的价值。黑产利用的就是这个逻辑,造一批假用户卖给你就行。
比如老用户在平台上买海鲜,可能是8折,但平台设置新用户5折,黑产就能从中套利——用大量机器注册账号,代下单套现。真人想买的时候会在电商或二手平台找代下单服务,比如用户自己买是9折,代下单是7折,用户以为自己赚了,其实黑产买到的是5折,中间2折就是他套利的差价。
促活留存环节的本质则是花钱买活跃。平台会给用户的每次活跃以奖励,黑产钻的就是这个漏洞。造一批假用户,每天活跃一下来赚取平台的优惠,加上各种各样代下单、积分转赠等变现方式,形成完整的薅羊毛链条。
刷榜刷单,不良广告泛滥成灾
允许第三方商家或博主入驻的平台上,首页展示通常意味着极大的流量和收益,所以商家和博主会有动力和黑产合作,刷榜获得曝光。
另一种是黑产广告。比如那些支持转账的金融App,为了提升用户体验,会提供1分钱转账服务,但需要复验,这个环节非常危险。第一,黑产只需要1分钱的成本,就能把黑灰色广告、色情广告发给用户;第二,一些在社交软件“杀掉”的极端言论,可以通过复验的形式发出去,这几乎就是个真空地带。
数美案例
某家银行的运营客服发现,有人通过复验的形式聊一些敏感话题,数美提供了一套系统部署,分析了一遍银行后台的转账复验,发现大量的黑灰产广告,还有各种色情服务、卖片儿的,以及乱七八糟的服务和敏感言论。
简而言之,一个但凡有一点UGC初现的App,都有内容风险。
其它的,有大众最熟悉的渠道流量作弊,也就是“刷量”,比如新App投信息流广告,本来是花钱买新用户,但供应商用机刷、人刷或者木马刷的方式刷流量,让你花掉的钱打水漂。
“数据盗爬”也很普遍。业务上网之后,所有信息,包括敏感信息,特别是用户的衣食住行、金融医疗数据等,都面临被盗爬的风险。从渠道流量到拉新、运营,最后到交易,每一步都面临黑产威胁。随着企业的互联网化,数据盗爬的量也在逐年增长。
黑产链条:分工明确,不断进化
需要明确,如今的黑产行业几乎没有个人作案,都是松散的团伙形式,手段也在不断进化,分工明确。有的可能比一些公司的协作还好,甚至还能用人工智能去实现。
比如滑动验证码,现在的黑产可以实现自动识别图像,模拟人的滑动轨迹,成本也非常低。
甚至我们想象中最强认证的人脸认证,黑产也能通过一种名为deepfake的换脸技术来实现。通常是在手机装一个虚拟摄像头驱动,手机连一台PC,PC连另外一个摄像头,这台PC里有一个深度学习破解的程序。黑产拿到一个人的身份证,或者只要一个清晰的正面照,就能通过这个程序,在摄像头里摆出各种姿势,比如眨眼、摇头。而且成本也极低。
目前行业已经有一套应对方案,用一套对应的模型用来识别视频或照片的人脸是不是伪造的。
如今必须面对一个令人震惊的事实,我们用深度学习对抗的黑产对象不是人,而是另一组深度学习的模型。
整个黑产链条也是层层嵌套着的。
最下面一层是黑产情报,可以直接理解为黑产界的知识付费,他通过爬虫或各种手段去监听哪些地方有漏洞,哪些地方有套利空间,再对外提供这些信息情报。
第二层是核心资源和基础工具,比如VPN代理服务器、AI和人工打码平台等,给黑产提供核心资源。
第三层是专业的黑产工具,是真正面向一个场景的黑产服务。在你有了核心资源想做坏事但没有开发能力的时候,这个团队会帮你直接把服务封装好。
数美案例
某俄罗斯团队开发过一个用于盗刷的浏览器,卖给最后一层套利变现层的人,每月多美元,用于电商盗刷,甚至能自动实现IP切换都能自动实现,在你盗刷填写地址的时候,选择“模仿人类输入”,避免复制粘贴被识别出来,让你的机器操作看起来像人工一样。
这就到了最后一层,变现套利层,代收货、洗钱下单的这些机构都属于这一层。全套下来,就是一个完成的黑产链条。
全栈式风险识别:多点检测拦截,全局风控
充分认识了黑产,下一步就是如何防控黑产。
在识别阶段,风控系统需要对账号本身和行为进行风险识别,前者指的是账号本身不对,比如被黑产控制、虚假账号,后者指的是账号行为有问题,比如初现被诈骗转账、被盗号登录、被盗卡盗刷等。
最重要的是,我们不能用一个模型或一组规则走天下,而需要有一个完整的风控体系,包括布控体系、策略体系、画像体系和运营体系,也就是数美一直以来强调的,全栈式风险识别体系——在各个环节为企业护航,实现全局的风险防控。
首先,黑产对抗是成本的对抗。
创业初期三个月,我们曾经非常理想化——如果一个账号在注册初期就能被识别管控,那对于用户和数美,都非常省事。但通过一个季度和黑产的艰苦对抗,我们发现,通过管控一个环节实现全面防控,挑战非常大。
首先,你在明,黑产在暗。你在明处单点布控,用了0个特征,黑产只要有00个账号,也就是10倍的量,很容易试探出你的特征的漏洞。但是,如果你在注册、浏览、下单三个环节去识别黑产,哪怕每个环节只用个特征,黑产的识别就是XX/2,即50万的路径,这时,黑产可能需要准备万资源来试探系统漏洞。如果每个环节特征增加到0个,那黑产需要的资源就是50亿。
所以,单点的防御非常脆弱,而全路径的防御,黑产的试探成本呈指数级增长,它几乎不可能达到这个点。
其次,单点的防御就像马奇诺防线,不论单点有多强,都可能被绕过。
有一点需要厘清,风控的第一目标不是识别所有坏人,不误杀一个好人。而是在对恶劣的对抗情况下,我们仍然能控制住整体风险。而单点防御的硬伤就在于,一旦一点突破,后面一马平川,你无法控制住整体损失。
举个例子,数美的一家客户曾经和我们提起过,在很多大型集团里面,账号安全是一个部门,运营是另一个部门,有时候运营做了活动,黑产绕过注册环节,直接去参加活动套利。这个时候,注册环境风控再强,整个环节都会出问题。
所以,企业风控一定要有全栈式思维,形成全局的风险管控。第一是布控体系,即业务环节中的风险识别布控;第二是策略体系,即相应的特征算法;第三是画像体系;第四是运营体系。
第一,布控体系,识别黑产攻击的关键点,重点防控。
上文花了很大篇幅分析风险,这是因为风控之前,企业必须清楚风控的目标是什么,这决定了风控要在什么地方做,用什么特征,也就是如何布控。
如果你的风险是拉新环节,那么在下单甚至支付环节重点布控没有意义。在数美,我们的黑产研究院就是去研究黑产的路径是什么,以帮助我们在关键点进行布控。
数美案例
某家客户价值非常高的企业,长期遭受登录环节的撞库攻击,分析下来发现,黑产撞库不是为了盗号,而是为了检测这个手机号是否在这家公司注册过。因为登录环节中,系统会提示手机号未注册或者密码错误,黑产通过这个漏洞进行洗库,把注册过的手机号提供给竞品。这些高价值客户,对竞品的价值也很高。
数美会建议客户做风控的时候建两个团队,一个是专门研究黑产的团队,看黑产团队在做什么,画一张攻防路径图,补充清楚黑产第一步、下一步、最终变现套利的路径;另一个是策略团队,通过攻防路径图去决定防控策略。
第二,策略体系。即,有了布控点后,如何识别,从哪些层面识别。
数美的策略体系分为四个层面:
1.风险设备检测,主要设从备终端,对应到荣耀的web、小程序、androidAPP等进行风险识别
2.风险行为与微行为检测,利用用户的行为以及微行为,来识别是正常用户还是盗卡盗刷用户。微行为指的是,比如你在写收货地址的时候是粘贴进去的还是手打的,通过陀螺仪检测你是不是像黑产视频里那些挂在墙上的手机一样几乎稳定不变。
3.欺诈团伙检测,主要采用无监督和半监督的模型识别团伙作案行为。我归纳了一个反欺诈三定律:一、好人是多样的好,但坏人是一样的坏;二、好人的信息是高度一致的,坏人的信息存在各种不一致性;三、好人的朋友是好人,坏人的朋友是坏人。
4.多种交易模型结合布控,包括基于GAN的实时交易模型:让新型欺诈无所遁形;实时画像更新:一方面从短期行为画像入手,精准识别黑产团伙,打击黑产;另一方面从长期行为画像入手,学习正常用户行为,提升正常用户购物体检;无监督团伙识别模型:识别团伙,精准判黑,有效防控团伙作案;传统XGB\LR等机器学习模型,作为辅助模型,可以通过featureimportance为业务分析、case分析,提供典型特征,启发我们发现黑产路径。
数美从年引入了“对抗式学习”概念,也就是我们内部针对每个场景都同时训练两个模型,一个模型拼命学习黑产,伪装自己,另一个模型识别黑产。
两个模型互相对抗,就像能自己下棋不断进化的AlphaGo,机器和机器对抗,可以让模型能进化得更快,甚至可以让模型比黑产学得更快,让风险管控走在前面去。
第三,画像体系,即,在多个场景打通数据,多行业联动防控。
我们判断账号风险不只是从启动到后期的顺时间线向前传播,而是会双向推导。比如一个账户行为问题暴露很多,在下单环节中被判定为有风险,我们除了处置单个账户,对于和它在同一时间同一IP登录过或注册的用户,风险都会拉高。
数美案例
某平台用户在支付环节被确认为盗卡盗刷,往回回溯发现,有一批盗刷的卡同时某一天在某个POS机上刷过,于是判断可能是POS机泄露了这些卡的信息。这就是风险向前传播倒推的逻辑:同一时间和这张风险卡初现在同一POS机环境的其它卡的风险等级都需要拉高。
第四,运营体系,黑产与反黑产共生进化,持续对抗。
风控和其它SaaS不同,不是系统对接完,剩下做运维就行。风控系统上线的时候,工作才刚刚开始。黑产和反黑产始终是魔高一尺道高一丈的对抗关系。
事实上,黑产也在演进,甚至也是,打卡上班比我们还拼。只有把整个风险运营闭环搭起来,按周期闭环运转,风控才算真正生效。
比如从策略团队里面分出一部分人专门做攻防研究,策略特征、布控策略设计、以及研发到验证、上线、运营的完整体系。其中,运营指的就是实时监控整个系统的运行状态,比如策略拦截量的波动,以及背后的原因。
数美科技全流程运营体系
数美有一套闭环每天都在跑,让我们真正能对风险做到实时可控。图上左侧是特征的传递,中间是各种算法,左侧的技术体系和右侧的策略产品运营习体系配合起来,才是一个全流程的运营体系。
全栈式审核方案:内容风控,防患于未然
内容风险在互联网平台里比较常见,比如平台上有涉政、涉恐、涉黄、涉毒等内容,很容易直接让产品下架。比起业务线的盗刷赔钱,内容风险造成的损失才是不可估量的。
各行各业对内容风险都越来越重视,用户的头像、昵称、转账复验,甚至是个人地址,都是UGC的内容,只要是UGC,就可能有内容风险。
整个内容生态形式包含了文本、图片和音视频,当人人都变成内容生产者,风险会发生在很多难以想象的地方,也不受你的控制。
第一,图片上的字,音视频里的文字,大众熟知的蓝鲸游戏就是通过这种隐藏手段在传播;其次,内容出现的场景,静态的如文本,动态的如直播间评论,风险是不同的;第三,内容受众,信息公开,内容风险非常大。
数美案例
打车软件可以输入地址,除了点选外还能输入详细地址,这个地址就是诈骗信息。某骗子团伙就是通过色情诱惑来骗司机。
从内容来源来分,包括UGC和PGC,前者是最不可控的。它的受众、场景、来源,都决定了你要用不同的审核方式和管控策略。行业通常都是机审+人审的模式,机审初筛,人工进行最终判定,没问题的通过,有问题的拒绝,可疑的进入人审环节。
有几种典型场景,会采用高召回的策略。由人工判断。
比如最容易初现风险的个人资料,头像、昵称、个人描述,都可能被黑产骗子利用;其次是视频电商,也会执行先审后发的策略。
有的公司出于成本考虑,全部采用人审,但这是完全不科学的。因为人审效率低,准确率低,比如邪教涉恐内容,涉及人多0多人,人审不一定认识,全部认识且识别出来会有极高的挑战性,这个步骤可以且最好由机器来判定;其次是人审标准不统一,而我们的机审建立了一二三级标签,现在已经有0多个标签了,可以进行自动判定。
数美会建议客户建立一个内容安全中台的整体结构,最下层是基础云服务;中间是智能审核中台,“一侧机审+一侧是人审”两个环节相互促进。机审通过自然语言识别(NLP)实现的图片、音频等的识别,通过识别模型对内容打上三级标签,接下来设定是直接拒绝或是进入人审环节;再上一层是不同的业务场景,彼此之间可以实现复用;最上面一层则是整个风控的技术架构,所有的风控体系都基于这一套架构去实现。
重要的是,业务系统和风控引擎应该是两条完全独立的系统,通过API来交互,好处在于,业务可以灵活进行运营活动,风控引擎也可以实时更新迭代,这些独立的中台不能耦合在一起,相互都保持一定的灵活度,能力可复用。
风控技术架构
整个控制台需要包含几块,策略管理、变量管理、风险大盘和历史记录查看、实验室。
不同业务有不同的需求,风控系统需要策略管理能力,支持分事件、分规则、分权限进行管理,并且支持复杂的条件配置。因为风控的本质是和黑产的持续对抗,平台确定策略、特征,上线模型或更新模型都需要简单而快速地完成,一旦引入开发导致动作慢了,黑产就跑在了前面。
看风险大盘就是运营闭环里面每天要看的监控,看拒绝情况是否出现波动,以及风险的趋势和分布如何,这样才能分析异常情况,指定应对策略。我们策略同事每天上班第一件事就是先看一遍数据。
历史记录的好处在于,及时回溯,并且也可以随时回答业务方的问题,分析当时发生的环境,以及判定风险的原因。在我们看来,深度学习模型不是黑箱,可解释性是非常重要的。
最后是我们的实验室支持。我们希望通过不断地对抗学习,和黑产共生进化,甚至跑在黑产前面。
数美科技产品矩阵