互联网广告作弊与反作弊综述

一、互联网广告反作弊的意义

互联网行业发展的几十年来,已经渗透到生活的方方面面,各种互联网公司层出不穷。互联网公司的商业变现途径已经发展出引流、电商、游戏等多种流派,但是广告变现作为一种最快捷和直接的变现途径,依然占据着整个行业的大半壁江山。国际国内的各大巨头google,facebook,百度,腾讯,阿里,各大门户或视频网站,广告收入在其收入占比中都非常高。有人的地方就有江湖,有江湖的地方就有纷争。面对互联网广告也引申出了作弊与反作弊的纷争。互联网广告作弊已经成为了一个有完整链条的行业,而反作弊部门也成为了各大依靠广告变现公司的标配。

二、互联网广告行业现状

互联网广告由广告主,代理商,媒体,监测公司,用户几种角色构成。每种角色在这个环境中都由自己的诉求。借用rtbchina的一个经典图片展现当前互联网广告现状:

图片来自rtbchina

广告主(marketer):将自己产品的广告触达到用户,通过广告在受众群体或目标用户中产生一定的品牌影响力,进一步使得用户成为其服务或产品的消费者。

媒体(publisher):媒体一般为互联网网站或互联网信息与服务的提供商。互联网广告投放的媒体通过用户在其网站浏览信息或者使用服务的过程中完成广告信息的传播。

用户(consumer):在互联网上浏览信息或使用服务的人,也是广告主的潜在的广告客户。

需求方平台(dsp):为广告主提供跨媒体流量采购的系统,帮助广告主完成用户触达。

供应方平台(ssp):媒体的广告投放进行全方位的分析和管理的平台,与需求方平台相对应,属于媒体优化自身收益的工具。

在线广告联盟(ad-network)。广告联盟是一个连接互联网媒体和广告主的广告系统平台,广告联盟不仅会给广告主提供广告营销工具和广告投放服务,而且会借助互联网媒体实现广告的商业价值。

广告联盟交换平台(adx):广告交易平台的作用在于在不同的广告联盟之间实现广告与流量的交换和交易。通过把不同模式的广告市场互联互通从而将整个广告市场整合起来,使得需求方平台和供应方平台都达到综合利益的最大化。

联网广告的生态中最主要的链条是maketer-dsp-adx-adnetwork-ssp-publisher通过这样的流转方式最终触达用户,这是一个目前发展非常完整的生态体系,各个平台和角色都会在此系统中所有诉求并得到相应的回报。

三、互联网广告的结算方式

广告主通过dsp经由adx或ssp让自己的产品触达目标人群,当前主流的广告结算方式有:

CPD(T):按照天(时间)包段,按时间结算收费。但随着各个广告主也会把ROI算作KPI中,一般也会伴随一些曝光和点击数据的指标。

CPM:按照1000次曝光为单位进行结算。

CPC:按照广告的点击次数进行结算。

CPA:即根据每个访问者对网络广告所采取的行动收费的模式。对于用户行动有特别的定义,包括形成一次交易、获得一个注册用户、或者对网络广告的一次点击等。

CPS:按实际销售产品的提成来换算广告刊登金额,其原始英文为Cost Per Sales,CPS广告同CPA广告一样广告主为规避广告费用风险,按照广告点击之后产生的实际销售的提成付给广告站点销售提成费用。

dCPM:DSP普遍采用dCPM作为结算体系,dCPM指的是dynamic CPM,与目前网络广告市场长讲的CPM方式(此CPM相应的成为flat CPM)区别。dCPM基于RTB技术诞生,指的是每一次的impression出价是变化的。其每次出价均依据广告主广告投放的效果(一般是CPS)来实时计算,以得出对广告主最有利的价格,从而保证了广告主的利益。同时又因为以impression与媒体结算,也确保了媒体的收益。

OCPC:经过“优化”后的 CPC,可以帮助广告主控制转化成本,提高转化量。率以及竞争环境智能化的动态调整出价,进而优化广告排序,帮助广告主竞得最适合的流量,并降低转化成本。换句人话说 OCPC 就是按转化目标智能出价,即可帮助广告主控制成本,优化转化目标。更简单的说就是如果发现某个用户对广告的转化概率高,广告平台可以适当提高出价,使得广告主更有机会抢到该用户的曝光机会;如果转化概率低,则需要调低出价。可以理解为算是智能广告,OCPC 目前已经被各大新媒体平台充分的利用在了信息量广告上。

四、互联网广告的作弊动机

不论处于整个行业中的哪个角色,大部分都是为了尽可能多的完成目标从而拿到广告主的广告预算。在整个行业中每个角色在整个链条中利益诉求不尽相同,其作弊动机也不一而足,接下来我们单独分析每个角色的作弊动机及利益所在:

广告主和代理商:虽然广告主是最初的金主,但也存在作弊的强烈动机。比如在竞价环境下希望尽快消耗竞争对手的广告从而使自己容易拿到量,或者对自己作弊从而提升自己的点击率。

媒体:媒体为了完成对广告主承诺的指标在完不成的时候有最大的动力。媒体还有被动的作弊,因为还有很多流量来自于其它渠道的引流,这些渠道参差不齐,媒体和渠道之间的结算以用户来结算,所以渠道也有足够的动力造假。而这些用户完全不会有任何转化。

五、互联网广告的作弊手段

古语说:无利不起早,所有的作弊行为都是基于一些利益导致的。结合互联网广告的结算方式和角色诉求,常见的作弊方法有以下几种:刷请求,刷曝光,刷点击,刷留存,刷激活。对应以上的结算方式CPD和CPM广告一般对应的刷量方式就是刷请求,曝光。CPC一般要对应刷点击,CPA,CPS需要刷留存,刷激活等行为。

目前已知的刷量方式有以下几种:

机器模拟:使用机器或程序来模拟广告行为,或者通过木马和肉鸡模拟用户的广告行为。为了使点击行为不被规则类发现还会控制ip分布和时间。机器模拟有如下的方法:

  1. 模拟器:BlueStacks, AndyWin, GenyMotion
  2. Spoofer: 不断的修改机器的IP , IMEI, MAC等
  3. Proxy: 网关,修改ISP, IP, UA , 设备类型等
  4. 苹果: 没有模拟器,主要通过硬件和软件模拟
  5. 激励流量(incent Traffic ): 真实人流量,但是转化率差的流量。

其实对于请求,曝光,点击等行为本质上是一样的,都可以使用以上的方式进行请求,不同的地方大多是不同的服务地址。

刷激活方法:作弊广告渠道商采集了非常多的设备信息,他们会疯狂往对方广告点击日志服务器发送设备点击信息,当激活日志服务器采集到对应设备的激活,就会认为是该作弊渠道商的。

用户户无意行为:媒体或网盟的小站长在页面挂满广告或诱导小白用户误点击或刷新页面也会产生作弊数据。

人工作弊:真的雇人用真实的设备进行广告的各种行为操作。

还有一种不能算作作弊手段,但其依然是无效流量应该被排除,那就是搜索引擎。各家搜索引擎大量爬取着整个网络,依然会消耗巨大的广告预算。

六、反作弊方案

针对以上的作弊方案,我们可以有多种技术进行处理

  1. 加密:对于机器刷量行为,对于客户端类可以采用加密技术将广告曝光、点击、激活等行为进行加密,且加密地址使用不同的加密算法进行处理,任何不能解密的请求都是无效行为使刷量行为无效。加密的核心问题在于对于每一个曝光和点击都生成一个唯一不同的加密地址,同时结合这个唯一地址数据的频次分析可以识别出作弊数据。(请注意以下的反作弊方案并非基于加密这个前提,本文只是总计一些常用的反作弊方案)
  2. 找规律:对于机器刷量的行为一般对应着一套刷量的逻辑代码,也就意味着一定有其规律性,有一定的特征可以发现其中的规则。发现其中的规律即可以找到对应的应对方式。对于人工作弊,用户无意行为或没有进行ip,用户等混淆技术的可以基于频次和频率混合行为规则发现作弊流量:

2.1 比如单用户,单ip在某个时间周期内基于历史数据统计设定正常阈值,超过正常阈值范围的数据发生的点击认定为作弊点击。激活认定为作弊激活。该时间周期可以设定为分钟,天,周,月等几个周期。对于长期处于作弊状态的用户或ip标记为黑名单。不再对其进行广告投放。所有广告数据都认定为无效数据。

2.2 某些用户数据是有一定规则的,比如IMEI为TAC + FAC + SNR + SP。IMEI(International Mobile Equipment Identity)是国际移动设备身份码的缩写,国际移动装备辨识码,是由15位数字组成的”电子串号”,它与每台移动电话机一一对应,而且该码是全世界唯一的。每一只移动电话机在组装完成后都将被赋予一个全球唯一的一组号码,这个号码从生产到交付使用都将被制造生产的厂商所记录。如果获取的设备信息不符合这个规则那么也可以认为是作弊数据,当然存在可能的误杀,但可以在发现误杀之后人为修正。

3. 统计法:除了以上的一些方式之外,对于没有加密的广告在伪造ip,ua,用户等行为基于策略的无法识别,那可以基于历史一些统计数据得出一些指标作为作弊评判标准:

3.1 不同广告位的点击率,一般情况下一个广告位的点击率都会在一个正常的范围内波动。基于大数定律和中心极限定理。可以考虑将偏离均值2个或3个标准差之外的点击率作为异常数据进行排查。

3.2 URl或用户信息异常:如果同一广告位的大量曝光点击等都来自于与同一版本的浏览器或操作系统或这些浏览器或操作系统占比非常高。或者某些广告行为都来自于同一个用户。

3.3广告行为异常:一些用户或广告展现逻辑有一定的顺序关系,比如一定要现有广告请求,然后又广告投放,再有曝光和点击,之后再有激活转化。首先是在顺序上是一脉相成,哪一个环节丢失都不正确(当然也不排除有日志没有记上或网络丢包的情况,但总体上一个可用的系统应该99.9%以上都是完整的)。其次先后顺序之外每个行为的时间差也可以做为一个评判标准。其中最广的应该是曝光和点击之间的时间差,如果大量的曝光和点击都在非常短时间内发生,也可以怀疑其为作弊。有一点要注意,一般广告系统都是分布式系统,如果通过时间来分析的话会遇到分布式系统时间同步不一致的问题。

3.4 广告访问时间异常:某些IP每分钟会非常规律的定时出现在点击或曝光的日志中,还有的情况是连续点击或曝光所发生时间的间隔非常规律,这种广告访问时间分布的规律往往不应该是正常访问造成的,一般情况下有效的点击或曝光数据应该是随机时间随机分布的。还存在一种情景是用户访问广告跳转链接的时间非常短,比如大量访客点击广告后快速离站,或者跳转后的广告网站没有过任何点击行为且留存时间极短,这种行为均是广告访问时间异常。当广告访问时间非常短或者分布非常规律时,可视为该广告存在作弊行为。

3.5 广告访问地域异常:一般情况下一个人所在的地域基本是固定的,如果某人在不同的地域同时出现或在短期内出现在距离比较远的省市也可以认为作弊。地域识别可以基于gps和ip库两中方法获取,至于地域距离的计算涉及到的算法比较复杂所以简单粗暴一些可以考虑短期内出现在三个及以上的城市可以认为是异常。

4. 搜索引擎屏蔽:对于搜索引擎流量大多可以通过UA进行识别。常见的知名爬虫有:

5. 其他杂谈:比如广告主自己的作弊,自己去刷点自己的广告提升点击率或刷竞争对手广告消耗对手预算的行为。可以考虑使用预算平滑均匀投放(当然预算平滑不是为了反作弊,但在一定程度上可以减少作弊行为的损失),或者竞价模型不再单纯使用bid*ctr的方式而是增加一些其他权衡条件,据说百度已经采用了myerson拍卖方式,也可以在一定程度上减少作弊造成的系统影响。

6 杂谈之外: 还有一些比如微博粉丝作弊,点评作弊,电商刷榜等作弊行为不作为广告作弊行为不做讨论。

7. 技术流派:可以参考移动广告作弊流量的浅潜规则

七、反作弊

如好多人所说,反作弊是一个任重而道远的工程,也要把握好度,不然也许就是远之则怨,近之则不逊吧。这就是一个综述。

-------------------------感谢以下作者提供的思路---------------------

参考(复制)文献:

刘子微. 社交网站广告反作弊系统的实现和优化[D].北京邮电大学,2015.

百度蜘蛛最新UA及各大搜索引擎蜘蛛爬虫UA汇总 - 网站运营_卡卡网

互联网广告作弊十八般武艺(上) | 梅花网

互联网广告作弊十八般武艺(下) | 梅花网

15位IMEI验证位验证方式

移动广告作弊流量的浅潜规则

如何用机器学习做广告反作弊?移动广告作弊流量的浅潜规则

List of User Agent Strings

反作弊介绍 - Data Analysis - ApacheCN(Apache中文网)

猜你喜欢

转载自blog.csdn.net/muyimo/article/details/88694904