淘宝的“千人千面算法”图文解析

将本文分享至:

看不懂?那就对了,我们继续往下看,在了解这个模型之前,我们需要狂补一些专业的知识! 我们常用的跨境电商作弊方式: 机器作弊:机器刷量、任务分发、流量劫持 人为作弊:QQ群/水军
技术贴:亚马逊防刷单原理图文!淘宝的“千人千面算法”图文解析  

 

看不懂?那就对了,我们继续往下看,在了解这个模型之前,我们需要狂补一些专业的知识!

我们常用的跨境电商作弊方式:

机器作弊:机器刷量、任务分发、流量劫持

人为作弊:QQ群/水军、直接人工、诱导

电商常见作弊手段:

刷单,刷信誉,刷好评,职业差评师

判断广告作弊涉及的点击类型分类:

1、 按照是否找商品找服务为目的;

2、 是否按照是否恶意,有无真实转化为依据。

(CPC基于点击计费的模式、CPA基于成交的点击进行收费)

常见电商平台点击行为分为四大分类:

无效点击(没有形成转化的意愿,仅仅浏览);

恶意点击(必须识别出来);

转化点击(真实意愿点击);

误点(不是以找商品为目的,例如内部人员点击,需要识别出来)。

点击人群划分:

误点:员工、广告主自己、竞品销售中介、爬虫;

恶意点击:同行、同行朋友、联盟站点、机器。

反作弊策略应对框架:

数据层:鼠标轨迹行为、指纹数据、案例库、行为数据;

特征层:离散指标、连续指标;

行为识别层:点击识别模型、异常监测模型、流量识别模型、关系图模型、人群识别模型;

策略应对层:规则。

 

技术贴:亚马逊防刷单原理图文!淘宝的“千人千面算法”图文解析  

 

看完以上的一些专业名词的恶补,我们再来看看亚马逊如何监控刷单:

三层监控指标体系,提前预警:

运营指标监控:投诉率、转化率、撞线速率/频率、消耗速率、通过率;

规则监控指标:拦截率、准确率、覆盖率;

异常监控指标:IP维度、Cookie维度、计费名维度、广告维度、设备维度、鼠标轨迹维度

分类监控、分级响应:

1、 针对监控情况、采用四级响应机制;

2、 红色:非常严重,需要自动化采取短期策略应对,例如临时黑名单机制

3、 橙色:较为严重,短信举报,要求4h内完成分析和短平快策略压制,后续进一步处理

机器学习在反作弊应用几个案例:

如关联规则、决策树模型:策略挖掘 规则自动提取

确定建模问题:自动发现规则、辅助策略设计;

应用:挖出的规则,上线到离线反作弊系统;

评估指标:支持度、置信度、覆盖率、拦截率

有一种算法叫做 千人千面算法 ,首先来看下作弊的几个方面:

1、同IP

也就是说你朋友都不能买你的东西,因为你们两个人早晚是会在一起碰面的,两个人碰面就是IP碰面,所以,买你宝贝的那个人,你们两个人的IP永远不能相见,也就是说你们两个人永远不能相见!

2、性别

假如你的淘宝店铺卖的是连衣裙,老是有男买家隔三差五的在你家买这件宝贝,你觉着正常,男朋友帮买怎么了?我用男朋友的号买怎么了?可是算法认为你是在作弊!你是在刷宝贝!

3、行为

这种行为指的就是假如你在刷宝贝,你没有具体的流程,每一个帮你刷流量的人都是搜索关键词,找到你家宝贝,点击收藏,加入购物车,然后下单,你都觉着不可能,更别说算法了!

4、年龄

你家淘宝店铺卖的是丝袜,行,你男朋友帮你买,可是你找的人都有40岁往上的,谁家40岁的男人帮媳妇在网上买丝袜?最好就是你找18-30岁之间的女性刷宝贝是最正常不过的了!

5、能力

支付宝都是实名认证的,对我们的好多都了如执掌,你卖意大利名牌古弛,你却老是找一些大学生帮你刷单,这就肯定是有问题的,学生能力有限,没有工作,买这么名贵的皮具肯定也是有些问题的!

使用关联规则检测刷单作弊行为

最近发现我们平台上的个别内容提供商使用一些违规的手段,对自己所属的收费内容进行刷单作弊。从其他渠道以很优惠的价格购买代金券,在平台消费自己的项目内容,从而获得结算分成与成本的金额差价。

因为需要对该问题进一步重视和监控,我也在考虑一些检测方法,其中一个就是本文介绍的基于数据挖掘中的关联规则(Association Rules)的算法进行尝试分析。对于关联规则的算法原理在此就不赘述。

家喻户晓的一个利用关联规则的案例是沃尔玛啤酒尿布的案例,目的是发现客户购物篮中经常被同时购买的商品。本例与啤酒尿布案例类似。主要因为内容商使用低价购买的客户账号购买自己的商品,但基于以下分析,本案例中可能会产生较强的关联效应:

(1)对同一批内容商品进行购买,会节约作弊成本。

(2)由于客户帐号有限,必将会出现一个客户账号购买很多内容项目的现象。

而与沃尔玛的案例不同的是,沃尔玛的案例是探索的正向积极的事件,本例是要发现的是负向消极的事件。沃尔玛的案例中要求事件的支持度(support)要较高,即事件能够经常发生才能有意义,置信度(confidence)只要适当即可,不要求过高;而本例因为是需要稽查异常,所以不能要求支持度高,相反置信度一定要比较高,即当某时间发生以后,另一关联的时间也发生的概率要很高才行。

网友评论 >

淘宝的“千人千面算

看不懂?那就对了,我们继续往下看,在了解这个模型之前,我们需要狂补一些专业

我要提问

广告联系 | 报纸订阅 | 法律声明 | 网站地图 | 关于我们 | 友情链接 | 上海工商 | 举报中心

增值电信业务经营许可证 沪B2-20050348号 互联网视听节目服务(AVSP):沪备2014002 删稿联系邮箱:sheng6665588@gmail.com

版权所有 上海第一财经传媒有限公司

技术支持 上海第一财经数字媒体中心