正确的提示信息
扫码打开虎嗅APP
从思考到创造
打开APP
资讯
视频
前沿科技
车与出行
商业消费
社会文化
金融财经
出海
国际热点
游戏娱乐
健康
书影音
医疗
3C数码
观点
其他
榜单
虎嗅视界
24小时
妙投APP
虎嗅智库
登录
极速注册
取消
搜索历史
删除
完成
全部删除
数码
互联网
数码
互联网
热搜词
存量房
老破小
房子
游戏
广告
微信
腾讯
匈牙利
商超
账号或密码错误
2013-05-21 13:14
大数据:利用相关性的营销
魏武挥
国内有一家民营航空公司,会员不下数百万,会员的一个重要信息是邮箱地址。另外一边,微博账号申请也需要一个邮箱地址。通常来说,同一个邮箱地址意味着航空公司里的会员和微博里的会员,应该是同一个人。公司做了一个筛选,合并出十万个用户来。
然后一家第三方公司的数据部门介入,主要任务是看这十万航空公司会员的微博用户,在社会化媒体上的行为,比如“说”些什么,比如喜欢介入什么样的话题去转发评论,比如喜欢关注什么样的商业账号。研究这类事的原因在于:这个航空公司很想知道它在社会化媒体上发起什么样的活动(以及活动所配备的礼品刺激)会吸引到这十万会员参加,成为earned media。
这个案例并非严格意义上的大数据,因为数据还是不够海量。不过,它的原理和大数据营销有关:寻求相关性。
相关性不是因果,很难得出这样的结论:因为经常坐某某航空公司的班机,所以喜欢参与某某活动(反过来也不成立)。但这两个变量之间,从普遍意义上讲,存在一定的关联。这个道理就像穿红袜子和炒股票的关系,或许有一定的关联系数,但绝不是因果关系。相关搞成了因果,差不多和“迷信”就没有区别了。
商业应用上,其实不太需要拼命挖掘因果。你只要知道坐该航空公司班机和参加特定活动之间存在一定概率就行了,至于究竟是为什么,可以暂时忽略之。对于营销业者而言,这个概率哪怕能帮助到营销活动提高10%参与度,都是不小的成效。
但问题在于,很多人把相关等同于因果,这样的做法会形成很有些误导性的结论。比如说,当在这个十万航空公司用户中发现,他们特别喜欢某类活动,这个结论是不具有推广性质的。再新增五万航空公司微博用户时,你很难把上述那个结论也放他们头上。因为这里面没有因果关系。要确认因果关系,必须经过一个很复杂的观察和思考过程,排除所谓“隐性变量”。这不是那么简单的做一些数据分析就可以的。相关性是因果的前提,但是不等于因果。
于是,大数据出现了。
大数据寻求的是海量数据,海量到什么份上?就是全样本。全样本和抽样显然是不同的。过去的研究,由于操作性的关系,很难做到全样本,需要去抽样。抽样的科学做法是“随机”——不过这一点听着容易,做起来相当困难。真正的随机抽样需要花很多钱(利用社交网络关系,通过一个用户做问卷再发动这个用户找更多的人来做问卷,一点都不随机),而且一个无法绕过的弊端在于:如果你使用调查问卷的方法,你很难排除回答者的语言回答一定就是ta心中真正的想法或者实际上的真正行为。
大数据首先不是抽样,它获得的数据是全体样本数据,其次它不是在让用户回答问题,而是实打实地去获取用户的“行为”。用户声称对某活动会有兴趣和用户是否参加了某活动,显然后者更能说明问题。
最重要的一点,大数据分析和抽样分析的核心区别在于:前者是动态的,后者是静态的。
前文提到,随机抽样方法是成本很高的,故而它很难每天都去做一次——事实上,为某个特定的问题一个月乃至一个季度做一次随机抽样,都很难实施。于是,一个随机抽样所形成的结论,其实是静态的,它只能说明在做那次调研时的一些相关性。当有新的用户(样本)加入时,很难再说明过去的相关性是否能够成立——除非,你能找到真正的排除了各种隐形变量后的因果关系。
如果试图减少成本去做非随机抽样,那么,它的结论就更没有推广意义(学术一点称之为外部效度性,非随机抽样外部无效度)。当新用户加入后,非随机抽样的结论基本不能适用。
但大数据的分析却是动态的,每秒都有可能产生一个新的结论。让我们用最常见的亚马逊页面上的“购买此商品的顾客也同时购买”来举例。
这个部分里的商品是活动的,由于新购买的产生,会导致这个模块里的商品可能会产生变化。不过,这个模块也有可能是导致商品集中化购买的重要原因:用户看到了这个模块里推荐的商品而产生购买的可能是很大的(也许ta本来就没有任何购买的念头,甚至连这个商品都不晓得)。但对于大数据来说,原因是什么一点也不重要,它要做的——至少在电子商务领域——无非是提高客单价罢了。买了A书和买了B书之间的因果研究,那是学者们的事,不是商人关心的事。
大数据处理的方式不是探幽细究型的,挖空心思去想究竟原因为何没有这个必要,不过拿出一些结论来演绎也是会闹笑话的:比如吃海参有助于提高智商。大数据其实不需要做什么演绎,它的任务只是让你在某一时刻能做到提升成功率的事,哪怕只有1%。量一大,1%都是极其可观的。
回到航空公司的具体案子来。10万同时拥有航空公司会员和微博会员的人,并非随机抽样而得,故而这10万对于整体数百万航空公司会员而言,没有代表性。但我们的目标不是想寻求坐这家航空公司班机的人和参与某网络活动的因果关系,我们只是想提升一下参与活动概率并希望看到更多人会去转发某个活动罢了。故而,10万微博用户,够了。
在某一个时点,跑了一下数据,大致能看到一些相关性,于是我们开始设计某种活动,并有针对性地让这10万微博用户知道,这次获得的参与度和转发率,比毫无数据支撑背景下的胡乱策划,成功率应该会高一点。同样的人力投入,得到了相对而言的较高效果,这就是数据分析的好处。
过了三个月后,又有需要策划的活动,注意,这一次依然需要再跑一次数据。因为样本可能不是只有10万了,也许15万,也许运气不好有2万微博用户已经“死亡”,只剩8万。另外一个可能是有某些新的外部变量加入,比如出来一种新的商品让很多人趋之若鹜高度关注。这个时候拿上一次的数据来指导策划,又是盲人骑瞎马,夜半临深渊了。
不同的时点,或者目标不同的活动,都需要再次跑数据,这可能是大数据分析的麻烦之处。不过,计算机的长处就是计算,花上一两个小时设计几个公式或模型,相对于过去动不动要搞随机抽样,便利性提高很多倍,值得尝试。
更宏大一点的就是真正意义上的“大数据”了。今年年头互联网圈阿里要并购新浪微博,从商业逻辑上讲,一个是中国最大的消费平台,一个是中国最大的碎片化言论平台,两者数据的合并,是颇能挖出更多的相关性来。
当你发表一条微博时,忽然配套出来了一条广告。是的,你很烦,感觉又被骚扰了。但从商业角度而言,如果你过去的烦是一万次广告推送才会有一次点击,现在变成九千次一次点击,都是了不得的进步。一万次为什么会变成九千次?因为一个人的言论和ta的消费倾向,的确是存在一定相关性的。
广告圈里一句名言:我知道我的广告浪费了一半,但我不知道浪费了哪一半。一些营销业者鼓吹说他们可以让你不浪费那一半。不要相信他们。对于广告来说,从浪费50%到浪费49%,都是很值得去投入的事。建立在相关性而非因果上的大数据营销,不可能让广告主从此不再浪费广告,它只能做到:浪费得少一点。
这就够了。
—— 销售与市场 约稿 ——
再说一下随机样本和全样本的关系。理论上讲,你可以设计一个模型,每秒钟都在那里抽样,不是没有操作性。但问题在于,随机抽样生成的结果都存在一定误差,既然手上已经有全样本,又何必去搞什么抽样。对于计算机而言,计算1亿个样本,和计算一千个样本,代价虽然有差,但全样本没有误差,已足以弥补这点代价。
本文由扯氮集博主魏武挥原创撰写,欢迎于微信中搜索ItTalks以订阅公众账号,或于搜狐新闻客户端科技频道订阅“魏武挥”
本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:
金融财经
支持一下
赞赏
0人已赞赏
分享至:
0
大 家 都 在 看
快消品牌如何做好微信营销
寻空
32:22
暴雨将至:你知道真正可行的区块链计算广告怎么做吗?
达秦
大号转发→段子手→数据化管理,中国社会化营销进入第三阶段
张锐
万字长文:如何学习商业分析(六)
职场旋风
字节跳动副总裁:A/B测试非万能,“抖音”只排第二
杨震原©
ChatGPT也涨不动了
深燃
抱歉,“大数据杀熟”无药可救
往往_
聊聊运营活动的本质
韩叙©
万字长文:用两年时间,想明白运营的底层逻辑是什么
韩叙©
07:49
#内幕大揭秘
算法是如何一步一步榨干你钱包的?
新熵
广告主玩数据,有个大误区
北冥乘海生
最可怕的,是被热搜绑架的明天
硬核读书会
12:10
#投资大讲堂
投资分析师如何筛选资讯?
很帅的投资客
20:23
#这才是正解!
前阿里副总裁:电商时代,谁动了你的钱包?
大佬日志
11:22
#高新技术流
科技巨头该为算法推荐注入价值观吗?
差评君
07:42
大数据会怎么找出潜在的新型冠状病毒接触者?
动动枪DongDongGun
01:15:00
#互联网大厂那些事儿
APP如何关注用户价值?如何把选择权还给用户?
潘乱
16:30
这个世界正变得更加真实,还是更多偏见?
造就Talk
52:44
#内幕大揭秘
为什么贴吧之后再无“贴吧”?
潘乱
10:20
#AI有多智能
教你如何对抗算法,大数据时代的硬核生存指南
图灵的猫
大 家 都 在 搜
存量房
老破小
房子
游戏
广告
微信
腾讯
匈牙利
商超
APP内打开
好的内容,值得赞赏
您的赞赏金额会直接进入作者的虎嗅账号
自定义
支付:
元
匿名赞赏
支付