扫码打开虎嗅APP
《爱情公寓》太烂,甚至烂过豆瓣最低分电影《逐梦演艺圈》。
看起来,在低质量的原创内容和稍强一些的抄袭或“诈骗”(这件事严格来说也不能算诈骗,只能说图文不符)之间,还是有人选择支持原创。也因此有人发出这样的感慨:
既然有这么多人去豆瓣“刷分”,这件事到底靠不靠谱?
最近,用户ID排名前1000的豆瓣骨灰级用户,阅片数量超过1000的资深业余观影者,三节课联合创始人布棉在内部做了一个分享,讨论了豆瓣电影刷分究竟靠不靠谱。
布棉明确表示,想靠短时间刷分拉低评分根本不靠谱。最起码在豆瓣上,《爱情公寓》基本上是没法“超越”《逐梦演艺圈》。这背后的原因,除了产品机制上的设计,更重要的是,豆瓣为此设计了一套反作弊策略系统。
我们从豆瓣这家公司以及它所使用的策略出发,试着为大家解答,为什么《爱情公寓》没法“超越”《逐梦演艺圈》。
豆瓣的价值观与商业模式
随着豆瓣评分的影响力不断扩大,豆瓣是否公正,受到了很大的质疑。
虽然,豆瓣价值观正派始终为人所称道,可评分这件事,如果想搞的话利润空间非常大,豆瓣能不能在利益面前把持好,很多人都在心中打了大大的问号。
就这件事,豆瓣CEO阿北,还曾写过一份公开信《 豆瓣电影评分八问》来澄清这件事,里面就曾提到过这样几件事——
豆瓣电影评分的主旨和原则,是“尽力还原普通观影大众对一部电影的平均看法”。这个主旨过去十年没变过,将来也不想变。
它并不是专家、影视从业人员或者资深人士对电影的看法,虽然这些看法会被豆瓣算在“普通观影大众”之内。所以有次听到“豆瓣电影评分不专业”的说法的时候,我的反应这是在说“大众不专业”,应该怪语文才是。个人认为汇总专家意见会是另一个很有价值的服务,但这个确实不是豆瓣评分的宗旨。
除此之外,其实,豆瓣的目前的商业模式也决定了,把豆瓣评分的权限放开,任由水军刷分也是不靠谱的。
国内不像国外,专业影评人相对弱势,豆瓣成为了国内唯一一个不受商业化因素影响的评分平台,公信力是豆瓣电影最大的价值所在。
而豆瓣的商业模式还是建立在流量和广告变现上。当豆瓣电影的打分与用户的观感基本一致时,这种信任感和安全感又会让用户不断回来(反之则会离开),甚至带来一些新的小白用户。对于豆瓣来说,能否保持客观与中立,是能否持续获取流量和收入的关键所在。
反之,如果豆瓣开放了电影评分的合作,短期内会有很多电影公司找上门来合作,希望可以让自己的电影评分高一些。这一定会在短期内收入有大幅度提高,但是用户也不再会相信它的公平,显然,豆瓣不会傻到丢掉这个目前在电影业务上最大的卖点。
当然,在商业模式和价值观之外,豆瓣其实也在策略设计上,预防这个问题。
豆瓣评分系统
如前所述,豆瓣评分的核心要解决的是“尽力还原普通观影大众对一部电影的平均看法”。为了达成这一目标,豆瓣评分也是想了各种办法。
早期的算法是,把所有人的评分加起来,然后除以人数,得出一个平均分。这样的好处,能够体现出电影在观众眼中的平均水平,而且非常节省人力,只需要程序定时收集用户的评分,计算一个算数平均分就OK,不需要更多的人力。
但是,这套规则显然也是会有一些问题的。比如说——
电影的评分存在刷分的风险。只要人数够多,就有可能使得一些电影的评分向他们想要的方向发展,也就是我们最关心的刷分问题。
小众电影的评分可能会高于大众电影。假如说有两部电影,电影A,1000人看过,全部评分均为10分;电影B,1万人看过,评分平均值为9分。这种情况下电影A好还是电影B好?如果只看评分的话,A可能更好,但是,如果看整体的话,B会更好,这个时候该如何判断?
为了解决这两个问题,豆瓣都有针对性的提出了一些方法——反作弊策略。
反作弊策略
所谓“策略”,往往是一套由数据驱动,存在于产品当中的一套规则与机制。
再换个角度解释,如果一家企业的核心业务高度依赖于人的工作,员工的管理问题可能会是复杂度极高、且稳定性较难保障的;而一家公司的核心业务如果是依赖于机器在跑,那么则将是很稳定并且可持续的。而机器的运转,需要被规则来约束,而那些支撑机器运转的规则,就是策略。
当我们面临海量的需求和信息需要处理,又积累了足够多的数据,其实是可以借助于策略帮助我们解决许多依赖人力难以解决的问题。
通常而言,“反作弊”策略是这样一个理解和思考路径——
首先是通过数据挖掘和分析,对通常的用户行为与“异常”的用户行为分别进行定义。
其次是针对不同的用户行为,设定不同的解决方案。
最后,则是将解决方案与用户之间进行匹配,而针对用户与解决方案进行匹配的过程,就是“策略”。
一个最简单的例子是,假如说一个电影同时有100个人在短时间里刷好评或者刷差评,系统就将这种行为定义为一个“异常”的用户行为,然后删掉这些评分。
那么,豆瓣是如何使用策略的思考方法解决这个问题的。
豆瓣电影评分中的策略
1. 豆瓣如何避免刷分
在回答这个问题之前,我们需要提前做一个说明,我们这里介绍的是大多数评分平台在面对反作弊这个问题的时候常用的解决方案,至于豆瓣再具体实践过程中是如何解决这个问题,肯定会有一些差异。
首先,我们需要通过数据挖掘,定义出一个通常的用户行为和“异常”的用户行为。
判断异常的维度有很多,比较常见的可能有数据维度和用户维度。
比如说,从历史来看,一部电影即使在最热门的时候,一个小时平均也只能同时受到100个人的5星好评。
假如在一段时间里,某个电影的评分操作超过这个数值,我们就定义为异常数值,如果没有,则是正常数值。
从用户角度,可能的维度有,他的行为与历史行为之间是否相符,与和他类似的用户之间行为是否类似。
比如说,一个用户从来只看恐怖片,几乎不给爱情片打分,如果他突然给一部很冷门的爱情片打了分,这个时候,可能就是有异常的用户。
当我们对用户和数据都进行了明确的定义之后,就需要对是否作弊有一个判断规则。
比如说,当两个维度中,只有一个发生了异常,则交由人工来判断,如果两个都发生了异常,则完全定义为作弊。
结合这两种情况共同分析,我们可能就得到了一个判断是否作弊的象限图。
这一点,在阿北(豆瓣CEO)的公开信中也有验证,他在公开信中曾提到:
水军是有的,但豆瓣评分很难刷得动。
电影这个行业大了,怪事就多。我们把“老子还就不信了,我就要把这个平均分抬高/拉低”动力之下的打分行为统称为“非正常评分”,或者说打分的目的是为了直接干预平均分数。我个人印象里,“非正常评分”大致有四类:注册/收购帐号刷高分的,注册/收购帐号刷低分的(这个我也百思不得其解过),明星粉丝团“进攻豆瓣”的,铁杆用户“捍卫豆瓣评分公正”反水行动的。应该还有别的,比方说行为艺术什么的。
以上听起来吓人,对豆瓣评分的影响其实没那么大,小影响还是短暂和个别的。因为正常打分的人实在太多了,也因为反刷分早已经是豆瓣电影日常工作的一部分,不少同事借助更多的程序一直默默在做。
豆瓣这两年的原则是“所有能判断属于非正常评分的一概不算”,不分高低贵贱。(捍卫评分公正的用户,真的抱歉加感激。但这应该是我们的工作,不是大家的,一时没做好是我们失职)。
当然,实际情况如何,肯定远比我们说的复杂。
这里也就解释了为什么说在豆瓣刷分是没有价值的,因为大概率讲,有组织有纪律的刷分行为,基本上都会被定义为异常数据而被删掉,在这个数据没有达到异常值之前可能会有小范围的波澜,但是,想要做到很大变化,几乎不可能。
2. 如何确保小众电影与大众电影之间的平衡?
这里需要说明的是,极其小众的电影和大众电影的对比其实没有啥价值。一部只有50个人看过的电影,和一部5000万人看过的电影对比好坏的价值其实不太大。
这里的平衡,其实是说,相对热门和相对冷门的电影之间应该如何比较。比如说,一部电影有1万人评分,另一部电影则只有300人评分,这个时候应该如何判断,如何进行排名?
这个评比得出的排名,就是我们常常能够在微博上看到的各种“豆瓣电影排行榜”。
解决这个问题,既需要策略,也需要算法的变化。而整个思考过程中,其实与反作弊的思考方式一样,但是在挖掘数据的过程中不再是定义“异常”,而是定义“正常”。
比如说,一个用户一年评分20次,我们则定义他为豆瓣的一个“忠实”用户,他的评分可信度是较高的。
接着,我们就需要设定一个标准来判断,大概需要多少人投票,我们能将其定义为一个大众电影。比如说,国外的电影评分平台IMDB的标准是,至少有1250人投票,这部电影才有可能入围榜单。
最后,就是需要设计一套算法规则进行计算,判断大众电影和小众电影最后的综合分数。
在这里,豆瓣电影采用的是和IMDB类似的“贝叶斯算法”,具体的计算过程我们截图放在下方,感兴趣的同学可以研究一下。
通过这个算法,能够很好地平衡小众电影与大众电影之间的投票量差距。投票人数越多的电影,最后的得分越接近他的真实分数,投票比较少的电影,则可能会在一定程度上被拉低,让真正广受好评的电影,排到榜首。
总结
看完之后,你可能多少会对豆瓣电影能够成为最“公允”的评分平台有了更深刻的理解。
毕竟,就像我们前面说的,相比于依靠少部分人的判断,依靠规则和真实的数据反馈进行的判断,一定更为真实准确可依赖。
不过,这套规则也决定了,短时间内《爱情公寓》想要“超越”《逐梦演艺圈》是很难实现的。虽然电视剧《爱情公寓》确实抄袭了,也虽然电影《爱情公寓》其实完全名不副实。
所以,如果想要让《爱情公寓》“超越”《逐梦演艺圈》,更好的方法是——
放长线钓大鱼,慢慢地进行刷分,让更多人给《爱情公寓》刷差评,部分给《逐梦演艺圈》刷好评,可能有半年左右的时间,这个成绩能够有逆转。
参考资料:
知乎:豆瓣电影是如何控制影评和刷分的?
阿北:豆瓣电影评分八问
知乎豆瓣电影的分数和排序是怎么算出来的?
阮一峰:基于用户投票的排名算法(六):贝叶斯平均