正确的提示信息
扫码打开虎嗅APP
从思考到创造
打开APP
资讯
视频
前沿科技
车与出行
商业消费
社会文化
金融财经
出海
国际热点
游戏娱乐
健康
书影音
医疗
3C数码
观点
其他
榜单
虎嗅视界
24小时
妙投APP
虎嗅智库
登录
极速注册
取消
搜索历史
删除
完成
全部删除
数码
互联网
数码
互联网
热搜词
消费
护肤品
高档商圈
餐饮业
应届生
新加坡
大学
google
广告
账号或密码错误
2013-03-07 15:13
技术帖:30%删帖发生在发帖后5到10分钟,新浪微博要养多少小秘书?
虎嗅
新浪微博是中国最大最流行的微博平台,注册用户据说达到了五亿,基本上每个中国网民都注册了一个帐号。不同于西方的Twitter,新浪微博必须承担起审查任务。休斯顿莱斯大学的研究人员收集了数百万帖子,
分析和识别
新浪微博审查员(或者叫微博小秘书)的规模和删贴速度。论文(
PDF
)发表在预印本网站arxiv上。研究人员观察到,
三成的删贴活动发生在发帖后5到10分钟内,九成的删贴发生在24小时内。假设新浪微博的一个审查员平均每分钟能阅读50个帖子,那么扫描每分钟涌入的7万新帖子新浪需要有1400人同时工作,假设他们每天工作8小时,那么需要有4200人才能满足审查需要
。
鉴于微博API的限制,研究人员主要跟踪了最可能会发敏感帖子的敏感用户组。从2012年7月20日到9月8日,研究人员利用API以每分钟一次的频率搜索3500位用户的时间线,以每四秒一次的频率搜索公共时间线。由于新浪微博不支持匿名查询,所以他们利用Tor隐藏IP后创建虚假用户帐号。他们共收集了238万用户时间线帖子,删贴率是12.75%。考虑到新浪需要处理的大数据集规模,发帖后5到10分钟的删贴峰值,尤其是考虑到删贴无法完全用自动方式处理,新浪是如何做到迅速发现和删除敏感帖子?研究人员提出了六个假说:
1.新浪微博有一个监视关键词列表,审查员将会浏览包含这些关键词的帖子决定是否删除。
2.微博有针对性的监视频繁发敏感帖子的用户。
3.在发现一个敏感帖子之后,审查员可以追溯所有相关的转贴,可以一次性的全部删除。
4.通过关键词搜索,微博删除了追溯的帖子导致了特定关键词在短时间内出现删除峰值。
5.审查员工作是分布式的,相对独立,其中部分人可能是兼职。
6.删贴速度与主题有关,根据主题的敏感度删除速度存在差异。研究人员利用自然语言处理技术进行删贴主题分析,发现某些热门主题帖子比另外一些主题更快被删除(如图所示),如群交、北京暴雨死亡人数和司法独立等都在极端时间内删除了。
研究人员总结了微博的过滤机制,其中主动过滤机制包括:显式过滤,微博通知发贴人他们的帖子内容违反了内容政策(但有些时候用户并不清楚到底是因为什么敏感词受阻);隐式过滤,微博需要在手动审查帖子后才会允许帖子上线;伪装发帖成功,其他用户看不到这位用户的帖子。
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:
社会文化
支持一下
赞赏
0人已赞赏
分享至:
0
大 家 都 在 看
新浪微博将是中国UGC社交媒体的唯一赢家?理由有四!
虎嗅
12:54
#数码最前线
你被“偷窥”了?如何保障手机信息安全?
小白测评
自媒体广告系统,新浪微博的自我救赎?
阑夕
新浪微博有戏、且有大戏,只需……
阑夕
调查表明:微博不一定总是能反应公众的观点
虎嗅
7天里86.9%的用户从未撰写一篇原创?新浪微博用户数据背后的秘密
虎嗅
热评之下营销号无所不在,微博终于向评论生态挥刀
界面新闻©
微博、头条正在“复制豆瓣”,可行吗?
剁椒Spicy
知乎下线匿名功能,互联网再无隐秘的角落?
豹变
大众苦虚假截图久矣
全媒派©
全球社交媒体大转型
波动刻度©
03:06
#高新技术流
开放显示IP属地,全网翻车?
脑极体
07:42
大数据会怎么找出潜在的新型冠状病毒接触者?
动动枪DongDongGun
01:25
属于你的关键词图谱,是如何生成的?
KnowingAI知智
09:47
#投资大讲堂
25岁,没人告诉你的投资建议
投资人黄海
05:43
#5分钟科普
为什么搜索引擎里的信息越来越少?
柴知道
06:24
如何溯源网络假新闻?
大西岛
05:03
#小红书,从种草到踩坑
小红书为什么控制不了擦边球?
壹览商业
03:42
#高新技术流
你的每一条上网记录,公司都知道?
科技狐
08:04
#内幕大揭秘
IP属地公开后,究竟谁在“裸泳”?
科技狐
大 家 都 在 搜
消费
护肤品
高档商圈
餐饮业
应届生
新加坡
大学
google
广告
APP内打开
好的内容,值得赞赏
您的赞赏金额会直接进入作者的虎嗅账号
自定义
支付:
元
匿名赞赏
支付