正确的提示信息
扫码打开虎嗅APP
从思考到创造
打开APP
资讯
视频
前沿科技
车与出行
商业消费
社会文化
金融财经
出海
国际热点
游戏娱乐
健康
书影音
医疗
3C数码
观点
其他
虎嗅视界
24小时
专题/活动
虎嗅智库
登录
极速注册
取消
搜索历史
删除
完成
全部删除
数码
互联网
数码
互联网
热搜词
钟睒睒
本地生活
美团
字节跳动
年轻人
货币
网络暴力
房地产
网红
账号或密码错误
2013-03-07 15:13
技术帖:30%删帖发生在发帖后5到10分钟,新浪微博要养多少小秘书?
虎嗅
新浪微博是中国最大最流行的微博平台,注册用户据说达到了五亿,基本上每个中国网民都注册了一个帐号。不同于西方的Twitter,新浪微博必须承担起审查任务。休斯顿莱斯大学的研究人员收集了数百万帖子,
分析和识别
新浪微博审查员(或者叫微博小秘书)的规模和删贴速度。论文(
PDF
)发表在预印本网站arxiv上。研究人员观察到,
三成的删贴活动发生在发帖后5到10分钟内,九成的删贴发生在24小时内。假设新浪微博的一个审查员平均每分钟能阅读50个帖子,那么扫描每分钟涌入的7万新帖子新浪需要有1400人同时工作,假设他们每天工作8小时,那么需要有4200人才能满足审查需要
。
鉴于微博API的限制,研究人员主要跟踪了最可能会发敏感帖子的敏感用户组。从2012年7月20日到9月8日,研究人员利用API以每分钟一次的频率搜索3500位用户的时间线,以每四秒一次的频率搜索公共时间线。由于新浪微博不支持匿名查询,所以他们利用Tor隐藏IP后创建虚假用户帐号。他们共收集了238万用户时间线帖子,删贴率是12.75%。考虑到新浪需要处理的大数据集规模,发帖后5到10分钟的删贴峰值,尤其是考虑到删贴无法完全用自动方式处理,新浪是如何做到迅速发现和删除敏感帖子?研究人员提出了六个假说:
1.新浪微博有一个监视关键词列表,审查员将会浏览包含这些关键词的帖子决定是否删除。
2.微博有针对性的监视频繁发敏感帖子的用户。
3.在发现一个敏感帖子之后,审查员可以追溯所有相关的转贴,可以一次性的全部删除。
4.通过关键词搜索,微博删除了追溯的帖子导致了特定关键词在短时间内出现删除峰值。
5.审查员工作是分布式的,相对独立,其中部分人可能是兼职。
6.删贴速度与主题有关,根据主题的敏感度删除速度存在差异。研究人员利用自然语言处理技术进行删贴主题分析,发现某些热门主题帖子比另外一些主题更快被删除(如图所示),如群交、北京暴雨死亡人数和司法独立等都在极端时间内删除了。
研究人员总结了微博的过滤机制,其中主动过滤机制包括:显式过滤,微博通知发贴人他们的帖子内容违反了内容政策(但有些时候用户并不清楚到底是因为什么敏感词受阻);隐式过滤,微博需要在手动审查帖子后才会允许帖子上线;伪装发帖成功,其他用户看不到这位用户的帖子。
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:
社会文化
支持一下
赞赏
0人已赞赏
分享至:
0
大 家 都 在 看
新浪微博将是中国UGC社交媒体的唯一赢家?理由有四!
虎嗅
12:54
#数码最前线
你被“偷窥”了?如何保障手机信息安全?
小白测评
自媒体广告系统,新浪微博的自我救赎?
阑夕
新浪微博有戏、且有大戏,只需……
阑夕
调查表明:微博不一定总是能反应公众的观点
虎嗅
7天里86.9%的用户从未撰写一篇原创?新浪微博用户数据背后的秘密
虎嗅
热评之下营销号无所不在,微博终于向评论生态挥刀
界面新闻©
沉默了很久的知网,对AI重拳出击
差评君
微博、头条正在“复制豆瓣”,可行吗?
剁椒Spicy
知乎下线匿名功能,互联网再无隐秘的角落?
豹变
大众苦虚假截图久矣
全媒派©
03:06
#高新技术流
开放显示IP属地,全网翻车?
脑极体
07:42
大数据会怎么找出潜在的新型冠状病毒接触者?
动动枪DongDongGun
01:25
属于你的关键词图谱,是如何生成的?
KnowingAI知智
09:47
#投资大讲堂
25岁,没人告诉你的投资建议
投资人黄海
05:43
#5分钟科普
为什么搜索引擎里的信息越来越少?
柴知道
06:24
如何溯源网络假新闻?
大西岛
05:03
#小红书,从种草到踩坑
小红书为什么控制不了擦边球?
壹览商业
03:42
#高新技术流
你的每一条上网记录,公司都知道?
科技狐
08:04
#内幕大揭秘
IP属地公开后,究竟谁在“裸泳”?
科技狐
大 家 都 在 搜
钟睒睒
本地生活
美团
字节跳动
年轻人
货币
网络暴力
房地产
网红
APP内打开
好的内容,值得赞赏
您的赞赏金额会直接进入作者的虎嗅账号
自定义
支付:
元
匿名赞赏
支付