正确的提示信息
扫码打开虎嗅APP
从思考到创造
打开APP
资讯
视频
车与出行
年轻一代
十亿消费者
前沿科技
财经
娱乐淘金
医疗健康
文化教育
出海
金融地产
企业服务
创业维艰
社交通讯
全球热点
生活腔调
榜单
虎嗅视界
24小时
活动
妙投APP
虎嗅智库
登录
极速注册
取消
搜索历史
删除
完成
全部删除
数码
互联网
数码
互联网
热搜词
马斯克
新能源汽车
电动汽车
生活
广告
抖音
造车
余承东
出境游
账号或密码错误
2013-04-17 09:29
也谈数据分析这点事
郭昂
昨天看到了caoz写的《
数据分析这点事
》,非常值得深度,看完后很有感触,也在这里随便写写关于数据分析的个人看法。
首先,在数据分析中我也不敢妄称高手,不会很多分析算法,不会用啥统计工具,只会傻傻的去盯着看。但是我非常喜欢看各种数据,大学时整天看各种硬件评测;研究生阶段看了无数相机、镜头评测;后来是每周琢磨全世界各种游戏机、游戏的销量。工作中也特别喜欢建立各种统计系统,看各种数据,现在公司的所有统计代码都是我自己写的,一般工作每天也会花接近30%的时间研究数据,至少可以算是个不折不扣的数据分析爱好者了。
关于数据分析,caoz已经说的非常好了,我也只能补充一下自己的经验感受了。
1、不管做统计还是看别人的数据,第一步永远是数据获取的可靠性。假如是采样数据的话,一定要看看采样方式,看看可能会存在什么样的误差。如果是自己数据的话,也要看看数据获取本身是否科学,例如统计用户行为一般都用js回调,如果还用apache日志来做统计,结果想来也不会靠谱。
2、获取到数据之后,肯定是需要建立统计,这时候,需要想想,建立什么样的统计信息才能更好的分析产品及用户的特性。很多时候,往往单一特征已经很难去描述,需要综合很多地方来看。例如网页搜索中,往往要看首条CTR、前三条CTR,末次点击等多种因素,并通过很多种不同因素结合做出分析和判断。
3、对数据要抱有怀疑之心,尤其是数据本身与你要达到的结论之间有没有必然的因果关系。举个例子,网页搜索结果如果CTR高一定就是体验好吗?搜索广告的RPM高就一定理想吗?
4、生成同一个数据,往往可以有不同的统计方法,如果选择错误的话,结论往往会大相径庭。例如想分析网站对搜索引擎的依赖性,究竟应该用PV,用Session,还是用UV做统计呢?如果一个用户一天访问多次,某些是来自搜索引擎,某些是主动访问,该如何计算呢?这里面还是有很深的学问。
5、数据中往往会有很多噪声,怎么将这些噪声过滤也很重要。就像投票有投票机,有些spider会执行你的统计js,有些用户会误点,如果没有很好的过滤和处理,会使数据的可靠性大打折扣。
6、理解各种可能会使数据产生波动的原因,并通过不断的分析、验证和排除找到真正原因。例如当发生搜索流量下降,有可能有很多种原因,例如机房网络出故障、竞争对手用某些产品捣乱、上线的代码存在重大不稳定因素、运营商出故障或者拉闸限电等等,这中间每个都有不同的验证方式,需要从服务器日志、基调数据、分区域、用户行为等多个维度去进行跟踪和试验,找到真正可能的核心原因。
对数据进行预估和判断需要一种感觉,这种感觉不是天生的,而需要不断的锻炼和培养。这个过程可能很漫长,一般情况下,需要先看很多数据,培养自己对数据的基本认识,也要分析一些事件中(如周末、节假日、或者故障等)数据的变化。而在产品上线前,先自己锻炼一下预估,然后再通过实际值对自己的预判进行验证和评估。通过这种不断的学习和分析,逐渐培养出自己对数据的领悟。
数据来源于用户,这个很多时候更是需要对人性的研究和分析。就像摆在页面不同位置的广告,CTR一般能达到多少?同样位置,摆广告好还是摆用户产品好?要做某个新产品,CTR能到多少?做互联网的大多是高端用户,很多东西自己是不会用不会点的,但正是这样,需要对用户有非常强的代入感,去换位思考,去分析人性,才能事先避免很多过于乐观的预估,以及无谓的试错。
以上,是自己的一点经验之谈。
欢迎关注微信公众号《搜索引擎探秘》,搜索微信公众号guoang_search
本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
支持一下
赞赏
0人已赞赏
分享至:
1
大 家 都 在 看
技术架构如何抓大放小
caoz的梦呓
16:30
这个世界正变得更加真实,还是更多偏见?
造就Talk
数据分析的工作目标是什么
caoz的梦呓
字节跳动副总裁:A/B测试非万能,“抖音”只排第二
杨震原©
大数据已死?
AI前线
号称超越GPT-4的大模型们,有多少靠的是“抄袭”
AppSo
如果我在OpenAI训练GPT-4
安迪的写作时间©
只有我一个人对ChatGPT感到焦虑吗?
李rumor©
ChatGPT也涨不动了
深燃
谈谈验证能力
caoz的梦呓
07:42
大数据会怎么找出潜在的新型冠状病毒接触者?
动动枪DongDongGun
Gemini自曝自己是文心一言,全球大模型陷入高质量数据荒?
新智元
10:14
最性感的数据行业到底是做什么的?
小Lin说
20:23
#这才是正解!
前阿里副总裁:电商时代,谁动了你的钱包?
大佬日志
08:04
#AI有多智能
只知道GPT?盘点13个王炸金融AI工具
毯叔盘钱
10:20
#AI有多智能
教你如何对抗算法,大数据时代的硬核生存指南
图灵的猫
47:13
#AI有多智能
AI的价值探索:如何拓展商业边界?
大咖说小编
05:53
淘宝有这么多数据,为什么“猜你喜欢”还是打动不了你
造就Talk
07:49
#内幕大揭秘
算法是如何一步一步榨干你钱包的?
新熵
12:10
#投资大讲堂
投资分析师如何筛选资讯?
很帅的投资客
大 家 都 在 搜
马斯克
新能源汽车
电动汽车
生活
广告
抖音
造车
余承东
出境游
APP内打开
好的内容,值得赞赏
您的赞赏金额会直接进入作者的虎嗅账号
自定义
支付:
元
匿名赞赏
支付