正确的提示信息
扫码打开虎嗅APP
从思考到创造
打开APP
资讯
视频
前沿科技
车与出行
商业消费
社会文化
金融财经
出海
国际热点
游戏娱乐
健康
书影音
医疗
3C数码
观点
其他
虎嗅视界
24小时
专题活动
妙投APP
虎嗅智库
登录
极速注册
取消
搜索历史
删除
完成
全部删除
数码
互联网
数码
互联网
热搜词
加息
美国经济
关税
美联储
欧盟
车企
阿里巴巴
商超
城投
账号或密码错误
2012-12-27 21:47
大数据时代的好地图
潘乱
《大数据时代》是一本真正懂大数据的人写的实实在在的关于大数据方方面面的书。
我拿到这本书的当晚,只看了引言部分,就迫不及待在豆瓣上标记了在读。因为又感受那种真正的行家出手时才会有的,厚积薄发高屋建瓴势如破竹的快感。我当时便下断言,这本书已经秒杀所有同题。等到第二天我将这本书看完,觉得我前一晚的判断还是正确的。这本书条理分明、详略得当、引述丰富,把大数据梳理得无比清晰,解决了很多困惑我已久的问题,至少要比那些以其昏昏使人昭昭的所谓专家学者好五倍。
大数据是2012年TMT圈最时髦概念的排头兵。今年3月腾讯推出QQ圈子,按共同好友的连锁反应摊开你的人际关系网,把你的前女友推荐给未婚妻,让人震惊之余,也会感慨这是腾讯多年数据积累的厚积薄发;手机游戏愤怒的小鸟年中曾透露其每天用户登录超过140万次,运营商Rovio每发布一个新的应用,都会立即改变流量,虽然这个量级跟国内的新浪微博和铁道部12306相比还差很远,但光从“体积”看这也算是个大数据了;今年11月奥巴马大选连任成功的胜利果实也被归功于大数据,因为他的竞选团队进行了大规模与深入的数据挖掘。时代杂志更是断言,依靠直觉与经验进行决策的优势急剧下降,在政治领域,大数据的时代已经到来;各色媒体、论坛、专家铺天盖地的宣传让人们对大数据时代的来临兴奋不已,无数公司和创业者都纷纷跳进了这个狂欢队伍。几乎每天都能看到有人在谈论大数据,大数据好像成了可以把任何东西都往里面装的框。尽管我们都知道大数据绝不会仅仅只是“大”而已,但真正能说清楚大数据是什么的人却不多。
在这大数据时代来临的前夜,这本书的作者,野心勃勃的舍恩伯格将这个问题说清楚了。他不断下定义举例子,试图给大数据划定疆域与边界,从思维、商业、管理三个维度分析大数据可能给人类带来的变革和挑战。他还指出大数据时代处理数据理念上的三大转变:
“不要随机样本,而是全体数据”“不是精确性,而是混杂性”“不是因果关系,而是相关关系”。
作者认为包括文字、方位、沟通等一切事物皆可量化,这些数据的价值在被发掘后仍能不断给予,并厘清了在挖掘过程中数据、技术和思维三类玩家的角色定位。同是大数据行家的译者周涛认为这本书好在三个地方:观点掷地有声、观念高屋建瓴、例子丰富详实。而这三者近乎完美地结合起来,作者驾驭大问题的能力和丰富的知识令人赞叹。
抽样分析是信息收集手段不完善时代的产物,它或许能更快更好地发现问题,但却不能回答事先没考虑过的问题。书中举了大数据与乔布斯癌症治疗的故事,乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人,他得到的不是样本,而是包括整个基因的数据文档。由于医生可以按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。
大数据时代的另一理念是要效率而非绝对准确,要允许一点点的错误和不完美。谷歌2006年涉足机器翻译,谷歌翻译系统为了训练计算机,会吸收它所能找到的全部翻译。谷歌将语言视为能够判别可能性的数据,而非语言本身。假设你要将中文译作俄语,它可能会选择英语作为中介语言,因为在翻译的时候它能够适当增减词汇,灵活性提高了很多。
关于大数据最早最著名的例子可能来自美国第二大超市塔吉特百货。明尼苏达州一家塔吉特门店曾被客户投诉,一位中年男子指控塔吉特将婴儿产品优惠券寄给他的女儿——一个高中生。但没多久他却来电道歉,因为女儿经他逼问后坦承自己真的怀孕了。塔吉特百货就是靠着分析用户所有的购物数据,然后通过相关关系分析得出事情的真实状况。
随着大数据的出现,数据的价值也在发生改变。所有网民都会被网站要求过填写证明你是人而非机器的验证码,这项名为“CAPTCHA”的技术在2000年被发明时是为了防止垃圾邮件和不必要的骚扰,后来发明者又寻找到了使人的计算能力得到更有效利用的方法,发送两个单词,其中一个单词用来确认输入结果,另外一个机器无法识别的字符则随机发送给五个人,直到他们都输入正确才确认这个单词。这也是我们有时明明输错了最终也能登陆的原因。2009年谷歌收购了这家做验证码公司reCAPTCHA,并将其技术用于图书扫描项目,自此全世界的网民都沦为谷歌的免费打字员。。(谷歌太贱了!)因为众包的力量,这项技术每年能为谷歌省下十多亿美元。
作者最后提到,如果数据不能为我所用,那我们将会沦为数据的奴隶。要防止这种失控局面的出现,至少需要我们在管理层面做出四种变革:1、将个人隐私保护从个人许可到由数据使用者承担责任;2、个人该为其行为而非倾向负责;3、不能让大数据成为黑匣子,它需要雇佣外部监察人来维护公众信任;4、反数据垄断大亨。
如果一个人独自到了陌生城市,第一件事最好就是买张地图。一张好的地图可以让我们知道整体、方向、位置、重要特点以及我们的起点、终点、中间的路径,照着地图走才不易将自己迷失。如果你对大数据概念理解得还不是十分清晰,那么这本《大数据时代》就是你的好地图。
本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:
前沿科技
支持一下
赞赏
0人已赞赏
分享至:
0
大 家 都 在 看
堪比智商、情商、逆商的一种顶级能力
混沌学园
15:28
#AI有多智能
AI迎来觉醒时刻,中国遭遇最严峻的封锁
酷玩实验室coollabs
ChatGPT们能讲人话后,AI污染互联网将变本加厉
AppSo
搜索大数据:商业世界的“上帝视角”
Alter
数字围墙下的生存法则
INDIGO 的数字镜像©
16:30
这个世界正变得更加真实,还是更多偏见?
造就Talk
2万字长文:谁来颠覆ChatGPT?
险峰K2VC
我对OpenAI,知之甚少
刘润©
流量为王?编辑部的“数字权力”争夺战
普林斯顿读书汇©
疯狂污染互联网,人类比AI擅长多了
爱范儿
当ChatGPT被广泛使用,有哪些值得我们警惕的风险?
界面新闻©
得罪了一个GPT后,我被所有大模型集体“拉黑”
极客公园
08:45
错误、偏差、歧视……算法偏见,不就是人性的偏见吗?
造就Talk
14:21
#AI有多智能
人类还管得了人工智能吗?
虎学研究
01:21:14
#AI有多智能
ChatGPT和OpenAI,通用AI的第一个里程碑
潘乱
08:37
#AI有多智能
ChatGPT引爆全球,什么职业会被先淘汰?
奇点Video
08:11
#5分钟科普
“上古神器”Excel,都给打工人们整出过什么大活?
量子位
09:14
#睁眼看世界
GPT还没吊打苹果,为什么创始人就先被开除了?
陆家嘴养基指北
12:58
#高新技术流
专业解读MOSS和ChatGPT精髓,精妙设定细思极恐
极客队长GeekLead
05:47
#AI有多智能
圣经,居然可能是AI创作的?
量子位
大 家 都 在 搜
加息
美国经济
关税
美联储
欧盟
车企
阿里巴巴
商超
城投
APP内打开
好的内容,值得赞赏
您的赞赏金额会直接进入作者的虎嗅账号
自定义
支付:
元
匿名赞赏
支付