正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2012-05-14 09:49

大数据很贵有没有!很多垃圾有没有!别被忽悠了!

IT业的宣传机器让人们对大数据时代的来临兴奋不已,无数个人和企业纷纷加入了这个狂欢队伍中。通过帮助众多企业在数据里掘金,分析师们日进斗金。企业家们也开始认为:海量的数据对企业至关重要。
关于最近正火热的大数据概念,Actian公司总经理Fred Gallagher发表了一些很有新意的观点。下面是虎嗅网为您提供的译文。


越多并不代表越好
这个争论最先是围绕着Hadoop展开的。Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。Hadoop是开源的。但它并不便宜。而且,除了那个大象LOGO外,它也不是很友好。但对那些高存货量的供应商来说,Hadoop和大数据的结合却像是通往成功市场的梦幻入场券。
所以很多人开始小心翼翼的保留企业产生的每一小片数据,然后找来很多外源数据。但在做这些之前,是否应该将注意力集中到已有的数据上面? 我们真正的目标应该是让人们更好的利用已存在的数据,而不是将一些相关性和准确性尚待考证的数据加入到数据库中。如果你没有做到上面所说的事的话,还是从大数据的狂欢队伍中脱离出来吧。否则,你就是白白喂了“大象”了。
对大数据时代的鼓吹,充满了“越多就是越好”的暗示。可是,不要轻易买账!引入大数据模式,意味着高昂的投资、复杂的计算系统、具备特殊技能的人才,还有更糟糕的——漫长的部署和架构以及最终并不如何惊艳的表现。

没有人需要更多的废弃数据
也许那些大型企业、政府部分确实需要大数据。但剩下的人呢?大数据确实是有一定用处的,但请先问问自己是否已经充分挖掘了企业已有数据的价值?如果没有,你也不必沮丧。根据 Freeform Dynamics的报告,只有15%的企业自认他们充分利用了自有数据的价值。数据仓库之父——比尔·恩门(Bill Inmon)声称:仓库中95%的数据是处于废弃状态的。所以,往仓库里按TB甚至PB为单位填充数据是否真的有用呢?它们中又有多少会变成废弃的数据?企业需要的是活的能创造价值的数据。如果到现在为止你还算认同本文观点,那你可有想过怎么才能做到这些吗?

“大”数据,先从“小”做起
首先,好好盘点一下你已经拥有的资源:不仅仅是数据,还有知识和技能。选择一个能够发挥你现有资源最大价值的项目。如果你需要帮手,先考虑商业顾问,再考虑技术人才。为了解答一个生意上的困惑花下的钱,叫作投资,而把钱投到一个拥有特殊技能的IT人才身上,那就叫沉没成本。
第二,选择更灵活且可扩展的工具,为以后的扩充打好基础。更重要的是——从小规模做起。只要不是面对世上最庞大的数据的考验,这些应该就够了。这种解决方案用不着太专业,只需要能够让经理人指挥一些工程师获得想要的数据挖掘结果就行了。
分析引擎在行业标准的服务器上运行即可。不必花费大力气建设分析型数据库,因为对海量数据的存档归类是不经济的。一个简单实用,能够兼容不同数据来源格式的数据库就能完成所需的任务。
最终,要认识到数据挖掘是个水磨工夫。不要突然对海量的数据抛出一个问题,并期望它能回答你。应该在平时,通过一些循环的语句,不间断的对数据进行挖掘,增加对数据的了解。
也许有一天,大数据分析会成为企业必备技能。但那一天还远远未曾到来。当那些供应商花了上百万美元布局大数据分析时,你可以放心,你并没有错过什么。而且你的钱花到了更需要的地方,获得了更多的效率和价值。

进化论告诉我们,越小、越灵活的物种,最终更可能进化为更优秀的存在。希望你能从这里获得启示。
本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: