正确的提示信息
扫码打开虎嗅APP
从思考到创造
打开APP
资讯
视频
前沿科技
车与出行
商业消费
社会文化
金融财经
出海
国际热点
游戏娱乐
健康
书影音
医疗
3C数码
观点
其他
虎嗅视界
24小时
专题/活动
虎嗅智库
登录
极速注册
取消
搜索历史
删除
完成
全部删除
数码
互联网
数码
互联网
热搜词
钟睒睒
字节跳动
短视频
本地生活
美团
货币
抖音
网络暴力
房地产
账号或密码错误
2012-09-25 09:29
迪士尼如何从零开始打造大数据平台
翻来翻去
原文来源:
Gigaom
由
CSDN
王鹏 编译
毋庸置疑,迪士尼是一个巨大的娱乐公司,但是当它涉及到大数据平台,这位娱乐巨头看起来更像是一个初创公司。很多小公司,依靠坚强的意志和不凡的智慧,凭借一个小小的团队,使用Hadoop、NoSQL数据库和其他开源技术,完全能够创造出一个特有的大数据平台。无论结果是更好或者更坏,这样的大公司在进军大数据领域,意味着这是一种完全不同规则的“玩法”。
迪斯尼大数据技术和服务解决方案团队的负责人Arun Jacob,在上周四的波士顿的IE集团大数据创新峰会上,介绍了迪斯尼的大数据平台。不像其他的公司,迪斯尼选择打造大数据平台是从零开始自主打造,而非从一个软件供应商那里购买软件。尽管购买成本高昂是一个很重要的因素,但最关键的还是灵活性的问题,这才是作出最终决定的根本原因。
减量化,重复利用,再循环
为了保证给公司带来最大的价值,迪士尼大数据平台,凝结了每个员工的心血,它是每个人的一切,这是一项艰巨的任务。最初的时候,Jacob表示,“我们把我们自己当做是一个小型的咨询机构,仅仅是我们有东西要卖。”不过当一个部门想要使用该平台开发一个特定功能的时候,Jacob立刻行动了起来。
从架构上来说,通过这个平台和具有特定目的的组件,它能够对路径数据进行重构,或者说能够非常容易地替换组件,如果有更好的话。迪士尼大数据平台是基于Hadoop,Cassandra和MongoDB进行开发的。运营团队可以使用该平台来进行查看、分析和索引的错误消息,应用程序开发人员可以得到他们需要的高吞吐量,低延迟的数据访问,而分析团队有他们需要的高延迟数据的访问。
然而,尽管Jacob也想使用一套开源软件来降低成本,他确实有资本可以奢侈一下,这是大多数创业公司玩不起的——外包和不定期的新产品的预算。当他需要Hadoop集群的支持,他完全可以打电话给Cloudera。当需要部署Solandra(基于Solr和Cassandra的一个开放的源代码搜索引擎),他完全可以购买的企业版的DataStax基于Cassandra的产品,但是他没有这么做。
灵活性是不是免费的
Solandra的事件,实际上是为了权衡是不是需要使用免费的开源软件。“你可以为开源项目工作到深夜,你可以通过学习来运行它们,但是这没有任何任何意义。”Jacob表示,如果你愿意投入时间和精力,这些东西是完全可以克服的。
然而迪士尼这种规模的公司,有更多的问题必须要被克服。Jacob表示,在部署的过程中,虽然可以按自己的方式来解决容错、高可用性和安全性的问题,但是最终还是需要找出一种方式来实现这些东西。
适合大众的才是最好的
虽然可以把系统建立在所有的人都能够使用的开源软件上,不过这也意味着没有一个足够的框架来构建一个可扩展的和稳定的系统,而且该系统还必须满足成千上万的各种类型和各种水平的内部开发人员的需求。Jacob表示,对一个拥有六个人的创业公司来说,大家学习Hadoop的一个月,然后开始使用它进行部署大数据平台,这是非常容易实现的。但是对于一个大企业来说,这绝对是不可行的。
他的团队让部署变得容易
为了消除企业用户不能加载他们的数据到系统中的借口,他们只需要把文件以指向用户定制的界面。Jacob表示,迪士尼的数据平台,虽然以每天5TB的数据剧增,但是仍然有很多其他类型的数据需要存储。因为他们已经对技术进行了封装,Jacob的团队并没有谈及过多关于Hadoop和MongoDB的问题,仅仅是提及了分析和查询的部分。数据平台使用很多种的编程语言来构建客户端的框架结构,所以开发者可以跟平台进行交互,就无需编写REST风格的API调用。
不过,在做足了所有的准备工作之后,Jacob开始把精力投入在迪士尼的大数据平台之上,Jacob不希望这是一个其他数据平台过程的重复。随着大数据管理的工具也越来越好,Jacob表示,他现在依然在分析,是构建一个新的工具还购买一个工具,目前还有时间来做出改变。当没有选择余地的时候,构建一个自定义工具固然是一个不错的选择,但它并不总是明智的做法,而购买现成的东西可以节约无数的时间和精力。
大数据在迪斯尼扮演的角色:
数据管理平台:
数据管理平台目标:
收集,搜索,分析应用数据:
使用案例的演化:
推荐引擎:
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:
前沿科技
支持一下
赞赏
0人已赞赏
分享至:
1
大 家 都 在 看
LinkedIn单向关注:数据挖掘与内容建设
产品+
27:16
#AI有多智能
与Tapdata论道数据技术开放生态
大咖说小编
商业巨头是怎么玩转大数据的?
产品+
小扎力挺AI开源和生态背后,藏着怎样的野心?
四木相对论
黄仁勋:英伟达的 AI 算力,“一折”出售
极客公园
硅谷的“数据中台”实践
极客邦科技InfoQ
把Excel搬到云上,做不成一门大生意
新眸
访谈近百位从业者,一文读懂关于大模型世界的5个现状
极客公园
万字拆解Meta“开源”战略:理解谷歌、成为谷歌
极客公园
创业公司如何不沦为OpenAI“死侍军团”:训练小众数据,服务特定用户
宇婷DayDayUp
搞中国版ChatGPT,我们给“王慧文们”指条明路
自象限
07:13
#AI有多智能
万物皆可生成式AI,风口还是噱头?
量子位
16:49
#大公司情报站
企业,如何抓住开源数据库的红利?
大咖说小编
34:18
#电商来了
电商业务与数据库技术发展的双向奔赴
大咖说小编
13:28
#AI有多智能
人工智能独角兽,就是不爱讲人话
宇多田
12:52
#Web3.0完全手册
Web3.0如何真正地实现去中心化存储?
纳斯赛博伯
04:07
#AI有多智能
中国大模型为什么更关注产业?
脑极体
27:05
#AI有多智能
对话百度李彦宏:开源模型是智商税,AI Agent正在爆发
硅谷101
25:57
#大佬访谈
对话联蔚数科CTO侯炜康:如何做好一个业务中台?
大咖说小编
25:27
#AI有多智能
越来越卷的人工智能,未来发展方向究竟在哪儿?
老石谈芯
大 家 都 在 搜
钟睒睒
字节跳动
短视频
本地生活
美团
货币
抖音
网络暴力
房地产
APP内打开
好的内容,值得赞赏
您的赞赏金额会直接进入作者的虎嗅账号
自定义
支付:
元
匿名赞赏
支付