正确的提示信息
扫码打开虎嗅APP
从思考到创造
打开APP
资讯
视频
前沿科技
车与出行
商业消费
社会文化
金融财经
出海
国际热点
游戏娱乐
健康
书影音
医疗
3C数码
观点
其他
榜单
虎嗅视界
24小时
妙投APP
虎嗅智库
登录
极速注册
取消
搜索历史
删除
完成
全部删除
数码
互联网
数码
互联网
热搜词
百度
摩托车
特斯拉
李显龙
女性主义
杀猪盘
粤港澳大湾区
消费
地铁
账号或密码错误
2014-08-21 19:25
译见:大数据科学家,听起来好听,干的是“搬砖”的活儿
虎嗅
(原文来自
The New York Times
,虎嗅实习生
苇岑
编译)
“大数据”这个流行词包含了各类丰富的数码数据,从网络、感应器,到手机、电脑。用智能软件来挖掘这些数据,可以得到许多发现。它使得各领域的数据导向决策过程成为可能。这也是数据科学家成为热门职业的原因。但你知道数据科学家平时都做些什么吗?
整理数据
事实上,数据科学家们百分之五十到八十的时间都在埋头整理无序的数据,直到它们能被用于挖掘,即所谓的“Data Mining”。这些精细而繁琐的工作,完全不像想象中那么信手拈来。这是因为我们正身处于大数据的现代蛮荒之中,数据从收集到可用,还需要某种程度的开垦。
Timothy Weaver是德尔蒙食品公司的CIO(信息主管),他指出了大数据的“数据噪音”(data wrangling)中存在的“冰山效应”(iceberg)。人们只看到结果,却没有看到结果背后的大量劳动。
不过,这也是一个问题与机会共生的问题。一些创业公司正在尝试通过开发自动收集、清理和管理数据的软件,来突破大数据的这种瓶颈。
在未来,会有越来越多的数据来源能够用于揭示一家公司的运营情况。比如在食品产业,能够获取的数据有产量、产地和运输、天气、零售数据和社交网络评论。我们测量的是这些数据在情感和需求上的变化信号。结果是,我们能够比以往更加具象化地看到运营的每一个步骤,能够开始量身定制生产计划和存货。
然而在集合不同类别数据的过程中,也会产生问题。传感器、文件、网络和传统数据库的数据存在不同的格式,必须把它们清理并转换成统一格式,才能加入算法。
人类语言
数据格式只是一个问题,另一个挑战是人类语言的模糊性。Iodine是一家健康创业公司,它为顾客提供药品的副作用和交互作用信息。但对于相同的副作用,食品药品管理局使用的术语往往有细微差别。“困倦”,“嗜睡”和“瞌睡”同时使用。人类能够识别这些同义词,但软件算法必须通过编程才能获得这种解读能力。这种蛋疼的工作在数据项目中需要不断地重复。
数据专家试图自动化这个过程中的每一步。“然而操作上,由于数据的复杂性,你得当好长一段时间的数据看门人,才能得到迷人的结果。” 数据科学家兼Iodine创始人Matt Mohebbi说。
数据软件能够做到的不仅仅是节约科学家们的时间,它同时也可能成为大数据计算普及化的功臣。
历史规律表明,一项新技术产生之初只被少数精英所掌握。然而随着时间推移,技术进步和投资增加,工具越来越强大,相关经济发展,商业运作开始适应,技术最终融入主流。在大数据时代,这条定律依然有用。
硅谷数据科学的CTO,John Akred看到了现代数据世界发展与技术发展的相似之处。他说,“我们见证着革命的起源,它致力于使更大的人群获得解决数据问题的能力。”
加州帕罗奥图市的一家初创企业ClearStory Data致力于开发识别、集合各种数据资源并通过表格和图表、数据地图来可视化结果的软件。它的目标就是通过软件来开发更大的用户市场。
一个可视化报告通常包括六到八个数据源。比如一个提供给零售商的报告,可能包括扫描的销售点数据、天气预报、网站浏览量、竞争对手的定价数据、智能手机软件访问量和停车场车流量的视频监控。而这些数据如果手动整理,请多少人手也不一定够。
算法仍旧没有替代手工劳动
尽管如此,数据科学家们强调,手工劳动在数据准备中仍是必不可少的。“开始的时候你为了一个特定目标准备数据,但没过多久就发现了一些新东西,你的目标也会随之改变。”哥伦比亚新闻研究生院的一位数据科学家Cathy O’Neil说。
但毫无疑问的是,在减轻数据统计压力方面,科学家们需要好好磨一磨他们的刀剑了。毕竟,工欲善其事,必先利其器嘛。
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:
前沿科技
支持一下
赞赏
0人已赞赏
分享至:
0
大 家 都 在 看
谷歌大模型一出闹剧,揭开中文数据荒
IT时报
16:30
这个世界正变得更加真实,还是更多偏见?
造就Talk
黄仁勋:英伟达的 AI 算力,“一折”出售
极客公园
OpenAI,困于数据短缺
乌鸦智能说
“耗尽”人类语言:ChatGPT还有多少数据可用?
未尽研究©
搞中国版ChatGPT,我们给“王慧文们”指条明路
自象限
大数据已死?
AI前线
怎样让你的数据分享更有价值?
NaturePortfolio©
人类数据要被OpenAI用完了,然后呢?
极客公园
一文读懂:数据的五个特征、三道难题
腾讯研究院
号称超越GPT-4的大模型们,有多少靠的是“抄袭”
AppSo
25:27
#AI有多智能
越来越卷的人工智能,未来发展方向究竟在哪儿?
老石谈芯
10:14
最性感的数据行业到底是做什么的?
小Lin说
07:42
大数据会怎么找出潜在的新型冠状病毒接触者?
动动枪DongDongGun
07:13
#AI有多智能
万物皆可生成式AI,风口还是噱头?
量子位
05:53
淘宝有这么多数据,为什么“猜你喜欢”还是打动不了你
造就Talk
13:10
#AI有多智能
2023年科技界热度之王:AI大模型的崛起与影响
万大叔
15:28
#AI有多智能
AI迎来觉醒时刻,中国遭遇最严峻的封锁
酷玩实验室coollabs
47:13
#AI有多智能
AI的价值探索:如何拓展商业边界?
大咖说小编
01:22:16
#内幕大揭秘
数据服务公司,怎么从一到十?
潘乱
大 家 都 在 搜
百度
摩托车
特斯拉
李显龙
女性主义
杀猪盘
粤港澳大湾区
消费
地铁
APP内打开
好的内容,值得赞赏
您的赞赏金额会直接进入作者的虎嗅账号
自定义
支付:
元
匿名赞赏
支付