正确的提示信息
扫码打开虎嗅APP
从思考到创造
打开APP
资讯
视频
前沿科技
车与出行
商业消费
社会文化
金融财经
出海
国际热点
游戏娱乐
健康
书影音
医疗
3C数码
观点
其他
虎嗅视界
24小时
专题/活动
虎嗅智库
登录
极速注册
取消
搜索历史
删除
完成
全部删除
数码
互联网
数码
互联网
热搜词
OpenAI
AI
俄乌冲突
奢侈品
婚纱
投资
创投
贫困
科技创新
账号或密码错误
2014-08-21 19:25
译见:大数据科学家,听起来好听,干的是“搬砖”的活儿
虎嗅
(原文来自
The New York Times
,虎嗅实习生
苇岑
编译)
“大数据”这个流行词包含了各类丰富的数码数据,从网络、感应器,到手机、电脑。用智能软件来挖掘这些数据,可以得到许多发现。它使得各领域的数据导向决策过程成为可能。这也是数据科学家成为热门职业的原因。但你知道数据科学家平时都做些什么吗?
整理数据
事实上,数据科学家们百分之五十到八十的时间都在埋头整理无序的数据,直到它们能被用于挖掘,即所谓的“Data Mining”。这些精细而繁琐的工作,完全不像想象中那么信手拈来。这是因为我们正身处于大数据的现代蛮荒之中,数据从收集到可用,还需要某种程度的开垦。
Timothy Weaver是德尔蒙食品公司的CIO(信息主管),他指出了大数据的“数据噪音”(data wrangling)中存在的“冰山效应”(iceberg)。人们只看到结果,却没有看到结果背后的大量劳动。
不过,这也是一个问题与机会共生的问题。一些创业公司正在尝试通过开发自动收集、清理和管理数据的软件,来突破大数据的这种瓶颈。
在未来,会有越来越多的数据来源能够用于揭示一家公司的运营情况。比如在食品产业,能够获取的数据有产量、产地和运输、天气、零售数据和社交网络评论。我们测量的是这些数据在情感和需求上的变化信号。结果是,我们能够比以往更加具象化地看到运营的每一个步骤,能够开始量身定制生产计划和存货。
然而在集合不同类别数据的过程中,也会产生问题。传感器、文件、网络和传统数据库的数据存在不同的格式,必须把它们清理并转换成统一格式,才能加入算法。
人类语言
数据格式只是一个问题,另一个挑战是人类语言的模糊性。Iodine是一家健康创业公司,它为顾客提供药品的副作用和交互作用信息。但对于相同的副作用,食品药品管理局使用的术语往往有细微差别。“困倦”,“嗜睡”和“瞌睡”同时使用。人类能够识别这些同义词,但软件算法必须通过编程才能获得这种解读能力。这种蛋疼的工作在数据项目中需要不断地重复。
数据专家试图自动化这个过程中的每一步。“然而操作上,由于数据的复杂性,你得当好长一段时间的数据看门人,才能得到迷人的结果。” 数据科学家兼Iodine创始人Matt Mohebbi说。
数据软件能够做到的不仅仅是节约科学家们的时间,它同时也可能成为大数据计算普及化的功臣。
历史规律表明,一项新技术产生之初只被少数精英所掌握。然而随着时间推移,技术进步和投资增加,工具越来越强大,相关经济发展,商业运作开始适应,技术最终融入主流。在大数据时代,这条定律依然有用。
硅谷数据科学的CTO,John Akred看到了现代数据世界发展与技术发展的相似之处。他说,“我们见证着革命的起源,它致力于使更大的人群获得解决数据问题的能力。”
加州帕罗奥图市的一家初创企业ClearStory Data致力于开发识别、集合各种数据资源并通过表格和图表、数据地图来可视化结果的软件。它的目标就是通过软件来开发更大的用户市场。
一个可视化报告通常包括六到八个数据源。比如一个提供给零售商的报告,可能包括扫描的销售点数据、天气预报、网站浏览量、竞争对手的定价数据、智能手机软件访问量和停车场车流量的视频监控。而这些数据如果手动整理,请多少人手也不一定够。
算法仍旧没有替代手工劳动
尽管如此,数据科学家们强调,手工劳动在数据准备中仍是必不可少的。“开始的时候你为了一个特定目标准备数据,但没过多久就发现了一些新东西,你的目标也会随之改变。”哥伦比亚新闻研究生院的一位数据科学家Cathy O’Neil说。
但毫无疑问的是,在减轻数据统计压力方面,科学家们需要好好磨一磨他们的刀剑了。毕竟,工欲善其事,必先利其器嘛。
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:
前沿科技
支持一下
赞赏
0人已赞赏
分享至:
0
大 家 都 在 看
大模型真的在吞噬人类的一切数据吗?
硅星人
16:30
这个世界正变得更加真实,还是更多偏见?
造就Talk
谷歌大模型一出闹剧,揭开中文数据荒
IT时报
黄仁勋:英伟达的 AI 算力,“一折”出售
极客公园
OpenAI,困于数据短缺
乌鸦智能说
“耗尽”人类语言:ChatGPT还有多少数据可用?
未尽研究©
搞中国版ChatGPT,我们给“王慧文们”指条明路
自象限
大数据已死?
AI前线
怎样让你的数据分享更有价值?
NaturePortfolio©
人类数据要被OpenAI用完了,然后呢?
极客公园
一文读懂:数据的五个特征、三道难题
腾讯研究院
25:27
#AI有多智能
越来越卷的人工智能,未来发展方向究竟在哪儿?
老石谈芯
10:14
最性感的数据行业到底是做什么的?
小Lin说
07:42
大数据会怎么找出潜在的新型冠状病毒接触者?
动动枪DongDongGun
07:13
#AI有多智能
万物皆可生成式AI,风口还是噱头?
量子位
05:53
淘宝有这么多数据,为什么“猜你喜欢”还是打动不了你
造就Talk
13:10
#AI有多智能
2023年科技界热度之王:AI大模型的崛起与影响
万大叔
15:28
#AI有多智能
AI迎来觉醒时刻,中国遭遇最严峻的封锁
酷玩实验室coollabs
47:13
#AI有多智能
AI的价值探索:如何拓展商业边界?
大咖说小编
01:22:16
#内幕大揭秘
数据服务公司,怎么从一到十?
潘乱
大 家 都 在 搜
OpenAI
AI
俄乌冲突
奢侈品
婚纱
投资
创投
贫困
科技创新
APP内打开
好的内容,值得赞赏
您的赞赏金额会直接进入作者的虎嗅账号
自定义
支付:
元
匿名赞赏
支付