正确的提示信息
扫码打开虎嗅APP
从思考到创造
打开APP
资讯
视频
前沿科技
车与出行
商业消费
社会文化
金融财经
出海
国际热点
游戏娱乐
健康
书影音
医疗
3C数码
观点
其他
榜单
虎嗅视界
24小时
妙投APP
虎嗅智库
登录
极速注册
取消
搜索历史
删除
完成
全部删除
数码
互联网
数码
互联网
热搜词
腾讯
房子
微信
IPO
香港
海底捞
火锅
烂尾
区域经济
账号或密码错误
2013-06-13 19:11
美国国安局如何实现海量用户数据的监控?
wsj
(原文来自
WSJ
,腾讯科技
翻译
)
仅仅在五年之前,诸如美国国家安全局(National Security Agency,NSA)这样的政府机构要想通过关键词的方式高效率地分析数百万份电话、文本消息和在线聊天记录,简直是不可能完成的任务。但是一系列新技术的应用让NSA拥有相对充分的人力和财力做到这一点。
哈佛商学院客座教授、数据分析专家汤姆・达文波特(Tom Davenport)指出:“这些新技术为政府部门节省了巨额开支,同时还极大地提高了政府部门分析此类数据的能力。虽然需要配套的数据中心支持才能完成数据分析任务,但这些技术的成本要远比几年前低得多。”
NSA斥资十二亿美元在犹他州打造大型数据中心将于今年秋季投入使用。目前尚不明确的是,到底NSA在覆盖全美的数据中心使用的是何种计算技术。但总体来说,这些技术被分为三大类型:
数据库系统
大多数使用SQL编程语言的传统数据库是把数据存储在由行与列组成的表格中。然而,当遇到存储包括电子邮件或文本信息等字符串时,传统数据库就暴露了能力有限的弊端。而且它们还无法处理图片或视频。
而于2009年年底开始出现的新型数据库NoSQL(Not Only SQL,不仅仅是SQL)则突破了传统数据库的能力限制,可以允许数据分析专家针对所有类型的数据创建信息要求。这些新型数据库包括MongoDB、Cassandra和Simple DB等。
在帮助公司分析超大型数据组方面,NoSQL数据库体现出了非凡的能力。
比如,美国保险数据供应商Verisk Analytics Inc.的分析师就在针对数十亿客户资料不断运行各种不同的数据模式和分析方法,以从中发现虚假保险索赔记录。
Verisk 副总裁兼首席信息官佩里・罗泰拉(Perry Rotella)表示,使用IBM提供的传统DB2数据库“需要通宵达旦地工作6个小时才能完成工作”。此后,分析师还得投入大量时间研究得出的数据结 果,并提出新的信息要求,而这恐怕还得再熬一个晚上。他指出,分析师每次都需要花费几周时间才能创建出新的数据模型。
Verisk最近刚刚开始使用更换后的NoSQL数据库,分析师仅用30秒就能完成相同类型要求的运行。
罗泰拉表示:“突然之间,你的模型建构告别了几天才更行一次的传统,变成了实时更新状态。通过使用NoSQL数据库,你可以在一天内多次进行数据运行,这极大地缩短了获得数据结果的时间。这项功能简直太强大了。”
机器学习
传统分析要求分析师对数据有充分的了解,然后才能创建假设问题,进而针对数据库提出复杂的问题。
以机器学习和自然语言处理为核心的编程技术则依靠计算机程序来发现数据类型,甚至还可以根据上下文阐明模糊词汇的意义。
达文波特指出:“你可以把机器学习程序植入多个数据之中,然后你就会看到该程序会给你提供什么样的分析结果。通过使用自然语言处理技术,你还可以分辨出‘炸弹’这个词是百老汇舞台剧的剧名,还是恐怖分子将会使用的武器。”
权威市场研究机构Gartner Inc.的分析师道格拉斯・莱尼(Douglas Laney)指出,机器学习又被称之为“认知分析”,它能够让分析师提出的问题不断进行“自我修正”。比如,在新信息出现时,零售商就可以使用该技术来实 时自动更新计价算法。这些新信息包括天气、时间、甚至是消费者在其零售店里的行为视频。
Hadoop基础架构
直到最近,还是只有造价昂贵的硬件设备才能够运行特别复杂的计算机程序,比如超大型计算机设备。
现在Hadoop开源软件分布式系统基础架构已经能够让从资料库提取信息的过程进行分布实施。
在这一过程中,不同的分析任务被分配给大量造价低廉的服务器进行分析,每个服务器只负责分析其中的一部分内容,然后这些内容又会在任务结束后被汇总在一起。达文波特表示:“这非常省钱,而且运行速度特别快。”
这种将复杂的问题分配给大量造价低廉的计算机处理的能力有助于人们获得问题的及时反馈,而且人们还会获得大量的数据变量。比如,美国汽车信息网站Edmunds.com可以帮助汽车经销商预测一辆车在他们自己的停车场里停留的平均时间。这种预测能够最大限度地缩短一辆车售出的时长。Edmunds.com的首席信息官菲利普•波特洛夫(Philip Potloff)指出:“对于汽车经销商来说,这可是衡量销售业绩最为重要的指标之一。”
本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:
国际热点
支持一下
赞赏
0人已赞赏
分享至:
0
大 家 都 在 看
你被窥视了!你的隐私还有救吗?
虎嗅
07:13
#AI有多智能
万物皆可生成式AI,风口还是噱头?
量子位
这次是彭博:用户隐私,还要出多少事儿?
虎嗅
科技巨头被指向政府提供用户隐私,媒体社论称其“公信力尽失”
虎嗅
泄密者斯诺登若被引渡,前途渺茫
虎嗅
黄仁勋:英伟达的 AI 算力,“一折”出售
极客公园
他们让GPT-4看起来像个流氓
旗舰
大数据已死?
AI前线
搞中国版ChatGPT,我们给“王慧文们”指条明路
自象限
蚕食OpenAI
未尽研究©
谷歌大模型一出闹剧,揭开中文数据荒
IT时报
12:52
#Web3.0完全手册
Web3.0如何真正地实现去中心化存储?
纳斯赛博伯
10:27
#高新技术流
《个信法》的这个彩蛋,99%的报道都没发现
所长林超
12:03
#AI有多智能
中国电信,又拿了个第一
量子位
34:18
#电商来了
电商业务与数据库技术发展的双向奔赴
大咖说小编
25:27
#AI有多智能
越来越卷的人工智能,未来发展方向究竟在哪儿?
老石谈芯
05:19
#AI有多智能
OpenAI重磅发布GPT-4o,国内大模型能跟上吗?
万大叔
13:10
#AI有多智能
2023年科技界热度之王:AI大模型的崛起与影响
万大叔
05:44
#AI有多智能
做大模型究竟难在哪?
爱较真的戴老师
13:28
#AI有多智能
人工智能独角兽,就是不爱讲人话
宇多田
大 家 都 在 搜
腾讯
房子
微信
IPO
香港
海底捞
火锅
烂尾
区域经济
APP内打开
好的内容,值得赞赏
您的赞赏金额会直接进入作者的虎嗅账号
自定义
支付:
元
匿名赞赏
支付