正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2024-07-30 20:10

苹果AI首测细节曝光:最惊喜的功能不是Siri,通话录音引发争议

本文来自微信公众号:APPSO (ID:appsolution),作者:appso,原文标题:《苹果AI首批体验来了!Siri大变样, AI写作秒杀大批应用,这些内部细节首次曝光》,题图来自:视觉中国

文章摘要
本文介绍了苹果AI首批体验细节曝光,包括Siri和通话录音功能。iOS 18.1 Beta版推送给注册开发者,带来了写作工具和通话录音等功能。

• 💡 新版Siri UI界面焕然一新,但仍需提升智商

• 📞 通话录音功能终于到来,实时转录文字效果出色

• 🧠 Writing tools提供多种重写句子方式,帮助用户更好表达想法

Apple Intelligence今天终于来了,但又没完全来。


随着iOS 18.1 Beta版的推送,注册开发者从现在开始就能体验到部分苹果牌AI功能了。


不少提前尝鲜的海外网友已经玩嗨了。火爆程度如下图所示:



从贯穿整个系统的写作工具到最为重要的Siri,让我们一起来见识由苹果定义的Apple智能。



介绍之前,先说一下体验的前置条件:


  • iOS 18.1 Beta版仅限注册开发者使用,普通用户需等待。


  • 建议将设备地区设为美国,并将Siri语言设为英语。


  • 仅M系列和A17 Pro芯片设备兼容,比如最新版Pro/Pro Max。


  • 用户需在设置中加入候补名单,目前通过速度比较快。



Siri:UI界面大不同,但还是那么不聪明


博主@Brandon Butch在YouTube上分享了他第一时间的实测结果。


从分享的视频信息来看,新版Siri迎来了焕然一新的UI设计,看起来更酷了,比如触发后会有一个跑马灯的效果,顺带附有一个触发的音效。



不过,iOS 18 Beta 1的Siri还是1.0版本,尚未接入ChatGPT,预计2.0版本将在2025年推出。


也正是如此,Siri的智商也有待提高,比如当博主问Siri 4个小时后的具体时间时,Siri只淡淡地回了一句“To who”。


召唤Siri的方式也增添了一种方式,轻点一下iPhone底部就会亮起横条,而点击两次后就能调出Siri。



渐变色的新键盘界面搭配全新的文字输入,这下Siri真的大变样了。并且似乎打字版的Siri也能回答上面语音回答不了的问题。


为了让你好好说话,Writing tools操碎了心


几个月前,我们给Apple Intelligence下的定义是,Apple智能是生而为系统的功能,而这一点在更新的Writing tools(写作工具)功能展现得尤为淋漓尽致。


在信息、备忘录里输入文字,你会发现手机键盘的右上方会有一个Apple智能的按钮,点击后就能得到完整的写作工具功能,包括但不限于三种不同类型重写句子的方法——“友好”“专业”“简洁”。


简言之,这项功能在于帮助你找到一种更好的方式来表达你真正想说的话。



和友人聊天时,让AI把握语调的轻重缓急、避免不必要的误解矛盾,既能让其写得更专业、更友好,也能更简洁、对于不太擅长说话的低情商i人来说,这简直就是宝藏功能。


网友@techdroider也对比了与三星Galaxy AI类似功能的表现。没有任何悬念,“Apple智能1:0三星Galaxy AI”。



当然,如果你对写作工具修改后的措辞不是很感冒,那也可以一键还原,就是这么任性。


此外,这项功能也适用于Safari,长按选择段落,然后就会弹出写作工具,再自行执行上述操作。



而摘要、分点总结等功能则更适用于长文阅读。


作为一名邮箱里塞满了外网新闻报道的编辑,现在可以利用页面右上角的默认摘要按钮帮我们提高效率,一键摘要,节省的可不止一点点时间。



点击按钮后,Apple智能将会自动浏览并阅读信息,然后只需要大约1分钟的时间,就会在顶部留下短小精悍的摘要,即便是普通的电子邮件也同样适用这个功能。


写作工具里提供的“prooffread(校对)”更是语法的天敌。输入文字后,校对错误的记录一目了然,甚至标点符号的使用不规范,它都能帮你指出。



通话录音:寄予期待,也不失期待


心心念念的通话录音功能终于来啦。


怎么用录制?录音效果如何?识别精准吗?一条视频给你讲清楚。


通话时,点击左上角的新增录音键,就可以开启录音,同时对方的电话里面也会收到录音已开启的语音提示。


通话结束后,录音文件还会自动保存到备忘录当中,里边除了有音频文件,还会有实时转录的语音文字。


与此同时,录音文件也可以转存到文件App当中,录音文件是m4a的格式,整体的录音文件会被压缩得很小,所以最后的效果只能算是够听,而转录的文字还可以区分发言人。



另外,我们还测试了方言的转录效果,不妨点击观看上方视频号吧,像是和普通话比较接近的北方方言转录的效果就比较精准,但是像粤语这一类和普通话差别比较大的方言,可能iPhone就听得不太懂了。


怎么样,这个功能你还满意不?


另外,也还有一些小功能,比如用户能通过自然语言创建幻灯片和搜索具体的照片及视频等。


Apple智能内部更多细节曝光


之前的文章中,我们简单揭秘了Apple智能是怎么炼成的,甚至即使没有GPT-4o也能打。


而在今天,苹果也发布了全面的技术报告,披露了关于Apple智能的更多细节。


先来感受一下苹果官方给出的测试结果:







简单来说,这份技术报告详细介绍了3B参数大小的端侧模型AFM-on-device,以及一种更大参数的云端模型AFM-server。


苹果报告显示,前者端侧模型主要用来实现摘要的功能,比如适用于上文提到的电子邮件,消息和通知的摘要。苹果还特地与设计团队合作制定了电子邮件、消息和通知摘要的规范。


虽然端侧模型在生成一般摘要方面表现良好,但难以生成严格符合规范的摘要。为了解决这一问题,项目团队在AFM端侧模型上应用了LoRA适配器进行微调,以改善摘要生成的准确性。


后者云端模型则基于规则的过滤器采用启发式方法,如长度、格式、视角和语态限制;基于模型的过滤器用于处理更复杂的摘要问题,来提高摘要的质量。



AI发展的三要素无非算法、数据和算力。


在数据方面,AFM预训练数据集由多种高质量的数据混合而成。其中包括苹果从出版商处获得授权的数据、精心策划的公开可用或开源数据集,以及由网络爬虫Applebot抓取的公开可用信息。


其中报告也着重提到了尊重网页使用标准的robots.txt指令选择不被Applebot抓取的权利,不对劲,怎么感觉有在内涵Anthropic。


苹果也强调,训练数据中不包含任何私人苹果用户数据,甚至特意过滤掉个人身份信息后才将其纳入预训练混合数据中。


值得注意的是,AFM云端模型核心训练是从头开始进行的,而AFM端侧模型则是通过蒸馏和剪枝从更大的模型中获得的。


硬件方面则采用了Google TPU,其中云端和端侧分别用了8192和2048颗TPUv5p芯片。



如果你想在电脑上制作视频,那你需要安装一些额外的应用程序。在AI模型的世界里,苹果模型背后用到的“适配器”也是同样的道理。


简单来说,适配器即一些模型权重的小集合,相当于一个小型的插件,让模型能够快速适应不同的任务。


例如,模型处理邮件和通知的总结,看起来差不多,但实际上有许多细微的差别,所以苹果给模型加上了一个叫做LoRA的适配器,让它能更好地完成这种任务。


附上技术报告全文:

https://machinelearning.apple.com/papers/apple\_intelligence\_foundation\_language\_models.pdf



写在最后,一个不争的事实是,当下手机端侧AI无论是在技术层面还是产品应用层面都难称成熟。但也正是如此,我们才会对苹果牌AI抱有极大的期待。


从苹果发布会之后,我们得到的关于Apple智能的消息谈不上好。在一众泄露的小道消息中,Apple智能的推出日期也一再“跳票”。


包括最近彭博社也报道称,苹果将在10月底前向用户推送“Apple智能”的软件升级,但比今年发布的iOS 18和iPadOS 18操作系统还要晚数周。


今天推出的iOS 18.1 Beta虽然只是发布了Apple智能的一些细枝末节,但起码也给我们吃了一个定心丸。


那就是Apple智能至少不是空中楼阁,它正在向我们走来。


没错,我点的就是OpenAI那个反面例子,即官宣大半年了,还处在如来状态的“期货”Sora。


当然,我们也希望Apple智能的全貌能早日亮相,这对消费者来说是一件好事,也能给许多终端厂商打一个样。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
文集:
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: