扫码打开虎嗅APP
本文来自微信公众号:APPSO (ID:appsolution),题图来自:AI生成
就在刚刚,OpenAI年底的AI春晚迎来了第二弹。
如果说昨天的ChatGPT Pro订阅计划震撼了普通用户的钱包,那么今天推出的产品则转向了不同的目标客户群体——企业机构和开发者。
早在直播活动开始前,负责模型微调的OpenAI研究员Steven Heidel就表示,虽然今天发布的产品可能不适用于所有人,但对于一部分人来说,它将具有重大意义。
OpenAI CEO Sam Altman则在X平台发文称:
这种效果非常好;它成为了我2024年最大的惊喜之一。我非常期待看到人们会创造出什么!
X网友已经给我们敲好黑板,划重点了:
强化微调(RFT)将于明年推出,专门针对o1模型。
通过利用强化微调(RFT)优化o1模型在专业领域的推理能力。
强化微调(RFT)通过仅需少量示例即可高效适应,优于传统的微调方法。
具体而言,OpenAI今天推出了一个强化微调(Reinforcement Fine-Tuning)研究计划。
该计划允许开发人员利用大量的高质量任务(从数十到数千个)来训练模型,并依据提供的标准答案来评估模型的回答。
这种方法不仅可以增强模型在处理相似问题时的逻辑推理能力,还能显著提升模型在特定领域任务中的精确度。
直播过程中,OpenAI还特地邀请了一位来自劳伦斯伯克利国家实验室的研究员Justin Reese,他也向我们展示了这项技术成果目前在实际应用过程中的作用。
作为计算生物学家,Justin的主要研究领域是罕见遗传疾病。
据他介绍,全球大约有3亿人患有罕见疾病,但问题是,评估罕见疾病比较困难,因为这通常需要具备两方面的知识:
一是必须具备医学领域的专家级知识,二是必须对生物医学数据进行系统性的推理。
通过与德国Charite医院等机构合作,Justin Reese研究团队从数百篇罕见疾病病例报告中提取关键信息,然后使用OpenAI微调模型来更有效地推理出疾病的成因。
在直播过程中,OpenAI研究人员也向我们展示了使用强化微调优化模型的完整流程。
团队会使用经过精心准备的数据集对模型进行强化微调。数据集中每个样例包含病例报告、观察到的和缺失的症状列表,以及模型需预测的目标基因。
模型需要根据给定的症状信息对潜在致病基因进行优先级排序,预测结果中正确基因的排名越靠前,得分就越高。
微调过程还会通过一个graders(评分器)来衡量模型表现。评分器通过将模型输出与标准答案进行对比,给出0到1之间的评分,用于量化模型在验证集上的表现。
经过微调的模型在该复杂遗传疾病相关基因预测任务上的表现大幅提高,证明了强化微调在生物信息和基因疾病诊断领域的潜力。
另外,OpenAI也宣布强化微调API的Alpha的访问权限明年将开放给更多组织使用,尤其是那些解决复杂任务的研究组织,比如法律、保险、医疗和金融等领域。
与昨日相呼应,本次直播依然以一个充满圣诞节日气氛的笑话收尾:
你们知道,我们住在旧金山。自动驾驶车辆非常流行。事实上,圣诞老人也在尝试这个。他想制造一辆自动驾驶的雪橇,但不知道为什么,他的模型总是不能识别树木,导致雪橇左撞右撞,树木撞得一塌糊涂。你们有猜到为什么吗?因为他没有为模型提供Pi。
值得注意的是,最近风投公司Menlo Ventures最近深入调研了600名美国企业IT决策者,深入披露了目前AI产业的最新趋势。
在这份被视为业界风向标的报告中,有一组数据格外引人注目。
报道显示,OpenAI的企业市场份额从50%跌至34%,大批企业弃用GPT-4转投Claude 3.5 Sonnet。基于此,Anthropic则趁势崛起,市场占有率从12%暴涨至24%。
可以说,市场份额是企业对AI技术最诚实的评分。但回合制较量的故事尚未结束,今天祭出的强化微调API有望再次点燃市场对OpenAI的关注度。
而就在OpenAI发布会召开前,Google推出的新模型gemini-exp-1206在大模型竞技场LMSYS Chatboat Arena中再次登顶,力压OpenAI的GPT-4o-1120。
与此同时,Meta凌晨推出的Llama 3.3 70B模型也以成本更低的方式,实现了媲美Llama 3.1 405B的性能。
就这几天发布的新品而言,网络上褒贬不一。有人说失望,有人说惊喜,但无论如何,AI的价值不在于模型有多复杂,而在于能解决什么实际问题。最好的评判标准永远是亲自上手体验。
参考链接:https://openai.com/form/rft-research-program/
本文来自微信公众号:APPSO (ID:appsolution)