让大模型讲人话，“天工”有何不同？-虎嗅网

题图 | 视觉中国

现在，还没发布大模型的科技公司，在行业里已经显得有点非主流了。

微软和OpenAI联手烧起来的大模型之火还没燃完一个月，国内大模型已经开始卷起来。今年四月可以称为国内大模型的肇始之月。继百度在3月底发布文心一言后，阿里、腾讯、字节等行业巨头，以及商汤、知乎等细分领域玩家都陆续发布了自己的大模型产品。

科技公司扎堆大模型，这次真的不能怪它们喜欢抢热点。

除了资本市场热捧ChatGPT概念所能带来的短期资本效应外，向市场发布大模型的更重要意义，在于让产品能够源源不断的吸收到最新的数据和用户反馈，进而转动数据、技术互相驱动的飞轮。也就是说，谁先下场，谁就最有可能在实际场景里实现技术赶超。

一众发布了大模型的公司中，4月17日正式发布的千亿级大语言模型“天工”是话不多的那一个，却公开表示“天工”3.5是第一个真正实现智能涌现的国产大语言模型，已“非常接近OpenAI ChatGPT的智能水平”。

“天工”大模型由昆仑万维和AI团队奇点智源共同打造，作为一家上市公司，昆仑万维给予了旗下大模型非常高的评价，“天工”表现到底如何？我们特地测了测。

聪明的大模型长啥样

据官方介绍，天工比较擅长知识问答、文案撰写、灵盖助手、代码生成、语言翻译和学习指导。且天工具备超强记忆，支持20+轮次交互。

多轮交互考验大模型的上下文编码和动态记忆机制，能不能实现多轮交互不仅是衡量大模型水平的标准，也关乎着其在现实中的应用价值（如客服场景等）。

因此，第一个测试就从多轮交互开始。第一个问题是一个比较笼统的问题，天工给出的答案中规中矩。

在此基础上，开始加限定条件。

对于这个即便在现实中也很难解决的问题，天工给出的解决方案还是比较全面的。之后，将测试问题进一步细化，看看天工能给出什么答案。

天工给出的答案涉及了辞职带娃的方方面面，考虑的还是比较周到的。那么最后，给定具体条件，请天工给出确定的建议。

结合具体的条件，天工给出了直接建议：可以考虑辞职带娃，同时也再一次强调辞职带娃的风险。

可以看出，这个多轮对话测试还是能够反映出天工的水平的，其确实拥有不错的多轮对话能力，能够真正帮助用户解决问题。

难度升一下级，这一次，测试需求是虚构了一个公关危机事件，需要天工给出一份公关危机应对指南。

天工给出的方案框架挺像模像样的，不过这毕竟只是个框架，缺乏实操细节，天工究竟智能到什么程度，还得细化prompt，于是这次测试提出了一个非常具体、有实操性的需求。

面对具体需求，天工也很实际的向测试者要更多信息。于是输入了更加详细的prompt，提供了具体的公司名称、危机细节和危机公关目标。

天工拟出的这份道歉声明，先解释了原委，从事实层面对事件做了说明，然后就是诚恳的向公众道歉，并且还给出了后续的解决方案——增加备货量，确保每位观众都能领到小礼物。可以说，一份合格的道歉声明所需要的元素，天工拟出的文本都涵盖了，虽然测试输入的prompt是虚构的，给定的信息有限，但天工的输出还是挺值得信赖的。而且在这个多轮对话中，天工的表现依然稳定。

此外，天工在实时性的事实回答上表现尤为突出。比如，天工知道最近的烧烤顶流是淄博。这意味着天工的训练数据更新十分及时，且天工对信息的提炼总结能力也是到位的。

接着试试知识问答，提问设置了一个小陷阱，将“遇热”写成“预热”。天工没有被这个错别字迷惑，输出了正确答案。

经过上面几个测试后，再来测测天工在逻辑和数理方面的能力。

先试一下代码生成能力。输入的prompt是帮忙写一个俄罗斯方块程序，然后天工一行行的输出了相应代码。

整体来说这个函数拆分逻辑是合格的。

最后，给天工输入了一个典型的思维陷阱题。在这道题目里，解题人很容易被冗余信息干扰而去计算答案，因此也能比较好的测试天工对信息的辨别能力。

一开始，天工还老老实实的去算了一下，很快它就识破了陷阱——根本不需要交换，两边本来就是各有50颗豆子。这个答题思路暴露了天工的思考过程，人工智能还是挺可爱的，让人想起思维透明的三体人。

意犹未尽，再来一道经典数学题，鸡兔同笼都被测烂了，这次换一道。

天工依旧给出了正确答案。

基于文、理两个方面测试的结果，天工的整体表现确实比较稳定，也能带来一些惊喜。

一个表现相当不错的大模型产品诞生在昆仑万维，可能并不符合市场的一贯认知。甚至在官方推文中，昆仑万维自己也说“很多人不相信昆仑万维能做出大模型”。

不过，说得少不代表做得少，很多时候，扫地僧才是那个真正厉害的人。

有厚积才能薄发

作为当前AI领域最先进技术的代表，合格的大模型可不是做几页PPT就能实现的，其背后需要非常强的算力、数据、算法。

天工之所以能有如今的表现，离不开长期的积累。

大模型（Large Model），顾名思义是指具有数百万或数十亿个参数的深度神经网络模型，这种模型经过专门的训练过程，能够对大规模数据进行复杂的处理和任务处理。相比之下，小模型（Small Model）是指具有较少参数的深度神经网络模型。

天工采用了双千亿模型——千亿预训练基座模型和千亿RLHF排序模型，这使其具备了更高级的自主学习和智能涌现能力。

模型大，训练一次所需的算力也就更大，这也是目前业界公认的发展大模型的挑战之一。而算力是天工最不用担心的事情，其背后有国内最大的GPU集群之一，能够进行充分训练。

在此基础上，天工采用了蒙特卡洛搜索树算法进行优化，这进一步提高了解码过程中的准确性和安全性，这是天工在复杂任务和场景中能够快速且准确相应指令，让用户感受到其足够“聪明”、“通人性”的关键原因之一。

数据作为AI时代的燃料，同样是大模型过程中必不可少的要素。为了给天工最优质的燃料，天工团队投入大量资源从数十万亿的数据中清洗、筛选出了3万亿单词数据用于训练大模型。这使得天工天然“更懂中文”。

天工也很懂得人多力量大的道理，昆仑万维在2022年发布AIGC全系列算法模型的同时，就开源了百亿级参数模型，积累了广泛的开发者好评与社区共创。因此，天工能够得到开源社区上百位AI科学家助力，加速提升。

要集聚如此优质的资源，临时抱佛脚肯定是做不到的。今日天工之成绩，离不开昆仑万维过去数年的扎实投入。

做AI，昆仑万维一直很认真。

昆仑万维旗下的StarMaker是海外市场最大的音乐社交平台，全球活跃用户数超过6000万。基于对相关业务场景的洞察，昆仑万维从2020年就开始布局AI音乐领域，在2022年1月启动SkyMusic音乐实验室，2022年4月已达到人工智能领域最优效果。

也是在这一年，昆仑万维开始从音乐AI往多模态AI拓展。而只有自研大模型，才能建立AIGC的核心壁垒、掌握主动权。此时其合作方奇点智源也越发强烈地意识到千亿级大模型是AGI（通用人工智能）的一个突破口，开始从百亿级模型向千亿级模式冲刺。双方一拍即合。

2022年，昆仑万维和奇点智源就百亿级大语言模型、图像AIGC、编程AIGC等技术领域达成全面技术战略合作，在2022年底宣布全系列模型开源。

“天工”这个千亿级大模型的诞生，算是长期技术投入和积累的厚积薄发。

转动变革的飞轮

昆仑万维之所以对AIGC有如此敏感的嗅觉，与其业务版图密不可分。

2008年，昆仑万维以页游研发和全球游戏发行起家，次年进军海外，是最早出海的一批游戏公司。经过十数年的发展，如今，昆仑万维已经是一家业务遍布全球5大洲、70多个国家和地区，全球平均月活跃用户近4亿，海外收入占比达75%的全球化企业。且业务版图也从最早的游戏，拓展至信息分发、云宇宙、社交娱乐、移动游戏、休闲娱乐和投资五大板块。

出海、全球化、泛娱乐是定义昆仑万维的三个关键词。

娱乐是一个极度依赖创意驱动和内容生产的产业，创意既能带来机遇，也意味着高昂的成本和极高的试错风险，如果能降低创意涌现的随机性，提高创意竞争力，降低内容生成成本，也能实实在在的巩固企业核心竞争力。

理解了这个逻辑，就不难理解为什么昆仑万维对于AIGC会保持如此敏感度：AIGC赋能内容生产能力，提高工作效率和质量的效果显而易见，同时企业运营成本也能得到有效控制。

作为昆仑万维CEO，同时也是从1994年开始参与和倡导开源运动、中文Linux的奠基人，方汉对技术的敏锐嗅觉也让他在2019年底看到GPT3的发布后，便判定改革终将来临。公司高层对未来趋势的判断叠加业务发展的现实需求，构成了昆仑万维长期、坚定投入AI的坚实底气。

AIGC已经在昆仑万维的实际业务场景中展露锋芒：公开信息显示，过去，昆仑万维游戏板块完成一期游戏配乐项目需要4-6个月的时间，现在通过AIGC，同样的项目只需两周交付，资金成本大幅降低。

实际落地后，天工的能力还将在具体场景下实现更快的技术迭代。更加先进的多模态大模型将能有效赋能昆仑万维的实体业务，提升企业竞争力。

这在昆仑万维的发展历史中已经被验证。

2017年，StarMaker选择K歌作为切入音频社交的入口，但在中东、非洲、东南亚市场，买了版权却不能获得伴奏带，StarMaker只能自己做。传统制作方式是人工做声音消除，成本高昂。为此，昆仑万维专门组建了研发AI作曲的实验室StarX MusicX Lab，带着近10位博士研发了将近三年，将AI人声消除技术做到世界头部水准。StarMaker每进入一个新市场，完成版权交易后便能瞬间生成伴奏，实现快速扩张。

当更加先进的生产工具被纳入昆仑万维的业务流程中后，其全球化复杂的运营体系，以及创意驱动的多业务布局，都将得到AI更稳更强的护航。

天工的意义远不止于提升自家产品体验，还在于为昆仑万维打开了全新的可能性。

不是所有人都有能力去做大模型，但对先进生产工具的需求是普遍的，因此天工作为生产工具向市场开放，是有极强的现实基础的。

据Gartner预测，至2023年将有20%的内容被生成式AI所创建；至2025年生成式AI产生的数据将占所有数据的10%（目前不到1%）。红杉则在去年的一份报告中预测，AIGC将产生数万亿美元经济价值。国海证券认为，至2025年，国内AIGC应用规模有望突破2000亿，国内传媒领域应用空间超1000亿。

显然，无论是作为效率工具，还是由之衍生的应用市场，AIGC都能提供足够大的空间。也就是说，天工的想象空间非常大，这将成为未来观察昆仑万维价值的重要线索。

当前，大模型距离全面普及还差一个iPhone时刻。而离开实际应用场景，大模型侈谈杀手级应用，更遑论iPhone时刻。如今，天工不仅在昆仑万维的业务流中输入更多现实反馈，还会在更多合作伙伴的应用场景中锻造能力。

当更先进的技术结合最丰富的应用场景，诞生杀手级应用的可能性将会大大提高。这是跨代际的机遇，孵化出天工的昆仑万维必然能从中分享红利，产业的发展也将在其的刺激下，迸发更多的可能。

今日之天工是昆仑万维的一小步，必将是昆仑万维乃至大模型产业的一大步。

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

让大模型讲人话，“天工”有何不同？

热门评论

大 家 都 在 看

大 家 都 在 搜

大家都在看

大家都在搜