扫码打开虎嗅APP
本文来自微信公众号: 明亮公司 ,作者:主编24小时在线
2026年伊始,海外多位投资人和Fintech公司创始人将“预测市场”看作是今年一项高潜力“新兴资产”,甚至认为它将成为新的“衍生品”来实现风险对冲乃至套利。
去年10月,加密原生预测市场平台Polymarket完成由ICE(纽交所母公司)完成的新一轮投资,投资至多20亿美元,Polymarket投前估值超80亿美元。除预测市场本身的合规性之外,分析认为,ICE希望能够将预测市场的数据与传统金融市场打通,进一步丰富资本市场的数据和信息维度。
另一方面,在AI能力不断增强的背景下,AI和预测市场的结合在一些投资(或投机)者眼中构成了新的“套利”方向。
在X等平台上,不少预测市场程序化交易正在逐渐崛起——这些程序通过自动化交易围绕时间发生概率的波动来完成短期套利,而这种波动与“新闻”时间高度相关;而且,24/7无限交易模式中,AI将比人有更多的交易时间和机会。
反对声音认为,预测市场本身更像是“博彩”的变种,且存在很大程度上的“内幕信息交易”。掌握事件内幕信息的人通过信息不对称完成“套利”。
“如果你知道美国即将要对马杜罗采取行动,可能很容易在一些预测上完成套利”。在Polymarket上就有这样的例子。在过去一个月中,Polymarket地缘政治领域收入排名第一的用户赚得41万美元的利润,但其仅通过4项预测事件就达到这一回报,这4项预测均和委内瑞拉事件相关。

Polymarket上“政治类预测”过去一个月利润最高的用户,仅参与了4项预测(来源:Poly market)
据「明亮公司」不完全梳理,目前Polymarket等预测市场存在多种套利机制,包括同一市场、同一事件的不同概率套利,跨预测市场套利套利,以及跨金融市场套利等模式。但目前预测市场尚未出现主流机构投资者,至今盈利排名第一的用户Thoe4盈利规模在2200万美元左右。此外,散户为主的环境这也带来了流动性的问题。Polymarket上很多小众事件本身的交易盘很小,甚至只有几十万美元。
然而,在AI快速迭代的背景下,更大的想象空间来自于Polymarket和AI技术的结合。
近日,Polymarket的Substack栏目The Oracle披露了其对Mantic AI的访谈,分享了这家AI预测团队如何利用AI来成功预测地缘政治事件。访谈对象Toby Shevlane是ManticAI的首席执行官兼联合创始人,这是一家总部位于伦敦、致力于将人工智能应用于预测领域的初创公司。
在创立Mantic之前,Toby Shevlane在谷歌DeepMind工作了两年半,担任高级研究科学家。在那里,他共同领导了Gemini项目中的一个团队。在此之前,Shevlane在牛津大学的博士研究方向是大语言模型(LLM)发布决策的治理,以及人工智能潜在的滥用风险。
Mantic的自动化系统刚刚在2025年Metaculus秋季杯(Metaculus Fall Cup)中获得第四名(约500名参赛者)。这一成绩使其稳居前1%,也是过去唯一进入前10名的AI参与者。访谈讨论了为什么大多数AI预测系统无法从新闻中提取价值,以及Mantic认为Polymarket交易员在哪些地方判断失误。
以下为The Oracle发布的访谈内容(有删节):
Q:Mantic在Metaculus中表现优异。是什么让你们脱颖而出?
A:我们在架构编排(scaffolding)和数据方面拥有优势。此外,我们目前正在研究通过强化学习来改进模型。
在数据方面,我们非常认同“要做出准确预测,必须获取充分信息”的观点。我们有专门的员工负责增加数据源。我们拥有数十种不同的来源:维基百科、新闻、国家级经济数据、人口和移民数据、公司财务数据、财报电话会议等。
我们不使用Google搜索或Perplexity。这实际上是一个劣势,有时我们会因此遗漏一些信息。但我们需要能够进行“回测”,即站在六个月前的视角运行实验,看看我们的表现如何。你无法用Google搜索做到这一点,因为你无法看到它在六个月前会告诉你什么。
在金融领域,这被称为“时点数据”(point in time data)。你需要那些可以回滚且无需任何修正的数据源。Google和Perplexity不具备这种属性。
Q:你所说的“架构编排”是什么意思?你能拆解一下Mantic如何处理一个新的预测问题吗?
A:Mantic运行起来并不是对语言模型进行单一调用。在工作流中,我们会进行非常多次不同的调用。你可以把它想象成一条工厂流水线,有很多不同的工人在做不同的工作:拆解问题、进行研究、追踪不同的调查线路,然后将所有信息汇总成一个清晰、信息充足的预测。
以“收购格陵兰岛”的市场为例。传统的基础概率(base rates)方法是查看美国以前收购过多少次格陵兰岛。这种情况从未发生过。所以你可能会使用拉普拉斯定律(Laplace’s Rule),这是一种花哨的说法,意思是:“已经过了很长时间,这件事从未发生过,所以它可能近期也不会发生。”
但我们走得更远。我们会研究美国与格陵兰岛关系的策略历史,寻找一个国家收购另一个国家的类似案例,并试图吸取教训。我喜欢从具体细节开始,然后放大视角。如果你只把“美国收购任何领土”作为你的参考类(reference class),你可能会得到一个过高的估计值。
Q:你提到其他AI系统虽然加入了新闻,但并没有起到帮助。他们做错了什么?
A:有时人们会说:“我不小心没把新闻包含在流程中,但我的分数并没有下降。”这太疯狂了,因为新闻往往是关键信息。如果它没有起到帮助,那是一个非常糟糕的信号。
在早期,我们也发现了类似的结果。但现在完全不同了。你需要弄清楚如何最好地处理信息。如何利用一篇新闻文章做出更好的预测,这并不是显而易见的。
现在有一种政治论调是“新闻媒体是有偏见的,所以不要相信它”。我认为这与“不断被头条新闻吓到”是两个不同的陷阱。你不应该掉入其中任何一个。新闻有偏见并不意味着其中没有可发现的信息。
一个见解是:尽可能多地吸纳信息是有帮助的。人类希望高效利用时间,所以只看可信的来源。但AI没有这个限制。它可以阅读大量内容并提取任何有用的东西。
Q:关于集成不同模型的“群体智慧”方法,你怎么看?
A:有一篇名为《硅群智慧》(The Wisdom of the Silicon Crowd)的论文,使用了数十种不同的语言模型并取平均值。我对这是否是最佳方法持怀疑态度。大多数模型并不擅长预测,所以你实际上是在拉低平均水平。
我们试图找出完美的配方。是使用带有不同提示词的同一模型?还是将不同模型组合在一起?合适的数量是多少?其中的经验之一是:使用前沿模型(frontier models)绝对是个好主意。
Q:是否有某些类型的问题Mantic表现更好或更差?
A:我们可能不太擅长体育预测。我们没有在这方面投入,因为这不是我们的商业重点。
教皇选举是一个经典的难题。所有的政治活动都发生在幕后。Mantic并不是魔法。如果梵蒂冈没有信息传出,我们无法得知谁在上位。
但我们非常擅长的一点是:当我们不知道答案时,不会给出过于自信的回答。在最近的荷兰大选中,我们获得了大量分数,并不是因为我们自信地预测了赢家,而是因为我们的校准(calibration)比人类群体更好。我们没有采取过度自信的立场。
Q:能举一个这种“谨慎”带来回报的例子吗?
A:去年年底的日本自民党总裁选举。Polymarket和期权市场在某一位特定候选人身上投入了很大权重。但最终高市获胜了,而她之前并非领跑者。
当我回顾Mantic当时的预测时,它给她的权重比市场给出的要高得多。仅仅是看到其他人都冲下悬崖,而知道退后一步并保持更加谨慎,就非常有帮助。
我们在某些问题上因为“自信且正确”而得分,但我们也因为“在需要谨慎的地方保持谨慎”而获得了相当可观的分数。
Q:你是否使用Mantic在Polymarket或其他预测市场上进行交易?
A:我们还没有在Polymarket上运行机器人。那会很有趣。但值得称赞的是,AI表现不够突出的原因是,这些市场在寻找准确概率方面已经做得非常出色了。这是一个非常难超越的基准。
目前对我们来说价值最高的用例是与传统金融市场的交易员合作,帮助他们预测那些处于价格变动“上游”的事件。比如日本领导人选举:不同的领导人可能有不同的财政政策,这会影响债券收益率。如果你在预测这些关键事件上拥有优势,那会有很大帮助。但这目前是通过人类交易员的技能来中介的,而不是直接接入。