扫码打开虎嗅APP

No.9

2024-04-17

子非AI 拥抱AI

Cohere RAG向量化利器出鞘,Compass解锁邮件发票日志多维度检索

主理人:
Cohere Compass 采用了一种全新的嵌入格式,能够有效捕捉和存储数据中的多个概念及其关系。它将原本相互独立的多个向量融合到同一空间,形成一个丰富的语义网络。

本文来自微信公众号:子非AI(ID:you_are_not_ai),作者:非子爱,原文标题:《Cohere RAG向量化利器出鞘,Compass解锁邮件发票日志多维度检索》

 

 

在当今商业领域中,企业数据呈现出极高的多元性和复杂性。电子邮件、发票、简历、支持工单、日志消息和表格数据等均包含着错综复杂的概念关系和上下文信息。然而,传统的单向量嵌入模型难以捕捉和理解这种复杂的多维度数据结构,给数据检索和挖掘带来了巨大挑战。

 

 

 

 

向量化的现状与困境

 

企业数据高度复杂多元化

 

企业数据通常包含多个概念和关系,如电子邮件中可能同时包括发件人、主题、附件内容等不同层面的信息。这种错综复杂的多维度特征给数据处理带来极大困难。

 

 

 

 

传统单向量嵌入模型的缺陷

 

分类层理解能力有限

 

开发人员通常需要创建分类层来识别和匹配查询与文档不同方面的元数据值。但这种方法受限于分类器的理解范围,并且部署成本较高。

 

丢失数据多方面信息  

 

 

 

 

现有的嵌入模型(如 Cohere Embed v3)会将文档映射到单个语义向量空间中。当数据包含多个概念时,不可避免地会丢失文档的多方面语义信息。

 

 

Cohere Compass 的创新解决方案

 

 

 

 

多维表示格式

 

Cohere Compass 采用了一种全新的嵌入格式,能够有效捕捉和存储数据中的多个概念及其关系。它将原本相互独立的多个向量融合到同一空间,形成一个丰富的语义网络。

 

端到端一站式工具链

 

Compass 提供了从端到端的工具支持。用户只需使用 SDK 将原始数据整合为标准 JSON 输入,再由嵌入模型生成多维表示,最后存储到任意向量数据库中。

 

应对多维度数据挑战

 

通过创新的多维表示和完备的工具链,Compass 可以高效解决传统模型面临的多维数据检索难题。无论是文本数据还是结构化数据,均可获得高质量的向量表示。

 

 

Compass 工作原理

 

 

 

 

Compass SDK 解析多维数据为 JSON

 

在传统检索流程中,电子邮件和附件 PDF 会被分开处理。Compass SDK 则能够将它们连同发件人、时间等元数据一并解析到同一个 JSON 文件中。

 

Compass 模型生成多维向量表示  

 

JSON 文件被喂给 Compass 嵌入模型,输出包含文本内容和元数据的多维向量表示,捕捉了数据中的各个方面及相互关系。

 

存储到任意向量数据库

 

嵌入输出可直接存储到任何支持的向量数据库中,为后续的语义检索做好准备。

 

 

Compass 的优势与应用

 

示例对比:优于传统模型

 

以"我收到的第一个关于 Cohere 嵌入模型的 PR(Pull Request)是什么"为例,Compass 能够精准区分并满足这一包含时间、主题和类型多个方面的查询需求,而传统模型则失败了。

 

 

 

 

全面释放企业数据价值

 

通过对多维度数据的高效检索,Compass 有望释放企业数据的全部价值潜力。它不仅能够应用于电子邮件、发票等传统场景,对于软件开发、客户支持等领域也有重要意义。

 

 

展望未来

 

虽然 Compass 目前仍处于私有测试阶段,但其创新理念和初步表现已令人耳目一新。作为一种全新的多维度检索范式,Cohere Compass 通过创新的表示方式和工具链支持,为解决企业数据高度复杂和多元化所带来的难题贡献了新的解决方案,为企业数据的高效利用带来全新的想象空间。期待 Cohere 未来在RAG领域的进一步表现!

 

 

 

本文来自微信公众号:子非AI(ID:you_are_not_ai),作者:非子爱