我们的 mvp 已经完成。我向新代理询问marc benioff’s sessions on tuesday并确认它正在搜索正确的主题 ( session management) 和动作选择 ( retrieve sessions from datacloud),并将正确的参数传递给我的 apex 类(searchterm =“marc benioff”,startsbetween 代表星期二)。这些会议目前采用 utc 时间,我还没有准备好支持时区,但它们似乎只需要稍微打磨一下。我在 slack 上发布了“mvp 准备测试”,然后就结束了。
混合搜索和增强索引
4 天后即可参加 dreamforce
早上醒来,我看到 slack 上队友的反馈,说机器人已经 whatsapp 号码数据 完成了 80%。我们的产品经理通过在操作描述中加入一些提示魔法,解决了时区问题。
图片 6
看起来我们只用了半天就完成了这个项目,对吧?现在我只需要提高演讲者姓名的准确性,这样当有人搜索“adam evans”时,我们就不会返回另一个 adam、adams 或 evans 的会话。
不过,优化姓名搜索比我想象的要难得多——部分原因是演 构化数据语义搜索创 讲者姓名只是被矢量化的会话信息的一小部分,而很多演讲者都叫 adam 或 adams。单靠矢量搜索是不够的。
幸运的是我们的搜索团
队来帮忙了。混合搜索是 data cloud 的测试版功能,它帮了大忙。虽然向量搜索可以理解语义相似性和上下文,但它缺乏特定的领域词汇。另一方面,关键字搜索擅长词汇相似性,但不擅长语义相似性。混合搜索兼具两者的优点,将语义感知向量搜索的优势与关键字搜索的精确度和速度相结合。
我还加入了我们团队正在研究的一项改进,称为增强索引,我们将大量数据分解为更小、更易于管理的块,每个块包含针对特定类型查询优化的信息——在本例中 邮寄线索 为“按说话人姓名搜索”。