它并不总是在响应

劳德•普罗. 我没有包括SGE,因为 Google 的许多预期查询时显示。 我还使用所有工具的图形用户界面。这意味着我没有使用 GPT- Turbo,这是一种对 GPT- 进行多项改进的变体,包括截至 年 月的最新数据。此增强功能只能通过 GPT – API获得。 每个生成式 AI 都会被问到同一组 个不同的问题,涉及不同的主题领域。这些都是作为简单的问题提出的,而不是高度调整的提示,会导致分数降低,因为该分数仅关注所提供的信息。 如果回复存在重大事实错误或完全偏离主题,则该分数将设置为尽可能低的 分。 这里唯一被认为是强的结果也是 分。响应中没有明显错误(也称为幻觉)的空间。

 

指标 :完整性 该分数假设用户正

 

在从他们的经验中寻找完整且彻底 白俄罗斯 手机号码列表 的答案。 如果回答中省略了关键点,则会导致分数较低。如果内容存在重大差距,则最低分数为 分。 对于这个指标,我要求 或 分才能被视为高分。即使您遗漏了一两点本来可以提出的小观点,该回复仍然会被视为有用。 指标 :质量 该指标衡量查询对用户意图的回答程度以及写作本身的质量。 最终,我发现这四个工具都写得相当好,但存在完整性和幻觉问题。 我们要求该指标的得分为 或 才能被视为高分。 即使写作不太好,回复中的信息仍然可能有用(前提是您有正确的审核流程)。 指标 :资源 该指标评估来源链接和附加阅读的使用情况。 这些为用作来源的网站提供了价值,并通过提供额外的阅读来帮助用户。

 

前四个分数也合并为一个总指标。

 

 

总分中不包括资源分数的原 老年医疗保险补充线索 因是两个模型(ChatGPT 和 Claude)无法链接到当前资源并且没有当前数据。 使用不带资源的总分可以让我们在与搜索引擎提供的平台公平竞争的环境中权衡这两个生成式人工智能平台。 也就是说,提供对后续资源的访问和对来源的引用对于用户体验至关重要。 想象对用户问题的一个具体回答将涵盖他们正在寻找的内容的所有方面是愚蠢的,除非问题非常简单(例如,一汤匙中有多少茶匙)。 如上所述,Bing 的链接输出实现可以说是我测试过的最佳解决方案。 分数汇总表 我们的第一个图表显示了每个平台在主题、准确性、完整性和质量方面表现出高分的次数百分比: 按类别划分的总分 初始数据表明巴德比竞。

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top