type
status
date
slug
summary
AI summary
AI translation
tags
category
password
icon
OKX欧易开户即可获得:现货合约永久返佣10%,手续费8折,永久获得青猫会员高级指标使用特权,高级交易系统免费内测,会员技术指标定义开发等专属服务。
欧易交易所blackcat1402邀请注册(国内,无需魔法)链接:
欧易交易所blackcat1402邀请注册(国外,需要魔法)链接:
Claude 2.1 (200K Tokens)- 长上下文回忆的压力测试
我们都对增长上下文长度感兴趣 - 但实际效果如何?
Anthropic 主动提供了 Claude 2.1 的早期访问权限,因此我重复了我之前在 GPT-4 上进行的“大海捞针”分析。
以下是我的发现:
关键发现:
- 当文档达到 200K 个标记(大约 470 页)时,Claude 2.1 能够在文档的某些深度回忆起事实。
- 文档最上方和最下方的事实几乎以 100% 的准确率被回忆起。
- 文档顶部的事实回忆表现不如底部(与 GPT-4 相似)。
- 从约 90K 个标记开始,文档底部的回忆性能开始明显下降。
- 在较短的上下文长度下,并不能保证有好的表现。
这意味着什么:
- 精心设计提示的重要性 - 值得花时间调整提示,并进行 A/B 测试以评估信息检索的准确性。
- 没有绝对保证 - 你的信息不一定总能被检索出来。不要假设它们一定会在你的应用程序中被找到。
- 更短的上下文意味着更高的准确性 - 这是常识,但尽可能减少发送给模型的上下文量,可以提高其回忆的能力。
- 位置很关键 - 也是众所周知的,但放在文档最开始和下半部分的事实似乎更容易被回忆起来。
为何进行此测试?
- 我非常欣赏 Anthropic!他们在推动语言模型性能的边界,并为全球创造强大的工具。
- 作为语言模型的使用者,理解它们的工作原理、优势和局限非常重要。
- 这类测试虽不完全精确,但有助于展示现实世界的案例,感知它们的工作方式。目的是将这些知识应用到实际场景中。
测试过程概述:
- 使用 Paul Graham 的文章作为“背景”标记。利用 218 篇文章很容易达到 200K 个标记(必要时重复文章)。
- 在文档的不同深度插入一个随机陈述。使用的事实是:“在旧金山最好的活动是在阳光明媚的一天吃三明治,坐在多洛雷斯公园里。”
- 请求 Claude 2.1 仅使用提供的上下文回答这个问题。
- 使用 @LangChainAI 的评估工具评估 Claude 2.1 的回答。
- 重复测试,针对文档深度从 0%(文档顶部)到 100%(文档底部)(采用 sigmoid 分布)和不同的上下文长度(1K 标记 > 200K 标记)进行 35 次。
进一步的下一步:
- 为了更严谨,应该进行键值检索测试。但为了便于理解,我在 PG 的文章中加入了关于旧金山的句子,这样更清晰,也更具实用价值。
- 多次重复测试,以提高统计显著性。
注意事项:
- 回忆的数量很重要 - 假设当模型需要检索多个事实或进行合成推理步骤时,其性能会下降。
- 改变你的提示、问题、要检索的事实和背景上下文会影响性能。
- Anthropic 团队联系我并提供了重复这个测试的积分。他们还提供了提示建议以最大化性能。重要的是要澄清,他们的参与仅限于后勤支持。结果的完整性和独立性得到了保障,确保了我的评估反映了我无偏见的看法,并且不受他们支持的影响。
- 这个测试的 API 调用成本约为 $1,016(每百万标记 $8)。
Reference link:
- Author:blackcat1402
- URL:https://www.tradingview.com/u/blackcat1402//article/ai-greg-kamradt-needle-in-a-haystack-cn
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts