type
status
date
slug
summary
AI summary
AI translation
tags
category
password
icon
OKX欧易开户即可获得:现货合约永久返佣10%,手续费8折,永久获得青猫会员高级指标使用特权,高级交易系统免费内测,会员技术指标定义开发等专属服务。
欧易交易所blackcat1402邀请注册(国内,无需魔法)链接:
欧易交易所blackcat1402邀请注册(国外,需要魔法)链接:
GPT-4-128K 长文本回忆能力的压力测试
128K 令牌的文本上下文听起来很厉害,但实际效果如何?
为了探究这个问题,我进行了一项“大海捞针”式的分析。
这里既包括了一些预期的结果,也有意外的发现:
发现内容:
- 当文本超过 73K 令牌时,GPT-4 的回忆能力开始下降。
- 当所需回忆的信息位于文档深度的 7% 至 50% 时,回忆表现较差。
- 不过,如果信息位于文档的开头,无论文本有多长,都能被准确回忆。
那么这意味着什么:
- 没有保证 - 你的信息可能无法被准确检索,不要假设它们一定会在你的应用中被找到。
- 上下文越少,准确性越高 - 这是众所周知的,但减少发送给 GPT-4 的上下文量,能有效提升其信息回忆的准确性。
- 位置很重要 - 这也是众所周知的,但位于文档最开始和后半部分的信息似乎更容易被准确回忆。
过程概述:
- 我使用了 Paul Graham 的文章作为背景内容,通过 218 篇文章很容易堆积至 128K 令牌。
- 在文档的不同深度插入一个随机声明。所用信息为:“在旧金山最好的活动是吃三明治,并在阳光明媚的一天里坐在多洛雷斯公园。”
- 让 GPT-4 只依据提供的上下文来回答问题。
- 使用另一个模型(再次使用 gpt-4)通过 @LangChainAI 的评估来检验 GPT-4 的答案。
- 重复进行 15 次不同文档深度(从文档顶部的 0% 到底部的 100%)和 15 次不同上下文长度(从 1K 令牌到 128K 令牌)的测试。
未来的进一步步骤:
- 这次分析采取了均匀分布的迭代,有建议指出,采用 S 形分布的方式可能会更好,这样可以更细致地探索文档开头和结尾的细微差别。
- 为了更严谨,应该进行键值对检索测试。但为了更易于理解,我选择了在 Paul Graham 文章中加入一个关于旧金山的句子。
备注:
- 尽管我认为这个方向基本正确,但还需要更多的测试来更准确地评估 GPT-4 的能力。
- 改变提示可能会导致不同的结果。
- 在大量上下文的测试中,我进行了两次实验,以便更深入地探索性能。
- 这次测试的 API 调用费用大约为 200 美元(每次在 128K 输入令牌下的调用成本为 1.28 美元)。
- 感谢 @charles_irl 作为我的思考伙伴,并提供了极好的后续步骤建议。
Reference link:
- Author:blackcat1402
- URL:https://www.tradingview.com/u/blackcat1402//article/gpt4-greg-kamradt-needle-in-a-haystack-cn
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!