Meta宣布彻底解决RAG最大痛点:速度提升30倍,上下文窗口暴增16倍,成本直接腰斩!
来源:[大模型技术洞察]
大家有没有这种感觉: 明明只想让大模型看10段资料,它偏偏要硬塞100段,消耗的token数像火箭一样增长,速度还慢得像乌龟?
恭喜你,这个行业通病, Meta今天直接给治好了 **** 。
他们刚开源了一个叫 **REFRAG **的新 RAG 方案,简单粗暴地说: 把无关的上下文压缩到几乎不占地方,只给模型看真正有用的那部分 **** 。
实测结果直接看傻人:
首token延迟快30.85倍 ****
有效上下文窗口扩大16倍 ****
处理的token量减少2-4倍 ****
在16个主流RAG评测上全面吊打原版LLaMA ****
这不是小修小补...