CausalLM并不适合于上下文学习

Nan Ding、Tomer Levinboim、Jialin Wu、Sebastian Goodman和Radu Soricut
最近的实证证据表明,基于Transformer的上下文学习在使用前缀语言模型(prefixLM)时表现更佳。在前缀语言模型中,上下文样本可以相互关注,而因果语言模型(causalLM)则使用自回归注意力,禁止上下文样本关注未来样本。虽然这个结果很直观,但从理论角度来看还没有得到解释。本...

用户分享观点: