用大型语言模型指导强化学习中的预训练

Yuqing Du,Olivia Watkins,Zihan Wang,Cédric Colas,Trevor Darrell,Pieter Abbeel,Abhishek Gupta,Jacob Andreas
基于文本语料库的探索我们描述了一种从文本语料库中提取背景知识来塑造探索的方法。这种方法称之为ELSM(使用LLM进行探索),它奖励代理达到由语言模型启发的目标,并伴随其描述的agent当前状态。利用大规模语言模型预训练,ELSM引导代理走向人类意义丰富的和合理有用的行为。在Crafter...

用户分享观点: