上传于 2023-02-13 11:53 阅读:290 次 标签:人工智能  学术论文  强化学习  RLHF   评论

Policy Shaping: Integrating Human Feedback with Reinforcement Learning

Shane Griffith, Kaushik Subramanian, Jonathan Scholz, Charles L. Isbell, and Andrea Thomaz

College of Computing

文档评论

您不能发表评论,可能是以下原因
登录后才能评论