Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement Learning - 工业4.0创新平台

Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement Learning [英文] [申请下载]

上传于 2023-02-13 11:53 阅读：387 次 标签：人工智能学术论文强化学习 RLHF 评论

Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement Learning

Julia Kreutzer1 and Joshua Uyheng3 and Stefan Riezler1;2

1Computational Linguistics & 2IWR, Heidelberg University, Germany

文档评论

您不能发表评论，可能是以下原因: 登录后才能评论