BIT2024XX536
【信息】使用逆向强化学习自动化大模型奖励模型设计
创新训练项目
北京理工大学
一年期
工学
计算机类
2025-07-16
姓名 专业班级 所在学院 项目中的分工 成员类型
冯海辛 第一主持人
姓名 职称 指导教师类型
闫波 讲师 第一指导教师