小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化_AI&大模型_Kitty_InfoQ精选文章