OpenAI推出强化微调，CEO称是今年最大惊喜之一

　　OpenAI研究员演示，强化微调后的o1 mini测试通过率甚至比正式版o1高24%，比未强化微调的o1 mini提高了82%。

　　当地时间12月6日，OpenAI公布第二日活动主题：推出了强化微调（Reinforcement Fine-Tuning），帮助开发者和机器学习工程师打造针对特定复杂领域任务的专家模型。OpenAI CEO Sam Altman在X发帖称，强化微调的效果非常棒，是他今年最大的惊喜之一，期待看到大家利用这种功能的创造。

　　该项目通过全新的模型定制技术，让开发者可以使用高质量任务集对模型进行微调，并利用参考答案评估模型的响应，从而提升模型在特定领域任务中的推理能力和准确性。

　　OpenAI的研究员称，强化微调并不是只教模型模型输出，它的运作方式是，当模型发现一个问题的时候，研究者给模型空间区仔细思考这个问题，然后评估模型给出的最终解答，运用强化学习，研究者可以强化产生正确答案的思路，抑制产生错误答案的思路，只需要“几十个例子”甚至12个例子，模型就能以有效的新方式学习特定领域的推理。

　　OpenAI研究员演示，强化微调后的o1 mini测试通过率甚至比正式版o1高24%，比未强化微调的o1 mini提高了82%。

发表评论取消回复

25人参与，18条评论

钭冷霜
2024-12-07 19:14:14回复
　　OpenAI研究员演示，强化微调后的o1 mini测试通过率甚至比正式版o1高24%，比未强化微调的o1 mini提高了82%。　　当地时间12月6日，OpenAI公布第二日活动主题：推出了强化微调（Reinforce

陀寒山
2024-12-07 19:13:22回复
调的效果非常棒，是他今年最大的惊喜之一，期待看到大家利用这种功能的创造。　　该项目通过全新的模型定制技术，让开发者可以使用高质量任务集对模型进行微调，并利用参考答案评估模型的响应，从而提升模

不宛阳
2024-12-07 23:00:11回复
g），帮助开发者和机器学习工程师打造针对特定复杂领域任务的专家模型。OpenAI CEO Sam Altman在X发帖称，强化微调的效果非常棒，是他今年最大的惊喜之一，期待看到大家利用这种功能的创造。　　该项目通过全新的模型定制技术，让开发者可以使用高

仙凝安
2024-12-07 16:20:23回复
ent Fine-Tuning），帮助开发者和机器学习工程师打造针对特定复杂领域任务的专家模型。OpenAI CEO Sam Altman在X发帖称，强化微调的效果非常棒，是他今年最大的惊喜之一，期待看到大家利用这种功能的创

友阏逢
2024-12-07 22:50:41回复
　　OpenAI研究员演示，强化微调后的o1 mini测试通过率甚至比正式版o1高24%，比未强化微调的o1 mini提高了82%。　　当地时间12月6日，OpenAI公布第二日活动主题：推出了强化微调（Reinforcement Fine-Tuning），帮助开

滑丙申
2024-12-07 22:23:50回复
，强化微调后的o1 mini测试通过率甚至比正式版o1高24%，比未强化微调的o1 mini提高了82%。

令昭阳
2024-12-07 19:56:37回复
AI CEO Sam Altman在X发帖称，强化微调的效果非常棒，是他今年最大的惊喜之一，期待看到大家利用这种功能的创造。　　该项目通过全新的模型定制技术，让开发

宓丁巳
2024-12-07 20:29:42回复
确答案的思路，抑制产生错误答案的思路，只需要“几十个例子”甚至12个例子，模型就能以有效的新方式学习特定领域的推理。　　OpenAI研究员演示，强化微调后的o1 mini测试通过率甚至比正式版o1高24

谢丁卯
2024-12-07 14:01:45回复
估模型的响应，从而提升模型在特定领域任务中的推理能力和准确性。　　OpenAI的研究员称，强化微调并不是只教模型模型输出，它的运作方式是，当模型发现一个问题的时候，研究者给模型空间区

果幼柳
2024-12-07 14:49:23回复
当模型发现一个问题的时候，研究者给模型空间区仔细思考这个问题，然后评估模型给出的最终解答，运用强化学习，研究者可以强化产生正确答案的思路，抑制产生错误答案的思路，只需要“几十个例子”甚至12个例子，模型就能以有效的新方式学习特定

衅丙午
2024-12-07 14:30:52回复
运用强化学习，研究者可以强化产生正确答案的思路，抑制产生错误答案的思路，只需要“几十个例子”甚至12个例子，模型就能以有效的新方式学习特定领域的推理。　　OpenAI研究员演示，强化微调后的o1 mini测试通过率甚至比正式版o1高24%，比未强化微调的o1

泰壬申
2024-12-07 20:56:44回复
让开发者可以使用高质量任务集对模型进行微调，并利用参考答案评估模型的响应，从而提升模型在特定领域任务中的推理能力和准确性。　　OpenAI的研究员称，强化微调并不

包凡槐
2024-12-07 18:29:38回复
思路，抑制产生错误答案的思路，只需要“几十个例子”甚至12个例子，模型就能以有效的新方式学习特定领域的推理。　　OpenAI研究员演示，强化微调后的o1 mini测试通过率甚至比正式版o1高24%，比未强化微调的o1 mini提高了82%。

将癸酉
2024-12-07 14:33:53回复
ement Fine-Tuning），帮助开发者和机器学习工程师打造针对特定复杂领域任务的专家模型。OpenAI CEO Sam Altman在X发帖称，强化微调的效果非常棒，是他今年最大的惊喜之一，期待看到大家利用这种

索亦儿
2024-12-07 15:37:25回复
化产生正确答案的思路，抑制产生错误答案的思路，只需要“几十个例子”甚至12个例子，模型就能以有效的新方式学习特定领域的推理。　　OpenAI研究员演示，强化微调后的o1 mini测试通过率甚至比正式版

涂辛卯
2024-12-07 13:19:25回复
　　OpenAI研究员演示，强化微调后的o1 mini测试通过率甚至比正式版o1高24%，比未强化微调的o1 mini提高了82%。　　当地时间12月6日，OpenAI公布第二日活动主题：推出了强化微调（Reinforcement Fine-Tuning），帮助开发者和机器学习工程师打造针对特定复杂

犁旃蒙
2024-12-07 15:46:14回复
　　OpenAI研究员演示，强化微调后的o1 mini测试通过率甚至比正式版o1高24%，比未强化微调的o1 mini提高了82%。　　当地时间12月6日，OpenAI公布第二日活动主题：推出了强化微调（Reinforcemen

栋语巧
2024-12-07 17:04:43回复
，模型就能以有效的新方式学习特定领域的推理。　　OpenAI研究员演示，强化微调后的o1 mini测试通过率甚至比正式版o1高24%，比未强化微调的o1 mini提高了82%。

OpenAI推出强化微调，CEO称是今年最大惊喜之一

隐燕管理员

一机库发现约2万具尸体？哥伦比亚拒绝承认！哥伦比亚政府对该国最大贩毒集团进行空中打击，轰炸细节公布

凯盛新能公布陈鹏获委任为公司常务副总裁

发表评论取消回复

OpenAI推出强化微调，CEO称是今年最大惊喜之一

隐燕管理员

一机库发现约2万具尸体？哥伦比亚拒绝承认！哥伦比亚政府对该国最大贩毒集团进行空中打击，轰炸细节公布

凯盛新能公布陈鹏获委任为公司常务副总裁

相关文章

发表评论取消回复