0871-64605728
您当前位置:网站首页 >> 新闻资讯
感谢 DeepSeek:Predibase 发布全球首个端到端强化微调平台并开源,支持无服务器和端到端训练方法
文章来源:IT之家  作 者:问舟  上传时间:2025-3-21  浏览量:46

昨日晚间,大模型训练、开发平台 Predibase 发布了一个完全托管、无服务器、端到端的强化微调平台,也是首个端到端强化微调(RFT)平台。

Predibase 表示,DeepSeek-R1 的开源在全球 AI 领域产生了巨大影响,让很多人意识到强化学习微调对训练大模型的重要性。受此启发,他们开发了这个端到端无服务器强化微调平台。

与传统的监督式微调相比,RFT 不依赖大量的标注数据,而是通过奖励和自定义函数来完成持续地强化学习,同时支持无服务器和端到端训练方法,从数据管理、训练模型到应用部署可以在同一个平台完成。用户只需要一个浏览器,设定微调目标、上传数据、就能完成以前非常复杂的大模型微调流程。

为了展示 RFT 的强大,Predibase 基于阿里 Qwen2.5-Coder-32B-instruct 微调了一个专门用于将 PyTorch 代码翻译为 Triton 的模型 Predibase-T2T-32B-RFT,并根据其他更大的基础模型(包括 DeepSeek-R1、Claude 3.7 Sonnet 和 OpenAI o1)对内核正确性进行了基准测试。

与传统的监督式微调方法不同,Predibase-T2T-32B-RFT 利用 RFT 以交互方式调整模型行为,以最少的标记数据优化下游任务质量。这使其成为专有 LLM 的高性价比、高性能替代方案。

通过 RFT,Predibase 在训练过程结合了冷启动监督式微调、强化学习和课程学习,并且只使用了十几个标记数据点。

在 Kernelbench 数据集上进行的基准测试显示,Qwen2.5-Coder-32B-instruct 经过强化后,其正确率比 DeepSeek-R1 和 OpenAI 的 o1 高出 3 倍,比 Claude 3.7 Sonnet 高出 4 倍以上,而模型占用的空间却小了一个数量级。

附开源地址:

https://huggingface.co/predibase/Predibase-T2T-32B-RFT

在线体验地址:

https://predibase.com/reinforcement-fine-tuning-playground

18

2021-09

刷掌支付:噱头还是风口

刷掌支付:噱头还是风口

21

2025-03

AI大模型“爆发”须防范数据法律风险

AI大模型“爆发”须防范数据法律风险

25

2025-04

CounterPoint 报告 2025Q1 全球 PC 出货量:联想同比增 11%、惠普增 6%、戴尔增 4%、苹果增 17%、华硕增 9%

CounterPoint 报告 2025Q1 全球 PC 出货量:联想同比增 11%、惠普增 6%、戴尔增 4%、苹果增 17%、华硕增 9%

02

2022-09

腾讯在To B丛林中磨出一把利刃

腾讯在To B丛林中磨出一把利刃

01

2024-11

5G基站超400万 TOB与TOC应用需并驾齐驱

5G基站超400万 TOB与TOC应用需并驾齐驱

16

2023-06

大突破:IBM 称攻克了量子计算“不可靠”难题

大突破:IBM 称攻克了量子计算“不可靠”难题

07

2025-03

微信“牵手”deepseek,腾讯在下一盘什么棋?

微信“牵手”deepseek,腾讯在下一盘什么棋?

12

2022-08

试用三天 手机应用“免费餐”真香吗?

试用三天 手机应用“免费餐”真香吗?
返回顶部
客服电话
0871-64605728
用微信扫一扫关注我们
请各公司推销人员注意:我单位拒绝任何方式、任何形式的电话推销,请勿拔打我单位客服热线进行电话推销,谢谢合作!
公司名称:云南昂略科技有限公司
联系地址:云南省昆明市官渡区永平路188号鑫都韵城写字楼6栋1004号
联系电话:0871-64605728、传真号码:0871-64605728
电子邮箱:19701580@qq.com
关键词:新闻资讯:感谢 DeepSeek:Predibase 发布全球首个端到端强化微调平台并开源,支持无服务器和端到端训练方法,云南昂略科技有限公司,云南移动执法平台建设,云南智慧安防调度系统,云南头戴式安全终端,昂略科技
云南网站建设,云南网页设计,昆明网站建设,昆明网页设计  网站管理
【版权声明】本站部分内容由互联网用户自行发布,著作权或版权归原作者所有。如果侵犯到您的权益请发邮件致info@ynjwz.com,我们会第一时间进行删除并表示歉意。