
DeepSeek研究员在线爆料:过年都没歇 还有大招!
技术
2025-02-05 12:01
声明:该文章来自(新浪证券)版权由原作者所有,K2OS渲染引擎提供网页加速服务。
大年初四Daya Guo发了一条推文,透露了春节期间让他最兴奋的事情,亲眼见证了R1-Zero模型性能曲线的 “持续增长”,并且直言感受到了 强化学习(RL)的强大力量。
Daya Guo回复了网友有关DeepSeek R1的一些问题,以及接下来的公司的计划,只能说DeepSeek的R1仅仅只是开始,内部研究还在快速推进,DeepSeek的研究员过年都没歇,一直在爆肝推进研究,接下来DeepSeek还有大招。
网友提问:“如果不是秘密的话:这次RL训练跑了多久?”对此,Daya Guo表示,660B参数的R1-Zero和R1是在V3发布之后才开始跑的,训练大约花了2-3周。
此外,他还表示在尝试将R1应用于形式化证明环境,希望尽快向社区发布更好的模型。听Daya Guo的意思,他们在这方面已经有进展,未来可能会有更重磅的模型发布!期待值拉满!
[超站]友情链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
排名
热点
搜索指数
- 1 总书记借泰山喻作风 7904148
- 2 “中国不接受、不承认!” 7808012
- 3 985大学教授沉迷短剧:昏天黑地追 7712706
- 4 封关后到海南不需额外办理证件 7617971
- 5 纪委回应“公职人员兼职送外卖” 7520642
- 6 A股收盘:全市场超4000只个股下跌 7426141
- 7 海南省委书记:封关政策准备就绪 7327956
- 8 潘玮柏请求网友:别让公司知道我偷吃 7235708
- 9 网警说安全|闻“汛”而来的谣言 7136413
- 10 撞脸张柏芝女孩商场站台2小时8千元 7046611