当前位置:首页 > 热点关注 > 正文内容

DeepSeek新数学模型刷爆记录 刷新多项高难基准测试

4个月前 (05-01)热点关注121

   DeepSeek推出了新模型DeepSeek-Prover-V2,专注于数学定理证明,并在多项高难度基准测试中刷新了记录。在普特南测试上,Prover-V2解决了49道题,远超当前第一名的10道和未针对定理证明优化的DeepSeek-R1的1道。

  

   论文中特别提到“通过强化学习发现新技能”的现象。例如,在普特南测试中,参数量较小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解决了13个671B模型未能解决的问题。团队检查后发现,7B模型处理涉及有限基数的问题时,经常使用Cardinal.toNat和Cardinal.natCast_inj,而671B模型没有这些内容。这表明7B模型学会了671B模型未学会的新技能。

  

   DeepSeek-Prover系列模型已推出三款:2024年3月的DeepSeek-Prover、2024年8月的DeepSeek-Prover-V1.5以及2025年5月的DeepSeek-Prover-V2。Prover-V1主要通过大规模合成数据集微调DeepSeek-Math-7B来推进定理证明。Prover-V1.5增加了证明助手反馈的强化学习(RLPAF)和蒙特卡洛树搜索方法。Prover-V2进一步提出“子目标分解的强化学习”,基础模型从DeepSeek-Math-7B升级到DeepSeek-V3,整合了高上下文窗口和强大的自然语言推理能力,统一了形式化和非形式化数学证明。

  

   Prover-V2还继承了Prover-V1.5提出的CoT和非CoT生成两种模式。通过递归证明搜索合成冷启动推理数据,利用DeepSeek-V3将定理分解为高级证明草图并在Lean 4中形式化,从而产生一系列子目标。使用70亿参数模型处理每个子目标,减轻计算负担。一旦具有挑战性的问题的分解步骤得到解决,就将完整的逐步形式化证明与来自DeepSeek-V3的相应思维链配对,创建冷启动推理数据。

相关文章

分析师:制造业数据致使美元回到低谷 美元跌势加速

分析师:制造业数据致使美元回到低谷 美元跌势加速

   分析师:制造业数据致使美元回到低谷 美元跌势加速!财经网站Forexlive分析师指出,美元再次陷入低谷,尽管股市保持稳定,但美元疲软。美元的跌势正在加速,这是一个不祥的迹象。最新一...

《今日说法》 20250429 昂贵的“相亲”

   本期节目主要内容: 2024年的一天,河南省中牟县的李先生报警称,自己离婚后,在“对爱相亲”交友平台上认识了女嘉宾丹丹,其自称已离婚,是郑州一家医院的医生。李先生觉得和丹丹谈得来,不...

家政员工偷走雇主6万茅台酒 假酒调包案告破

   近期,成都武侯区簇锦派出所破获了一起盗窃案。嫌疑人为某家政公司员工,在工作期间趁雇主外出时伙同他人以假换线万余元的茅台酒。调查中,民警发现嫌疑人作案前故意将张先生家中的摄像头调转到死...

神舟十九号航天员平安抵京 进入隔离恢复期

   今天,圆满完成神舟十九号载人飞行任务的航天员乘组,已平安抵达北京。3名航天员抵京后将进入隔离恢复期,进行全面的医学检查和健康评估,并安排休养。...

签署“矿产协议” 美有“难言之隐” 美国让步背后的原因

签署“矿产协议” 美有“难言之隐” 美国让步背后的原因

   历经多轮谈判,美国和乌克兰最终签署了《美乌重建投资基金成立协议》,即此前所称的“美乌矿产协议”。从已公布的内容来看,该协议包含无债务负担、税收保障等条款,似乎对乌克兰有利,也比之前的...

《百家讲坛》 20250501 食物的历史(第一部) 7 荞麦花如雪

   本期节目主要内容:在我们的日常饮食中,小麦、稻米和玉米作为三大主粮作物早已家喻户晓,然而中华农耕文明孕育的五谷杂粮远不止于此,其中荞麦更是独具特色,它以“雅俗共生”的特质生动地诠释了...