
苹果炮轰AI推理模型:全是假思考!所谓思考只是一种假象
声明:该文章来自(快科技)版权由原作者所有,K2OS渲染引擎提供网页加速服务。
苹果近日发表了一篇研究论文,称推理模型全都没真正思考,无论DeepSeek、o3-mini还是Claude 3.7都只是另一种形式的“模式匹配”,所谓思考只是一种假象。
有人总结到:苹果刚刚当了一回马库斯,否定了所有大模型的推理能力。
苹果团队认为,现有评估主要集中在既定的数学和编码基准上,看模型最终答案是否正确,但可能存在模型训练时见过类似题目。
并且,这些评估大都缺乏对“思考过程质量”的分析,比如中间步骤是否逻辑一致、是否绕弯路等。
为了更客观测试推理模型的推理能力,他们设计了4类谜题环境:汉诺塔、跳棋交换、过河问题、积木世界,并且这4类谜题的难度可以精确控制.
随着问题变难,推理模型初始会延长思考,但随后思考深度反而下降,尽管仍有充足token预算,它们却在最需要深入思考时选择了放弃!
并且,当问题复杂度继续增加并超过某个临界点时,无论是推理模型还是标准模型都会经历完全的性能崩溃,准确率直线下降至零。
对此,有网友讽刺到:“苹果拥有最多的资金,2年了也没有拿出像样的成果,现在自己落后了,却来否定别人的成果。”
据悉,Apple Intelligence在2024年WWDC正式亮相,在这一年里,苹果宣传中的许多功能都经历延期、不够完善甚至被下架。
不过也有人指出,这篇论文没有看上去那么消极,而是呼吁设立更好的推理机制和评估办法。
[超站]友情链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
- 1 完整准确全面贯彻新时代党的治疆方略 7904288
- 2 广州塔“定塔神器”出现明显摆动 7808970
- 3 “晕车晕机见多了 晕楼不常见” 7713284
- 4 从两种精神看新疆70年巨变 7615873
- 5 泽连斯基:乌克兰决定开放武器出口 7522687
- 6 “A股好岳父”转给女婿2.8亿元股份 7429103
- 7 净网:2人非法破解无人机系统被查处 7328513
- 8 俞孔坚坠亡前最后影像曝光 7235783
- 9 老人去世留8套房 给非亲生女儿最多 7142148
- 10 天山焕新颜 丝路著华章 7039545