克劳德(Claude)出版了Yizhu报纸,并与“苹果的大
- 编辑:admin -克劳德(Claude)出版了Yizhu报纸,并与“苹果的大
资料来源:DeepTech最近,有关大规模推理模型的能力的学术辩论引起了AI调查领域的轰动。苹果发表了一篇文章,质疑大规模推理模型(例如DeepSeek-R1)的基本能力后,许多社区研究人员对他质疑,认为苹果的结论是“当您不能吃葡萄时,您说葡萄是酸的。”同时,关于调查本身的内容的严格问题是另一个之后的,甚至AI模型也参与了这场激烈的辩论。研究人员A. Open慈善事业的律师使用克劳德·洛斯(Claude Opus)展示了思想的幻想:A Shojae等人。 (2025))。如前所述,苹果研究人员要求该模型解决几个难题。我们发现,在越过一定的复杂性阈值之后,我们发现这是在Gran推理模型中完全崩溃的。这显示了t这些模型实际上并没有发展出可推广的推理特征,但是根据苹果研究团队的说法,它们仅是某种形式的模式巧合。例如,该模型可以在汉诺威塔中完成多达100个正确的操作,但在横穿河流难题的逻辑推理游戏中不能超过5个正确的动作。但是,此反驳和其他相关问题中的文件说明了基本问题。 Apple Team的发现反映了实验设计的一定局限性,而不是从根本上说明模型的基本推断。第一个中心问题是“物理令牌限制促进了外观的崩溃”。克劳德(Claude)的调查发现,汉诺威(Hanover)超过塔架实验在苹果告知的故障点上的模型的令牌极限。本文档引用了X用户 @scaing01的复制实验,该实验捕获了模型的退出。 “这种模式仍在继续,但我们会说p here to prevent it from being too long." @Scaling01 is less in the tower of Hanverte also requires movement 2^N-1, and the output format used by Apple requires 10 tokens and a movement constant. More importantly, the output limits for different models vary widely. Sonnet3.7 is a 128K token, Deepseek R1 is a 64K and O3-mini token is a 100K token. These limitations also include the reasons为什么在生成T.获得的最终响应之前使用它。问题变得太大,模型甚至没有原因,但直接说:“由于大量动作,我们解释了解决方案instead列出32,767个动作。最大的求解可以通过数学方程式来预测这些限制,而 @scaleing01也可以在线上进行限制。模型的问题和算法受到输出格式的限制。更严重的问题。克劳德·纸(Claude Paper)说,苹果队使用容器的容量B = 3测试了n≥6的演员的示例,这是一个长期的数学结果。该通道的传教难题及其变化为n 5,b = 3没有解决方案。当自动评估这些不可能的情况为失败时,研究人员无意间证明了纯粹的程序评估的风险。该模型获得的零是为了正确识别无法解决的问题,而不是推断推断失败。 @Scaleing01从另一个角度分析复杂性测量问题。他指出,苹果对问题复杂性等最佳路线长度的研究在根本上是不正确的。因为它没有告诉您找到解决方案有多困难。即使汉诺威塔中的搜索空间很大,也无需执行搜索或挫折。只有一个简单的规则可应用(LargE语言模型知道它),因此只有一条可能的路线。为了证明这一点, @scaling01和gemini 2.5 Pro在寻找游戏的其他最合适的指标,并不断地对游戏的难度进行分类:河流的穿越,建筑世界,女士的跳跃,汉诺威的塔,汉诺威塔的塔在苹果研究表中也显示了内容,表明内容显示的内容完全一致。也就是说,“ Apple Team Models可以找到较低组合的难题,并在各种难题中成功使用较高的组合。”这一发现并不奇怪,但完全可以预料到这一点。除了以前的问题外,研究人员还质疑使用称为汉诺威塔的难题的合理性来证明推理能力。如果您担心数学编程污染的问题,为什么您会选择培训中存在的著名谜语的解决方案Data? thatThis is "Petral Cassonnet" when it comes to writing, I do not believe that there is any real progress, since the language model is much less than GPT-3.5 ". Apple's investigation states that the" complexity threshold "affirms that the model cannot infer, a blog post related to the photo (source: Sean Goedecke) suggests that many intermediates propose the soul. The meticulous to carry out thousands of repetitions Boring. Of course, this对“拟人化”模型的行为的解释并不是另一组评论员认为,将模型的行为描述为“不愿意”或“发现”模型更为复杂,重要的是,当它不能导出最重要的是无法正确地出现问题,而不是表现出8和10。 Claude的研究进行了重要实验。不到5,000个令牌。模型本身的容量和溶剂性质可能会丢失,解决方案的长度不能完全预测问题的难度。但是,这些都不支持“模型具有基本推论限制”的中心陈述。 “问题的关键可能不是,如果可以推断出大型推理模型,将取决于评估系统是否可以区分'写入'的能力和推断。 //x.com/scaling01/status/19317850505126954Peration/type: