

近年来,以ChatGPT为代表的大语言模型(LLM)和AIGC工具快速发展,不少专家甚至非专业人士开始鼓吹LLM具备了“推理能力”。然而,这篇由日本埼玉大学荣誉教授Jingde Cheng撰写的论文,却提出了一个截然相反的观点:LLM本质上永远无法实现真正的正确推理。本文不仅严格定义了什么是“正确推理”,还从逻辑学的根本原则出发,深入剖析了LLM的工作原理及其局限性河南配资公司,最终得出结论:追求不具备正确性保障的LLM推理能力,如同追求永动机一样徒劳。这篇论文不仅对当前AI热潮进行了冷静的反思,也为未来推理智能体的研究指明了方向。

论文:Why Cannot Large Language Models Ever Make True Correct Reasoning?
链接:https://arxiv.org/pdf/2508.10265v2
背景与核心议题
论文开篇即指出,尽管当前社会对LLM的“推理能力”充满乐观,但这种看法实则是一种“幻觉”。作者认为,这是由于很多人对“推理”这一概念理解模糊所致。LLM本质上是一种基于概率统计的生成模型,其工作原理决定了它无法保证推理过程的正确性。因此,论文的核心任务是阐明何为“正确推理”,并从逻辑和计算原理两个层面论证LLM为何无法实现这一目标。
什么是真正的正确推理? 1. 推理的定义
推理是从已知前提(事实或假设)出发,通过一系列有序的论证步骤,得出新结论的过程。关键在于,前提必须为结论提供决定性的、相关的证据。
2. 正确推理的核心
不是所有推理都是正确的。只有当前提确实能提供 conclusive relevant evidence(结论性的相关证据)时,推理才是正确的。例如:
(1)如果一个数是有理数,那么它可以表示为两个整数的比。 (2)π不能表示为两个整数的比。 (3)因此,π不是有理数。 (4)π是一个数。 (5)因此,存在至少一个无理数。
这是一个正确的推理,因为(1)(2)为(3)提供了证据,(3)(4)又为(5)提供了证据。但如果将(4)改为“e是一个数”,则无法推出(5),因为前提与结论之间缺乏相关性。
3. 三种推理类型
演绎推理:前提为结论提供绝对支持(如Modus Ponens)。
归纳推理:前提为结论提供一定程度的概率性支持(如从个别推到一般)。
溯因推理:从观察到的现象出发,提出最佳解释作为结论(如解释性假设)。
正确推理的逻辑基础 1. 逻辑的作用
逻辑的根本任务是提供判断推理是否正确的标准。它研究的是“什么能从什么中推出”,即逻辑后果关系(logical consequence relation)。
2. 条件句(conditional)的核心地位
任何推理都离不开“如果……那么……”这样的条件句。条件句的真值不仅取决于前后件的真假,更取决于它们之间的相关性和必然性。因此,条件句是“逻辑的心脏”。
3. 正确推理需满足的三个基本逻辑要求
作者提出,一个能支撑正确推理的逻辑系统必须满足以下三点:
必须能保证前提与结论之间的相关性,而不仅仅是真值保留。
必须支持扩展性推理(ampliative reasoning),即结论是新的,而非隐含在前提中。
必须能处理不完全或不一致的知识(即支持paracomplete和paraconsistent推理),不能因为出现矛盾就导致整个系统崩溃(拒绝爆炸原理)。
4. 对经典数学逻辑(CML)的批评
CML使用“实质蕴含”来表示“如果……那么……”,但这是一种真值函数式的表达,忽略了相关性,导致出现诸如“假命题蕴含任何命题”这样的悖论。因此,CML无法满足上述三个要求。
5. 强相关逻辑(SRL)的提出
作者认为,只有强相关逻辑(Strong Relevant Logics, SRLs)才能满足正确推理的要求。SRL不仅要求变量共享(确保相关性),还要求命题中的每个变量都必须在前提和结论中都出现,从而彻底排除各种蕴含悖论。
LLM的根本局限 1. LLM的工作原理
LLM本质上是基于海量文本数据训练出的统计模型,其目标是预测下一个最可能的token(词/字符/标点)。它生成文本的过程是逐token进行的、概率性的,而非基于逻辑推导。
2. LLM“推理”的实质
LLM之所以能“看起来”在推理,是因为:
训练数据中包含大量人类正确的推理例子,LLM只是模仿和复制这些模式。
LLM强大的语言能力导致伊丽莎效应(ELIZA Effect),让人误以为它在理解、在推理。
它有时能解决对人类来说困难的问题,但这不代表它掌握了正确推理。
3. 无法实现100%正确性的根本原因
真正正确的推理要求100%的逻辑正确性,而LLM基于概率的工作原则无法提供这种保证。它可能这次输出正确的推理,下次就输出错误的或无意义的内容。
4. 缺乏内置的正确性评估机制
LLM的架构中无法嵌入一个形式化的逻辑系统(如SRL)作为推理正确性的评估标准。它也没有全局视角的动态评估机制来判断生成过程中的逻辑有效性。LLM中的“正确”只是统计上的 plausibility(似真性),而非与现实对应的真实正确性。
结论与展望
论文最终得出结论:由于根本的工作原理限制,LLM永远无法具备真正正确的推理能力。任何忽视正确性评估标准而追求LLM推理能力的研究方向都是错误且徒劳的。
作者呼吁,未来的研究应回归逻辑学的基础,将如强相关逻辑(SRL)这样的形式化系统嵌入智能体中,为其提供真正的推理能力保障。尤其是在那些不容许错误的关键应用领域(如医疗、司法、科学发现),具备正确性保证的推理机制至关重要。
以上为日本学者的一些观点,如果你有哪些不一样的观点,可以在评论区留言哈,大家一起讨论~
实盘配资平台提示:文章来自网络,不代表本站观点。