ChatGPT具备真正的推理能力吗？

导航目录

1. 前言
- 1.1 什么是GSM-Symbolic？
2. 论文质疑了什么？
- 2.1 鸡兔同笼问题
3. 质疑的哲学和伦理
4. 对普通用户的影响

1. 前言

最近苹果公司工程师 Iman Mirzadeh发表一篇论文“GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models”的论文，质疑OpenAI o1的推理能力。

1.1 什么是GSM-Symbolic？

OpenAI 2021 年提出的 GSM8K（Grade School Math 8K）小学数学题数据集已成为评估 LLM 数学推理能力的流行基准。尽管它包含了详细的解决方案的简单数学问题，适合使用思维链（CoT）提示等技术，但它只提供了一个固定问题集上的单一指标。论文作者提出了 GSM-Symbolic，这是一个增强的基准，它使用符号模板生成 GSM8K 问题的多样化变体。这使得研究者能够对 LLM 在各种设置中的性能进行更细致和可靠的评估，超越了单点准确度指标。

简而简之，GSM8K是包含一堆了鸡兔同笼问题的试卷，让GPT去进行考试，最后对GPT的成绩进行打分。而GSM-Symbolic是一个更为完备的GSM8K，具备更为丰富的试题，更为完善的考试标准，更专业的阅卷老师。

2. 论文质疑了什么？

论文作者使用GSM-Symbolic对大模型进行测试，评估其在同一个问题的不同变体上的的回答效果。

2.1 鸡兔同笼问题

中国古代的数学书籍《孙子算经》，里面就有关于鸡兔同笼问题的描述，在《孙子算经》里，鸡兔同笼问题被叫做雉兔同笼问题。原文是：今有雉、兔同笼，上有三十五头，下有九十四足。问：雉、兔各几何？翻译一下就是：鸡、兔在同一个笼子里，上面有35个头，下面有94只脚。问：鸡、兔各多少只？

回到问题，Iman Mirzadeh的论文质疑了什么？他测试发现：GPT能很好地回答“鸡、兔在同一个笼子里，上面有35个头，下面有94只脚。问：鸡、兔各多少只？” 但是当这个问题发生调整，但本质上仍然是同一个问题的情况下，GPT的表现会下降。

鸡兔同笼问题的变体：

鸡、兔在同一个笼子里，上面有100个头，下面有160只脚。问：鸡、兔各多少只？（改变数字）
鸡、兔在同一个房间里，经过观察发现它们有100个头和160只脚，那么鸡兔各有多少只（改变描述）
更多的变体
1. 增加更多的描述文字
2. 替换问题中的主题名称

这些变体不同，但是本质上仍然是一个问题，而GPT的回答效果确不尽相同，所以问题来了：如果GPT具备真正的推理能力，那么它应该能像人类一样能面对这些变体。

因此Iman Mirzadeh质疑GPT并不具备真正的推理和计算能力，而只是一种复杂的匹配能力。

3. 质疑的哲学和伦理

OpenAI：“好像牛顿建立经典力学，爱意斯坦建立相对论，OpenAI登上了山顶，看到了的绝美风景，ChatGPT就是目前的最最佳范式。”

Apple：“为什么我的试验似乎表明你的范式有问题？你是不是没有登上山顶？我沿着你的路走，会不会掉进坑里? 你想害我不成？”

4. 对普通用户的影响

尽管论文里提到的问题确实存在，但是ChatGPT在实际使用里已经足够惊艳众人，特别是在中国这样一个极度注重实用主义的地方，所以这个质疑或许能帮助我们更好的使用GPT。

优化你的提问用词，精准简洁地描述问题，避免过多无用词的干扰……

本站文章除单独注明外均为原创，本文链接https://bowmanjin.com/1085，未经允许请勿转载。

ChatGPT具备真正的推理能力吗？

1. 前言

1.1 什么是GSM-Symbolic？

2. 论文质疑了什么？

2.1 鸡兔同笼问题

3. 质疑的哲学和伦理

4. 对普通用户的影响

评论0

请先登录！

繁简切换

返回顶部

ChatGPT具备真正的推理能力吗？

1. 前言

1.1 什么是GSM-Symbolic？

2. 论文质疑了什么？

2.1 鸡兔同笼问题

3. 质疑的哲学和伦理

4. 对普通用户的影响

猜你喜欢

2025年GitHub 镜像可用站点收集

部署本地DeepSeek大模型时，怎么选择合适的模型文件？

GPT语言大模型个人使用体验排名。

当前文档词语A出现1000次, 词语B出现10次, 词A的置信度一定比B更高吗?

评论0

请先 登录 ！

繁简切换

返回顶部

请先登录！