ChatGPT具备真正的推理能力吗?

1. 前言

最近苹果公司工程师 Iman Mirzadeh发表一篇论文“GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models”的论文,质疑OpenAI o1的推理能力。

1.1 什么是GSM-Symbolic?

OpenAI 2021 年提出的 GSM8K(Grade School Math 8K)小学数学题数据集已成为评估 LLM 数学推理能力的流行基准。尽管它包含了详细的解决方案的简单数学问题,适合使用思维链(CoT)提示等技术,但它只提供了一个固定问题集上的单一指标。论文作者提出了 GSM-Symbolic,这是一个增强的基准,它使用符号模板生成 GSM8K 问题的多样化变体。这使得研究者能够对 LLM 在各种设置中的性能进行更细致和可靠的评估,超越了单点准确度指标。

简而简之,GSM8K是包含一堆了鸡兔同笼问题的试卷,让GPT去进行考试,最后对GPT的成绩进行打分。而GSM-Symbolic是一个更为完备的GSM8K,具备更为丰富的试题,更为完善的考试标准,更专业的阅卷老师。

2. 论文质疑了什么?

论文作者使用GSM-Symbolic对大模型进行测试,评估其在同一个问题的不同变体上的的回答效果。

2.1 鸡兔同笼问题

中国古代的数学书籍《孙子算经》,里面就有关于鸡兔同笼问题的描述,在《孙子算经》里,鸡兔同笼问题被叫做雉兔同笼问题。原文是:今有雉、兔同笼,上有三十五头,下有九十四足。问:雉、兔各几何?翻译一下就是:鸡、兔在同一个笼子里,上面有35个头,下面有94只脚。问:鸡、兔各多少只?

回到问题,Iman Mirzadeh的论文质疑了什么?他测试发现:GPT能很好地回答“鸡、兔在同一个笼子里,上面有35个头,下面有94只脚。问:鸡、兔各多少只?” 但是当这个问题发生调整,但本质上仍然是同一个问题的情况下,GPT的表现会下降。

鸡兔同笼问题的变体:

  1. 鸡、兔在同一个笼子里,上面有100个头,下面有160只脚。问:鸡、兔各多少只?(改变数字)
  2. 鸡、兔在同一个房间里,经过观察发现它们有100个头和160只脚,那么鸡兔各有多少只(改变描述)
  3. 更多的变体
    1. 增加更多的描述文字
    2. 替换问题中的主题名称

这些变体不同,但是本质上仍然是一个问题,而GPT的回答效果确不尽相同,所以问题来了:如果GPT具备真正的推理能力,那么它应该能像人类一样能面对这些变体。

因此Iman Mirzadeh质疑GPT并不具备真正的推理和计算能力,而只是一种复杂的匹配能力。

3. 质疑的哲学和伦理

OpenAI:“好像牛顿建立经典力学,爱意斯坦建立相对论,OpenAI登上了山顶,看到了的绝美风景,ChatGPT就是目前的最最佳范式。”

Apple:“为什么我的试验似乎表明你的范式有问题?你是不是没有登上山顶?我沿着你的路走,会不会掉进坑里?”

4. 对普通用户的影响

尽管论文里提到的问题确实存在,但是ChatGPT在实际使用里已经足够惊艳众人,特别是在中国这样一个极度注重实用主义的地方,所以这个质疑或许能帮助我们更好的使用GPT。

优化你的提问用词,精准简洁地描述问题,避免过多无用词的干扰……

本站文章除单独注明外均为原创,本文链接https://bowmanjin.com/1085,未经允许请勿转载。

0

评论0

请先

没有账号? 注册  忘记密码?