1. 前言
最近苹果公司工程师 Iman Mirzadeh发表一篇论文“GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models”的论文,质疑OpenAI o1的推理能力。
1.1 什么是GSM-Symbolic?
OpenAI 2021 年提出的 GSM8K(Grade School Math 8K)小学数学题数据集已成为评估 LLM 数学推理能力的流行基准。尽管它包含了详细的解决方案的简单数学问题,适合使用思维链(CoT)提示等技术,但它只提供了一个固定问题集上的单一指标。论文作者提出了 GSM-Symbolic,这是一个增强的基准,它使用符号模板生成 GSM8K 问题的多样化变体。这使得研究者能够对 LLM 在各种设置中的性能进行更细致和可靠的评估,超越了单点准确度指标。
简而简之,GSM8K是包含一堆了鸡兔同笼问题的试卷,让GPT去进行考试,最后对GPT的成绩进行打分。而GSM-Symbolic是一个更为完备的GSM8K,具备更为丰富的试题,更为完善的考试标准,更专业的阅卷老师。
2. 论文质疑了什么?
论文作者使用GSM-Symbolic对大模型进行测试,评估其在同一个问题的不同变体上的的回答效果。
2.1 鸡兔同笼问题
中国古代的数学书籍《孙子算经》,里面就有关于鸡兔同笼问题的描述,在《孙子算经》里,鸡兔同笼问题被叫做雉兔同笼问题。原文是:今有雉、兔同笼,上有三十五头,下有九十四足。问:雉、兔各几何?翻译一下就是:鸡、兔在同一个笼子里,上面有35个头,下面有94只脚。问:鸡、兔各多少只?
回到问题,Iman Mirzadeh的论文质疑了什么?他测试发现:GPT能很好地回答“鸡、兔在同一个笼子里,上面有35个头,下面有94只脚。问:鸡、兔各多少只?” 但是当这个问题发生调整,但本质上仍然是同一个问题的情况下,GPT的表现会下降。
鸡兔同笼问题的变体:
- 鸡、兔在同一个笼子里,上面有100个头,下面有160只脚。问:鸡、兔各多少只?(改变数字)
- 鸡、兔在同一个房间里,经过观察发现它们有100个头和160只脚,那么鸡兔各有多少只(改变描述)
- 更多的变体
- 增加更多的描述文字
- 替换问题中的主题名称
这些变体不同,但是本质上仍然是一个问题,而GPT的回答效果确不尽相同,所以问题来了:如果GPT具备真正的推理能力,那么它应该能像人类一样能面对这些变体。
因此Iman Mirzadeh质疑GPT并不具备真正的推理和计算能力,而只是一种复杂的匹配能力。
3. 质疑的哲学和伦理
OpenAI:“好像牛顿建立经典力学,爱意斯坦建立相对论,OpenAI登上了山顶,看到了的绝美风景,ChatGPT就是目前的最最佳范式。”
Apple:“为什么我的试验似乎表明你的范式有问题?你是不是没有登上山顶?我沿着你的路走,会不会掉进坑里?”
4. 对普通用户的影响
尽管论文里提到的问题确实存在,但是ChatGPT在实际使用里已经足够惊艳众人,特别是在中国这样一个极度注重实用主义的地方,所以这个质疑或许能帮助我们更好的使用GPT。
优化你的提问用词,精准简洁地描述问题,避免过多无用词的干扰……
本站文章除单独注明外均为原创,本文链接https://bowmanjin.com/1085,未经允许请勿转载。
请先
!