前言 最近苹果公司工程师 Iman Mirzadeh发表一篇论文“GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models”的论文,质疑OpenAI o1的推理能力。 什么是GSM-Symbolic? OpenAI 2021 年提出的 GSM8K(Grade School Math 8K)小学数学题数据集已成为评估 LLM 数学推理能力的流行基准。尽管它包含了详细的解决方案的简单数学问题,适合使...

BowmanJin 2024-10-25 110 0

排名 GPT-4o:  by OpenAI/Microsoft,ChatGPT开创者 Claude: by Anthropic Qwen: by 阿里巴巴 Llama: by Meta Gemini: by Google Other 上述五种之外的国内外大模型,使用体验都非常一般,包括马斯克的Grok,抖音的豆包,Kimi,文心一言等等,计算能力和理解能力都较为普通。 总结 ChatGPT付费版本最好,但是收费,费用还不低,而且并不是有钱就...

BowmanJin 2024-10-24 106 0
没有账号? 注册  忘记密码?