一个简单的题目，难倒主流的AI

在hostloc社区上，有一条讨论非常有意思，大家都在讨论几家主流Ai的逻辑性和准确性，但就是一条简单的题目，各家Ai的回答都不如人意。

问题：“今天我有3个苹果，昨天吃了1个苹果，还剩几个？”

我用了免费的ChatGpt3.5，回答是错误的，它简单的使用了3-1，结果等于2。

讨论的发起者说目前为止只有GPT4和文心回答准确，GPT3.5也是错的。其他都是错。

有网友使用 coze 的纯 gpt-4-128k是错误的，但是使用自己搭建的 gpt-4（用的是 Azure 的 Openai api），测试了好几次都是准的

有网友反馈智普清言、kimi、coze（有网友反馈不准确）、这几个正确。
但也有网友反馈，kimi 是偶尔正确，gpt-4 和文心一言一直正确，coze 一直错误。

有网友反馈使用gpt4-turbo正确

同样是使用ChatGpt，两个网友的提问，一个的回答是正确的，一个的回答是错误的。

不太清楚为什么同一个Ai，有些网友的反馈是正确的，有些网友的反馈是错误的，这里好像有一个概率的问题，所以我觉得可能问题会出在两个方面。

1、有些网友使用的插件不一样，所以反馈也不一样。
2、有些网友使用Ai的所在区域位置不一样，所以反馈不一样，可能跟所处区域的服务器上引擎的训练结果有关。
3、可能Ai引擎使用率和训练程度不一样。