Kainy的订阅号

【标题】AI的常识性问题：13.8和13.11哪个大？【核心内容】

AI模型无法正确回答13.8和13.11哪个大的问题，揭示了LLM在token预测上的缺陷。
Prompt的方式对于LLM的回答结果有重要影响，清晰的提示可以帮助LLM给出正确的答案。
LLM在处理数学计算和常识问题上存在偏差和局限性，与人类认知有差异。
LLM在处理数值时常常将其视为文本字符串而非数值，导致预测错误。
AI需要教会常识、规范和价值观，以实现可持续且人性化的发展。

【评论内容】小红书用户：AI都能做数学奥赛题了，怎么连13.8和13.11哪个大都回答不对？是不是该给AI上一堂常识课？微信公众号读者：看来AI还是有很多不足的地方，连最基本的常识问题都回答不准确。要教会AI常识和价值观，还有很长的路要走啊。

" 【标题】AI巨头集体翻车！13.8和13.11哪个大？这个问题难倒了多少人！

【核心内容】

13.8和13.11哪个大？这个问题难倒了部分人类和一系列AI大模型。
即使是号称能做AI奥数题的GPT-4，也在这个问题上犯了错误。
各大LLM（如GPT-4、Gemini、Claude 3.5 Sonnet）在这个问题上全军覆没。
问题的实质在于LLM在token预测上的重大缺陷，导致它们在处理比较大小和数学计算问题时出现错误。
问题的解决办法在于如何设计合理的prompt，引导LLM给出正确答案。
专家分析指出，这种现象可能源于训练数据中类似表达的频率以及模型在处理数值时的局限性。
AI缺乏常识问题引发关注，如何使AI具备人类常识和价值观成为可持续发展的关键。

【评论内容】小红书用户：哈哈哈，没想到AI也会在这么简单的算术题上翻车！看来它们也需要补补常识课啦！

微信公众号读者：这个报道太有趣了！没想到AI巨头们在比大小这个问题上也会犯错误。看来人工智能还是有很长的路要走啊，让我们一起期待它们的成长吧！"