AI算錯數學題？不是AI笨而是我們不懂

這兩年AI相關主題非常火紅，幾乎所有科技相關的部落格、Youtube, Podcast等都離不開AI，對於市井小民來說，雖然不能運用API介接超強的模型，發展出什麼厲害的服務，也能登入免費板AI，請他寫一首詩，或者產生一篇情書，或者學生上網查資料等等，與自己的生活接軌。

我到雲端ＳＩ公司上班，拿公司的股票代號6997，順手問了手機版本的ChatGPT:
『6997是質數嗎？』

ChatGPT回答我：6997不是質數，它可以被3整除。
（很驚訝是嗎？先不要下結論。）

接著我問Copilot，它回答：6997不是質數，因為它可以被7整除。
（也先不要下結論）

接著我問Gemini 2.0 flash thinking, 6997是不是質數，Gemini非常有耐心地把6997開平方後的接近數以內所有的數都除看看，但都不能整除，最後他說：高度懷疑6997是個質數，並且建議使用線上質數檢測工具。

6997確實是質數表上的質數。

我貼出三家免費AI手機版的結果，絕對不是要告訴你，Gemini最聰明。

事實上，我使用的Gemini 2.0 flash thinking，在本質上它是一個推理模型，跟免費版的ChatGPT和Copilot比較，是不公平的。Gemini 2.0 其實也不是免費的，只是先在手機版推出試用。

未經訓練的AI解不出小學生等級的數學題是很自然的事情，你問這個問題，AI拿網路上的方法依樣畫葫蘆：6997可以被3整除，所以不是質數。但是他沒有真的用到自己的計算機功能去除一下，他沒有『推理』。

想想，你解開數學題時，有多少真的是推理完成的，還是有一些是『根據規則』？當你計算圓面積用的圓周率是3.1416時，你能證明圓周率嗎？（說來我大學第一個月的微積分就在驗證圓周率，各種方法算來算去了整整一個月，教授真的很變態）

使用推理模型，必然會耗費更多資源考慮問題或查詢，以便於自我進行事實查核（fact check）。最近中國推出的DeepSeek就是以大規模強化學習（RL）的推理能力震驚業界。

所以重點是，你要AI解決的事情，需要用上怎麼樣的資源？

免費板的AI也會自我學習，你問的問題兩週前他還不太會，你再問一次，它可能已經進化了，比方說，最近我又問了ChatGPT同樣的問題，看來它已經學會了怎麼判斷質數。

是不是很有意思呢？

任何問題，請私訊車庫一姊粉專