梦入神机,君子以泽

近年來，人工智能技術(shù)飛速發(fā)展，特別是大語言模型（LLM）的應(yīng)用更是讓人眼前一亮。然而，近日一則消息震驚了整個科技界和公眾：被廣泛認可為最先進的語言模型之一，ChatGPT-4o，在面對簡單的數(shù)學(xué)問題時竟然出錯了。

推特用戶Riley Goodside分享了一則令人哭笑不得的測試結(jié)果：當(dāng)他問到“9.11和9.9哪個更大？”時，多個領(lǐng)先的AI大模型，包括ChatGPT-4o，都給出了錯誤的答案。更令人詫異的是，ChatGPT-4o不僅錯誤地認為9.11大于9.9，還通過Python代碼進行“證明”，并堅持自己的錯誤結(jié)論。

國內(nèi)AI大模型也犯錯

筆者試了試國內(nèi)的大模型，也有很多模型翻車，包括了文言一心，天工 AI 等大模型。

截止7月17日。文心一言給出了正確的回答

天工 AI 的答案仍然錯誤

這個事件揭示了大語言模型的一個重大問題：在面對某些基礎(chǔ)問題時，它們不僅會出錯，還會“堅持”自己的錯誤，并試圖通過看似合理的推理來“說服”用戶。這種情況對大模型在實際應(yīng)用中的可靠性提出了嚴峻的挑戰(zhàn)。

錯誤的數(shù)學(xué)計算：在基本的數(shù)值比較中出錯，讓人不禁質(zhì)疑這些模型在其他更復(fù)雜的計算中是否同樣會出錯。
誤導(dǎo)性的推理：模型在得出錯誤結(jié)論后，通過錯誤的推理試圖“說服”用戶。這種行為不僅對使用者有誤導(dǎo)性，還可能對一些依賴AI進行決策的系統(tǒng)造成重大影響。
對真實世界應(yīng)用的影響：在教育、醫(yī)療、金融等需要高度準(zhǔn)確性的領(lǐng)域，如果依賴這樣的AI模型，可能會帶來不可估量的后果。尤其是在醫(yī)療產(chǎn)品本地化過程中，AI提供的醫(yī)學(xué)領(lǐng)域翻譯內(nèi)容未經(jīng)過專業(yè)語言學(xué)家的審校，可能產(chǎn)生不可預(yù)知的嚴重后果，甚至?xí)C到患者的生命。

盡管大語言模型在生成文本、回答問題、語言翻譯等方面表現(xiàn)出色，但其內(nèi)在的邏輯推理和數(shù)學(xué)計算能力顯然還有待提高。更為重要的是，當(dāng)前的AI技術(shù)仍需人類專家的監(jiān)督和驗證。在現(xiàn)實應(yīng)用中，依賴AI進行決策的同時，必須配備專業(yè)人員進行審核，以確保結(jié)果的準(zhǔn)確性和可靠性。

國內(nèi)外AI大模型集體失智，9.11大于9.9？

國內(nèi)AI大模型也犯錯

相關(guān)文章

國內(nèi)外AI大模型集體失智，9.11大于9.9？