
能通過谷歌三級程序員面試、沃頓商學院 MBA 考試,但 ChatGPT 竟然學不好數學!

竟然在最應該擅長的學科 “偏科” 了,為什麼?
近日一份內部文件顯示,ChatGPT 成功通過了谷歌的編程面試,拿到了年薪 18.3 萬美元的 L3 工程師 offer。雖然 L3 只是谷歌工程團隊的最入門級別,但這仍是一眾普通程序員難以企及的水平。
賓夕法尼亞大學沃頓商學院教授 Christian Terwiesch 近期進行的一項研究發現,Chat GPT-3 能夠通過該學院 MBA 的期末考試,並獲得 B 到 B-左右的綜合成績,在某些問題上,這個聊天機器人甚至給出了 A+ 級別的回答。
此外,根據一項最新的研究,明尼蘇達大學的法學教授讓 ChatGPT 嘗試了一下他們學校四門課程的研究生考試題,最終機器人以 C+ 的綜合成績通過了所有考試。
從寫稿、編程、到教育,再到商業管理和法律,Chat GPT 展現出來的 “逆天” 能力一次次震撼所有人,也讓不少人擔心,在不久的未來,自己的崗位將被 ChatGPT 取代。
但有一個領域的從業人員似乎還不用擔心被 Chat GPT 代替:ChatGPT 在數學方面表現得相當糟糕。
計算機竟然不會計算?
據媒體當地時間週五報道,德克薩斯大學數據科學和統計學教授 Paul von Hippel 表示: “我沒有聽到數學老師對(被 ChatGPT 替代)表示擔憂。”
曾就 ChatGPT 的數學侷限性寫過文章的 von Hippel 説:“我不確定它是否擅長數學,這感覺很奇怪,因為數學是計算設備的首個應用領域。”
雖然計算機可以正確地處理許多基本的算術問題,但當這些問題是用自然語言闡述的時候,機器人就會犯錯誤。
例如,有媒體問 ChatGPT:“如果一個香蕉重 0.5 磅,我有 7 磅香蕉和 9 個橙子,那麼我共有多少個水果?”
機器人迅速回復:“你一共有 16 個水果,7 個香蕉和 9 個橘子。”

當你問一個小學生同樣的問題,他給出的答案十有八九會是 “23”。
如果你問聊天機器人,奧尼爾和姚明誰高?它會毫不猶豫地告訴你,奧尼爾更高。(姚明身高 2.26 米,奧尼爾身高 2.16 米)
除此以外,在計算大數字的平方根時,ChatGPT 會犯錯,在對稍微複雜的計算題進行分解計算時,它也會犯錯,如 2x300=500。
其實只是一個擅長扯淡的藝術家?
面對這樣小學級別的數學問題,身為計算機程序的 ChatGPT 為什麼會如此自信地胡説八道?按照一般人的想法,數學本應該是它的 “看家本領”。
實際上,數學是 ChatGPT 這種被稱為大型語言模仿人工智能與生俱來的弱項。
開發人員通過掃描網絡上的大量文本,並開發出一個模型,用於判斷一個句子中哪些單詞可能會跟隨其他單詞。當你在設備上輸入 “我想” 後, “與某人跳舞”,“知道什麼是愛” 或 “永遠在你身邊” 等詞彙可能自動補全。類似 ChatGPT 這種大型人工智能擁有更為複雜的自動補全功能。
也就是説,ChatGPT 實際上更擅長模仿,而非計算。它可以寫出一篇符合語法的論文,但卻不一定能正確地解決數學問題。
這也是 ChatGPT 的致命弱點: 它用一種看上去很權威的語言給出語法正確但數字錯誤的答案。
對此,von Hippel 表示:
它表現得像個專家,有時可以提供一個令人信服的答案。但它往往是一種擅長扯淡的藝術家,把真相、錯誤和虛假信息混合在一起,聽起來很有説服力,但其實只有具備相關專業知識的人才能辨明真偽。
至於為什麼一些簡單問題的回答是對的,而另一些則完全錯了,搜索引擎工程師 Debarghya Das 告訴媒體:
也許正確的比方是,如果你問一屋子不知道數學是什麼,但讀過很多象形文字的人,‘2+2 的後面是什麼,他們可能會説 ‘通常,我們看到的是 4’,這就是聊天機器人 GPT 正在做的。
但是數學不僅僅是一系列象形文字,它是計算。
Chat GPT 背後的公司 OpenAI 首席執行官 Sam Altman 去年 12 月在 Twitter 上表示:
ChatGPT 的能力極其有限,但在某些方面足以讓人產生對偉大的誤解。現在依賴它做任何重要的事情都是錯誤的。
當您開始與 ChatGPT 對話時,它會提前發出警告:“雖然我們有適當的安全措施,但系統偶爾可能會發出不正確或具有誤導性的信息。”
不過誰也不能保證,在未來,也許是下一代人工智能,能將 ChatGPT 強大的語言技能與搜索引擎 Wolfram Alpha 的數學功能結合起來。到那時,它給出的答案不僅是自信的,而且是準確的。
