外媒測試比較 Claude 3 和 ChatGPT 七大功能卻難分勝負

作者 | 發布日期 2024 年 03 月 21 日 7:40 | 分類 AI 人工智慧 , 新創 , 軟體、系統 line share follow us in feedly line share
外媒測試比較 Claude 3 和 ChatGPT 七大功能卻難分勝負


由 AI 新創 Anthropic 設計的最新 AI 模型 Claude 3 橫空出世,AWS 早前更宣布 Claude 3 將會於 Amazon Bedrock 上提供服務。日前有外國 YouTuber 拍片比較 Claude 3 及 ChatGPT,甚至用上「終於有可以打敗 GPT 的 AI」為題,高度稱讚 Claude 3 在效能、性價比方面的優秀表現。

專門點評人工智慧、科技產品的美國 YouTuber Matt Wolfe 日前發影片比較 Claude 3 及 ChatGPT。Matt 以自訂的創意(creativly)、邏輯(logic)、編碼(coding)、文件摘要(summrizing docs)、圖像描述(vision)、對特定議題的意見(bias)及定價(pricing)七大範疇做測試標準,分別按每範疇所設定的題目,向 Claude 3 Opus(下稱 Opus)、Claude 3 Sonnet(下稱 Sonnet) 及 GPT- 4 詢問答案,比較三者的差異。結果 Matt 認為同屬 Claude 3 的 Opus 及 Sonnet 表現出色,7 項中有 4 項測試表現較佳,個別項目的表現已超越 GPT- 4。

多個方面超越 GPT-4

在「創意」方面,Matt 要求三個人工智慧系統以狼、魔法鎚子、基因異變體為線索,文字創作一段英雄冒險故事,Matt 認為三者都能達到基本要求,速度上以 Sonnet 最快,但論故事細節、完整度則以 Opus 創作的故事為佳。他提到 GPT-4 也能達到要求,但表現不如 Claude 3。

至於「編碼」方面,Matt 要求三個人工智慧系統提供一段程式碼,讓使用者可利用編碼設計一個「棍子收集金幣」的 JavaScript 遊戲,結果 Opus 表現最好,一次到位,其次為 Sonnet,也僅需修正一次即可完成編碼,相反 GPT-4 表現卻未如理想,前後用了兩次修正均未能成功提供一段符合創作要求的編碼。

「文件摘要」方面,Matt 則把一篇與人工智慧相關、長達 155 版字的研究論文發給三個系統,要求它們傳撰寫論文重點,結果三者均能完成要求,但也以 Sonnet 及 Opus 的表現較佳,能在整理重點時描述得更為深入。Matt 特別提到 Opus 日前曾在「needle in a haystick」測試中(「大海撈針」測試:測試人員把答案隨機藏在大量文本當中,看 AI 能否針對問題精準找出被藏在大海中的「針」),找出與文本不相符的內容,甚至提問相關內容是否以「AI 能否注意到」為測試目的才放進文本之內,Matt 特別強調 Claude 3 在「大海撈針」的表現,遠勝 GPT-4。

至於在「圖像描述」、「對特定議題的意見」兩方面,Matt 認為三者表現相若,例如它們均能準確描述他提供的圖像,描繪出背景內容、衣著、顏色、用字等資訊,其中在描述股票圖時,GPT-4 能較 Claude 3 提供更多圖像以外的資訊,但三者表現相差不遠。Matt 亦特別就「川普或拜登上任的影響」、「取消文化對社會的影響」、「大麻對腦部發展的影響」等爭議題目,尋求人工智慧的意見,他指三個系統均提供正反持平意見,沒特定偏頗某一立場。

另外,Matt 設了兩條問題去比較三者的「邏輯」推算能力,其中一條是經典的「天堂與地獄守門人」邏輯問題, Matt 指三個系統均能提供正確答案,但答案均非常相似,難以分辨是否訓練模組均曾訓練過類似問題;另一問題則考驗人工智慧系統能否透過不完整資訊推論答案,Matt 認為 GPT-4 能準確回答,表現較好,但影片留言卻有不少人替 Claude 3 平反,指 Matt 的邏輯問題描述有歧義,或會影響 Sonnet 及 Opus 出現偏差;在「邏輯」方面,看來還需要更多測試來一分高下。

Claude 3 定價相當有競爭力

最後,Matt 認為 Sonnet 的「定價」、性價比完勝 GPT-4,他指 Sonnet 做為 Claude 3 旗下供公眾免費使用的系統,在「創意」、「編程」、「文件摘要」表現竟比收費的 GPT-4 更佳,更提到用戶如需經常運用 AI 協助編碼、整理文件內容,撇除 Sonnet 的每日使用次數限制(每天約 10 條訊息),Sonnet 的表現可說是無可挑剔,性價比、表現均極佳。

不少人會每月付費使用 Claude 3,但使用上難免有安全及支援不足的憂慮。其實坊間也可透過 AWS 的 Amazon Bedrock,輕鬆使用 Claude 3 進行跨文本、圖像、圖表的工作,加上由於使用了 Amazon Bedrock 平台,硬體和軟體性能均會得到提高,Claude 3 的即時互動速度也會顯著加快,提供更準確和可靠的回應。對比前文提到的憂慮,Amazon Bedrock 平台讓用戶不用瞎子摸象,即可簡化用戶專有數據的訓練模型,自行根據獨特需求調整 Claude 3。

(本文由 Unwire HK 授權轉載;首圖來源:Anthropic

延伸閱讀: