外媒實測8款AI搜尋工具，高達60％都在糊弄你！最常犯的是這三大錯誤

LDSKINGII

Major Member

加入日期: May 2021

文章: 244

外媒實測8款AI搜尋工具，高達60％都在糊弄你！最常犯的是這三大錯誤

ChatGPT、Perplexity、Gemini、DeepSeek⋯高達6成AI工具都提供了錯誤資訊，且不要以為付費模型就很安全，錯誤答案可能更多。
https://www.bnext.com.tw/article/82...cent-of-queries

重點一： AI搜尋工具普遍表現不佳，錯誤回答率高達60%以上。

重點二：不要以為付費AI模型就很安全，研究發現，這些高級模型提供的錯誤答案比免費版更有信心且更多。

重點三： AI搜尋工具常無視發布商的機器人排除協議，未正確引用原始內容。

研究發現，AI搜尋工具正迅速增加受歡迎程度，但效能卻令人擔憂

根據陶氏數位新聞研究中心（Tow Center for Digital Journalism）最新研究顯示，市面上常見的8款主流AI聊天機器人在資訊檢索測試中，超過60%的回答完全錯誤，其中馬斯克（Elon Musk）的Grok 3更創下錯誤率高達94%的驚人紀錄

這些工具正從網際網路爬取和重新包裝內容，但呈現方式卻常常掩蓋了嚴重的資訊品質問題。

AI搜尋錯誤率高得嚇人

陶氏數位新聞研究中心是由哥倫比亞大學新聞學研究所成立，該中心的測試結果顯示，目前最受歡迎的生成式AI搜尋工具表現不佳，整體而言超過6成的問題答案完全錯誤

測試涵蓋8主流AI搜尋工具，包括ChatGPT搜尋、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search和Copilot。

在所有測試工具中，Perplexity表現最佳，但仍有37%的回答不正確；而表現最差的Grok 3則有高達94%的回答錯誤

更令人擔憂的是，這些AI工具在提供錯誤答案時往往表現出極高的信心，很少使用如「可能」、「似乎」等詞，也極少承認知識不足。ChatGPT在200個回應中，僅15次表示缺乏信心，且從未拒絕提供答案。

研究方法

該研究團隊從20家新聞機構隨機選取了200篇文章（每家10篇），確保每篇文章摘錄的內容在傳統Google搜尋中，都能在前三個結果中找到原始來源

然後，研究人員向每個AI搜尋工具提供這些摘錄，要求識別對應文章的標題、原始發布來源、發布日期和網址。

研究人員根據三項屬性：(1)正確文章、(2)正確發布來源和(3)正確網址，手動評估了聊天機器人的回應。按照這些參數，每個回應被標記為以下標籤之一：完全正確、正確但不完整、部分不正確、完全不正確、未提供或爬蟲被阻止。

AI搜尋常犯的幾項錯誤

根據該研究，AI搜尋工具在實際使用中展現出多項嚴重問題，包括：

未能正確連結原始來源： AI聊天機器人經常錯誤引用文章。例如，DeepSeek在200次查詢中有115次錯誤歸因摘錄來源。即使聊天機器人正確識別了文章，也常未能正確連結到原始來源，而是引導到Yahoo News或AOL等平台上的轉載版本。

付費模型「更有自信」胡說八道：令人驚訝的是，付費版本如Perplexity Pro（每月20美元，約新台幣639元）或Grok 3（每月40美元，約新台幣1,278元）雖然比免費版答對了更多問題，但它們整體錯誤率反而更高，主要是因為它們傾向於提供明確但錯誤的答案，而非拒絕直接回答。

虛構或損壞的網址：超過一半來自Gemini和Grok 3的回應引用了虛構或損壞的網址，導致錯誤頁面。Grok 3在200個提示中有154個引用導致錯誤頁面，即使在正確識別文章時，它也經常連結到虛構的網址。

8款聊天機器人搜尋正確度評比

如下表，Perplexity Pro ($20/月) 表現還算不錯，錯誤率約40%；然而 Grok 3 ($40/月) 的錯誤率高達94%，是所有測試中最高的。

研究中也發現，多數機器人無視發布者的爬蟲限制，即使被封鎖仍獲取內容。例如，Perplexity Pro正確識別了近三分之一本應無權訪問的90個摘錄。

而就算有合作關係，AI也未必能100%準確識別其內容，像是《舊金山紀事報》（San Francisco Chronicle）允許OpenAI的爬蟲，但ChatGPT只正確識別了10個分享摘錄中的1個。

必須說明的是，「機器人排除協議」雖不具有法律約束力，但它是一種被廣泛接受的標準，用於指示網站哪些部分應該被抓取，哪些部分不應該被抓取。

AI巨頭們怎麼說？

對於報告結果，研究中心指出，「我們聯繫了本報告中提到的所有人工智慧公司徵求意見，只有 OpenAI和微軟做出了回應，但都沒有回答我們的具體發現或問題。」

OpenAI指出：「我們透過幫助每週4億ChatGPT用戶透過摘要、引用、清晰連結和歸因發現優質內容來支持出版商和創作者。我們與合作夥伴合作，以提高內聯引用的準確性並尊重出版商的偏好，包括透過管理robAI.txt中的OrobAI-Search來增強它們在搜尋結果。」

微軟則表示：「微軟尊重robots.txt標準，並尊重那些不希望其網頁內容被該公司的生成式 AI 模型使用的網站提供的指示。」

資料來源：Tow Center for Digital Journalism、TECHSPOT、mashable

本文初稿為AI編撰，整理．編輯/林美欣
————————————————————————
看到這篇報導，我只想到拔辣的知識是得自他最愛的神就替他感到難過

2025-03-21, 12:59 PM #1