PCDVD數位科技討論區
PCDVD數位科技討論區   註冊 常見問題 標記討論區為已讀

回到   PCDVD數位科技討論區 > 其他群組 > 七嘴八舌異言堂
帳戶
密碼
 

回應
 
主題工具
LDSKINGII
Major Member
 

加入日期: May 2021
文章: 220
外媒實測8款AI搜尋工具,高達60%都在糊弄你!最常犯的是這三大錯誤

ChatGPT、Perplexity、Gemini、DeepSeek⋯高達6成AI工具都提供了錯誤資訊,且不要以為付費模型就很安全,錯誤答案可能更多。
https://www.bnext.com.tw/article/82...cent-of-queries

重點一: AI搜尋工具普遍表現不佳,錯誤回答率高達60%以上。

重點二: 不要以為付費AI模型就很安全,研究發現,這些高級模型提供的錯誤答案比免費版更有信心且更多。

重點三: AI搜尋工具常無視發布商的機器人排除協議,未正確引用原始內容。

研究發現,AI搜尋工具正迅速增加受歡迎程度,但效能卻令人擔憂

根據陶氏數位新聞研究中心(Tow Center for Digital Journalism)最新研究顯示,市面上常見的8款主流AI聊天機器人在資訊檢索測試中,超過60%的回答完全錯誤,其中馬斯克(Elon Musk)的Grok 3更創下錯誤率高達94%的驚人紀錄

這些工具正從網際網路爬取和重新包裝內容,但呈現方式卻常常掩蓋了嚴重的資訊品質問題。

AI搜尋錯誤率高得嚇人

陶氏數位新聞研究中心是由哥倫比亞大學新聞學研究所成立,該中心的測試結果顯示,目前最受歡迎的生成式AI搜尋工具表現不佳,整體而言超過6成的問題答案完全錯誤

測試涵蓋8主流AI搜尋工具,包括ChatGPT搜尋、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search和Copilot。

在所有測試工具中,Perplexity表現最佳,但仍有37%的回答不正確;而表現最差的Grok 3則有高達94%的回答錯誤

更令人擔憂的是,這些AI工具在提供錯誤答案時往往表現出極高的信心,很少使用如「可能」、「似乎」等詞,也極少承認知識不足。ChatGPT在200個回應中,僅15次表示缺乏信心,且從未拒絕提供答案。

研究方法

該研究團隊從20家新聞機構隨機選取了200篇文章(每家10篇),確保每篇文章摘錄的內容在傳統Google搜尋中,都能在前三個結果中找到原始來源

然後,研究人員向每個AI搜尋工具提供這些摘錄,要求識別對應文章的標題、原始發布來源、發布日期和網址。

研究人員根據三項屬性:(1)正確文章、(2)正確發布來源和(3)正確網址,手動評估了聊天機器人的回應。按照這些參數,每個回應被標記為以下標籤之一:完全正確、正確但不完整、部分不正確、完全不正確、未提供或爬蟲被阻止。

AI搜尋常犯的幾項錯誤

根據該研究,AI搜尋工具在實際使用中展現出多項嚴重問題,包括:

未能正確連結原始來源: AI聊天機器人經常錯誤引用文章。例如,DeepSeek在200次查詢中有115次錯誤歸因摘錄來源。即使聊天機器人正確識別了文章,也常未能正確連結到原始來源,而是引導到Yahoo News或AOL等平台上的轉載版本。

付費模型「更有自信」胡說八道: 令人驚訝的是,付費版本如Perplexity Pro(每月20美元,約新台幣639元)或Grok 3(每月40美元,約新台幣1,278元)雖然比免費版答對了更多問題,但它們整體錯誤率反而更高,主要是因為它們傾向於提供明確但錯誤的答案,而非拒絕直接回答。

虛構或損壞的網址: 超過一半來自Gemini和Grok 3的回應引用了虛構或損壞的網址,導致錯誤頁面。Grok 3在200個提示中有154個引用導致錯誤頁面,即使在正確識別文章時,它也經常連結到虛構的網址。

8款聊天機器人搜尋正確度評比

如下表,Perplexity Pro ($20/月) 表現還算不錯,錯誤率約40%;然而 Grok 3 ($40/月) 的錯誤率高達94%,是所有測試中最高的。





研究中也發現,多數機器人無視發布者的爬蟲限制,即使被封鎖仍獲取內容。例如,Perplexity Pro正確識別了近三分之一本應無權訪問的90個摘錄。

而就算有合作關係,AI也未必能100%準確識別其內容,像是《舊金山紀事報》(San Francisco Chronicle)允許OpenAI的爬蟲,但ChatGPT只正確識別了10個分享摘錄中的1個。

必須說明的是,「機器人排除協議」雖不具有法律約束力,但它是一種被廣泛接受的標準,用於指示網站哪些部分應該被抓取,哪些部分不應該被抓取。

AI巨頭們怎麼說?

對於報告結果,研究中心指出,「我們聯繫了本報告中提到的所有人工智慧公司徵求意見,只有 OpenAI和微軟做出了回應,但都沒有回答我們的具體發現或問題。」

OpenAI指出:「我們透過幫助每週4億ChatGPT用戶透過摘要、引用、清晰連結和歸因發現優質內容來支持出版商和創作者。我們與合作夥伴合作,以提高內聯引用的準確性並尊重出版商的偏好,包括透過管理robAI.txt中的OrobAI-Search來增強它們在搜尋結果。」

微軟則表示:「微軟尊重robots.txt標準,並尊重那些不希望其網頁內容被該公司的生成式 AI 模型使用的網站提供的指示。」

資料來源:Tow Center for Digital Journalism、TECHSPOT、mashable

本文初稿為AI編撰,整理.編輯/林美欣
————————————————————————
看到這篇報導,我只想到拔辣的知識是得自他最愛的神就替他感到難過
     
      
舊 2025-03-21, 12:59 PM #1
回應時引用此文章
LDSKINGII離線中  
hendry2002
Major Member
 
hendry2002的大頭照
 

加入日期: Jan 2008
您的住址: 銀河系
文章: 165
引用:
作者LDSKINGII
看到這篇報導,我只想到拔辣的知識是得自他最愛的神就替他感到難過


笑死

你上次偷用被我抓包 還我最愛用???

你用卻不會正確提問

這證明你腦子不夠力

就像給你刀子 你卻拿去砍樹

卻忽略旁邊有鋸子

AI工具就是個tool

給你這種笨蛋用 就會得到笨蛋結果

 
__________________
我的封鎖名單:
cjan
Kentnet
rcack
冰的啦魔王大人
沒問題
舊 2025-03-21, 03:54 PM #2
回應時引用此文章
hendry2002離線中  


回應


POPIN
主題工具

發表文章規則
不可以發起新主題
不可以回應主題
不可以上傳附加檔案
不可以編輯您的文章

vB 代碼打開
[IMG]代碼打開
HTML代碼關閉



所有的時間均為GMT +8。 現在的時間是04:55 AM.


vBulletin Version 3.0.1
powered_by_vbulletin 2025。