亚洲午夜激情av,亚洲精美色品网站,亚洲精品国产无天堂网2021

首頁> 資訊 > > 正文

大語言模型誰最會“睜眼說瞎話”？最新報告揭示答案

2023-08-18 11:01:34來源:財聯社

隨著ChatGPT火爆全球，很多科技公司都相繼推出了自己的大語言模型。大語言模型的應用范圍非常廣泛，可以為各種行業提供智能化解決方案，但有時這些大模型也會憑空捏造答案，這一點成為人們最大的擔憂之一。

(相關資料圖)

根據機器學習監控平臺Arthur AI的研究人員周四發布的一份報告，在頂級AI模型中，Cohere的大語言模型最能“說瞎話”，并且“能夠自信地給出不正確的答案”。

報告比較了OpenAI的GPT-4、Meta的Llama 2、Anthropic的Claude 2，以及Cohere的Command“產生幻覺”的能力。

Cohere是一家位于加拿大的初創公司，6月剛獲2.7億美元的融資，英偉達、甲骨文、Salesforce Ventures等公司參與投資。而Anthropic是一家美國創業公司，幾天前剛獲韓國SK電信的1億美元融資，谷歌也是其投資人。

這兩家公司均以OpenAI為主要競爭對手。

總體而言，OpenAI的GPT-4在所有測試模型中表現最好，研究人員發現，它的幻覺發生率比之前的版本GPT-3.5少——在數學問題上，它的幻覺發生率減少了33%到50%。

研究人員還發現，Meta的Llama 2比GPT-4和Anthropic的Claude 2更易產生幻覺。

在實驗中，研究人員用組合數學、美國總統和摩洛哥政治領導人等不同類別的問題考察AI模型，“旨在包含導致大語言模型犯錯的關鍵因素，需要它們對信息進行多個推理步驟。”

Arthur的聯合創始人兼首席執行官Adam Wenchel表示，這是第一份“全面研究（AI模型）幻覺發生率的報告”。

報告發布之際，隨著AI進入發展快車道，人們比以往任何時候都更關注AI系統產生的錯誤信息。

“AI幻覺”（hallucinations）指的是大型語言模型完全捏造信息，并表現得好像他們在滔滔不絕地講事實。

舉例來說，在谷歌 2 月份為巴德拍攝的宣傳視頻中，這個聊天機器人對詹姆斯?韋伯太空望遠鏡做出了不真實的陳述；今年6月，ChatGPT 在紐約聯邦法院的一份文件中引用了“虛假”案例，涉案的紐約律師可能面臨制裁。

其它能力對比

這份報告還對AI模型的其它“能力”進行了對比，發現OpenAI的GPT-4最擅長數學，Meta的Llama 2各方面能力較為中規中矩，Anthropic的Claude 2最擅長了解自身局限性。

在另一個實驗中，研究人員還測試了AI模型會在多大程度上用警告短語來“對沖”它們給出的答案的風險，常見警告語包括“作為一個人工智能模型，我無法提供意見”。

研究人員發現，GPT-4比GPT-3.5的警告語相對增加了50%。而Cohere的AI模型在任何回應中都沒有提供規避風險的警示語。相比之下，Anthropic的Claude-2在“自我意識”方面最可靠，即能夠準確地判斷自己知道什么、不知道什么，并且只回答有訓練數據支持的問題。

（來源：財聯社）

標簽：

猜你喜歡

山東：打通職稱評審渠道讓18萬多基層人才受益

暑期檔報復性出游，這臺合資高品質插混SUV是最靠譜的旅行伙伴

預計續航約105公里，賓利汽車發布Blower Jnr車型

寧德時代發布神行超充電池，和比亞迪刀片電池搶市場？

貴州黎平肇興鎮發生火災 9人遇難

財經頭條：機器人產業創新發展頻迎利好千億市場空間有望打開

凌鋼股份：8月17日融券賣出16.25萬股，融資融券余額1.28億元

蔡司首發新能源汽車電池白皮書，為動力電池高質量管控"續航"

為您推薦

綜合

資訊

更多...

業界

更多...