Finews
台灣最好懂得財經、科技新聞網!
帶給你最有用的新聞資訊。
Finews
台灣最好懂得財經、科技新聞網!
帶給你最有用的新聞資訊。

AI模型評測藏陷阱?專家質疑群眾外包基準的公正性。文章探討AI實驗室依賴群眾外包平台評估AI模型的潛在問題,質疑評測平台的公正性,並建議建立更多元的評測方式,重視評測者權益,以更客觀地評估AI模型的表現。
“`html
近年來,人工智慧(AI)發展迅速,許多公司都想推出更厲害的AI模型。為了了解自家模型的優缺點,一些AI實驗室開始使用「群眾外包」的方式來進行評測。簡單來說,就是透過網路平台,招募大量使用者來測試不同的AI模型。

像是Chatbot Arena這個平台,就讓使用者同時測試兩個不同的AI模型,然後選出他們比較喜歡的回應。如果某個模型獲得較高的分數,開發這個模型的公司通常會宣稱,這代表他們的模型有了顯著的進步。
然而,有些專家認為,這種群眾外包的評測方式存在嚴重的問題。華盛頓大學的語言學教授Emily Bender指出,一個好的評測標準必須能夠準確地衡量特定的事物,而且要能夠證明,評測結果確實與我們想了解的事物相關。

Bender教授認為,Chatbot Arena並沒有證明,使用者投票選擇某個AI模型的回應,就代表他們真的比較喜歡這個模型。換句話說,這個平台的評測結果,可能無法真實反映使用者對AI模型的偏好。
AI公司Lesan的共同創辦人Asmelash Teka Hadgu也認為,像Chatbot Arena這樣的平台,有可能被AI實驗室「利用」,藉此誇大自家模型的表現。他舉例說,Meta公司曾經調整Llama 4 Maverick模型的參數,讓它在Chatbot Arena上獲得高分,但後來卻推出表現較差的版本。

Hadgu認為,評測標準應該是動態的,而且應該由不同的機構或大學共同制定。此外,評測標準應該針對不同的使用情境,例如教育、醫療等,由相關領域的專業人士來進行評估。
除了評測方式的問題之外,專家也呼籲,應該重視參與評測者的權益。Aspen Institute的前主管Kristine Gloria表示,AI實驗室應該從資料標註產業的錯誤中學習,避免剝削參與評測的使用者。她認為,AI實驗室應該給予評測者合理的報酬。
Gray Swan AI的執行長Matt Fredrikson也指出,公開的評測平台並不能完全取代付費的專業評估。AI模型的開發者仍然需要依靠內部的評測、演算法測試,以及聘請專業的測試人員,才能更全面地了解模型的優缺點。
總之,群眾外包的AI模型評測方式,雖然可以提供一些參考,但並非萬無一失。為了更客觀地評估AI模型的表現,我們需要採用更多元的評測方式,並重視參與評測者的權益。
“`