Finews
台灣最好懂得財經、科技新聞網!
帶給你最有用的新聞資訊。
Finews
台灣最好懂得財經、科技新聞網!
帶給你最有用的新聞資訊。
Meta AI模型評測表現不如預期?文章揭露Meta實驗性AI模型在LM Arena評測中排名較低,並分析其原因。了解Meta針對特定評測進行優化的模型,與OpenAI、Anthropic等公司模型的差異。
“`html
最近,Meta 公司因為在一個名為 LM Arena 的平台上,使用尚未公開的實驗性 AI 模型 Llama 4 Maverick 取得高分而引起爭議。LM Arena 就像是一個 AI 模型的擂台賽,讓大家可以比較不同 AI 模型的表現。
原本,Meta 使用的是一個特別調整過的 Llama 4 Maverick 模型。但是,LM Arena 的管理者發現後,要求 Meta 使用未修改過的版本重新評測。結果顯示,這個未修改的版本 “Llama-4-Maverick-17B-128E-Instruct” 的表現,比不上其他公司的模型,像是 OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5 Sonnet,甚至是 Google 的 Gemini 1.5 Pro。這些模型有些都已經推出好幾個月了。
那麼,為什麼 Meta 的 AI 模型表現會比較差呢?Meta 公司解釋說,他們實驗性的 Maverick 模型 “Llama-4-Maverick-03-26-Experimental” 主要是為了 “對話能力” 進行優化。也就是說,這個模型可能特別擅長聊天,所以在 LM Arena 這種讓人們比較模型輸出的平台上,表現會比較好。
Meta 的發言人表示,他們會嘗試各種不同的模型版本。雖然這次的實驗性模型在 LM Arena 表現不錯,但他們現在已經釋出了開源版本,讓開發者可以根據自己的需求進行調整。Meta 也很期待看到開發者們會如何運用 Llama 4,並歡迎大家提供意見。
雖然 LM Arena 可以讓我們了解不同 AI 模型的表現,但它並不是唯一的評估標準。重要的是,開發者需要了解 AI 模型在不同情境下的表現,才能更好地應用它們。
“`