Meta 新旗舰 AI 模型 Llama 4 Maverick 测试成绩遭质疑,被指针对性优化

来源:互联网 时间: 2025-04-09 08:42:00

本站 4 月 7 日消息,Meta 公司上周发布了一款名为 Maverick 的新旗舰 AI 模型,并在 LM Arena 测试中取得了第二名的成绩。然而,这一成绩的含金量却引发了诸多质疑。据多位 AI 研究人员在社交平台 X 上指出,Meta 在 LM Arena 上部署的 Maverick 版本与广泛提供给开发者的版本并不一致。

Meta 在其公告中明确提到,参与 LM Arena 测试的 Maverick 是一个“实验性聊天版本”。而根据官方 Llama 网站上公布的信息,Meta 在 LM Arena 的测试中所使用的实际上是“针对对话性优化的 Llama 4 Maverick”。这表明,该版本经过了专门的优化调整,以适应 LM Arena 的测试环境和评分标准。

然而,LM Arena 作为一项测试工具,其可靠性本身就存在一定的争议。尽管如此,以往 AI 公司通常不会对模型进行专门的定制或微调,以在 LM Arena 上获得更高的分数,至少没有公开承认过这种做法。而 Meta 此次的行为。

这种对模型进行针对性优化,然后只发布一个“普通版”的行为,给开发者带来了诸多困扰。因为这使得开发者难以准确预测该模型在特定场景下的实际表现。此外,这种行为也具有一定的误导性。理想情况下,尽管现有的基准测试存在诸多不足,但它们至少能够为人们提供一个关于单一模型在多种任务中优缺点的概览。

事实上,研究人员在 X 上已经观察到了公开可下载的 Maverick 版本与 LM Arena 上托管的模型之间存在显著的行为差异。例如,LM Arena 版本似乎更倾向于使用大量的表情符号,并且给出的答案往往冗长且拖沓。

截至本站发稿,Meta 公司以及负责维护 LM Arena 的 Chatbot Arena 组织暂未对此做出回应。

近期热点 +
  • 04-09
    公天天躁爽我爽快涨: 如何在忙碌中找到快乐的自我 在当今快节奏的社会中,许多人在忙碌的工作和生活中丧失了自我,快乐似乎成为了一种奢侈品。面对日益繁重的任务和压力,如何在这样一个环境中找到内心的宁静和快乐成为了一
  • 04-09
    反雷电将军特训,难言的挑战与热血的冒险 各位游戏迷们,你们是否已经陷入了与雷电将军的特训挑战中无法自拔?我们就来聊聊这个让人头疼不已的特训任务。一踏入这个特训关卡,你就能感受到一股强烈的电流在空气中跳
  • 04-09
    宿舍穿越时空的奇幻之旅,攻略篇 各位游戏迷们,今天要给大家带来的是一份神秘的攻略——宿舍穿越攻略!没错,你没听错,就是从我们熟悉的宿舍出发,开启一场说走就走的时空之旅,就让我带你走进这神秘的穿
  • 04-09
    百将录手游攻略,从新手到高手的蜕变之路 各位热爱策略游戏的玩家们,今天我们要聊的是当下火爆的《百将录》手游,这款游戏以其独特的武将收集、策略战斗和丰富的游戏玩法,吸引了无数玩家的目光,如何在这片战火纷
  • 04-09
    天天酷跑画中仙,如何轻松入手? 各位酷跑爱好者们,你们是否在寻找那传说中的神秘角色——画中仙?就让我们一起探索一下,在《天天酷跑》这款游戏中,如何获得这位仙气飘飘的角色。一、画中仙的魅力何在?
产业资讯 +