本文最初发布于 THENEWSTACK 博客。

图片来自 Unsplash+ , 由 Sara Oliveira 提供
谷歌希望软件开发者在构建 Android 应用时用尽可能好的 AI 模型。因此,该公司在 3 月份推出了基准测试门户 Android Bench。该服务旨在提供一个持续更新的排行榜,供开发者和模型创建者参考。
上周,排行榜进行了更新,包括 开放权重模型,并新增了延迟、令牌 和成本等列。
“通过为高质量的 Android 开发设定一个清晰可靠的基准,我们正在帮助模型创建者识别差距并加速改进——这使得开发者能够更高效地工作。”
——来自谷歌的 Matthew McCullough。
在 3 月份的一篇博文 中,谷歌 Android 开发部门产品副总裁 Matthew McCullough 写道,谷歌对顶级的 AI LLM 进行了基准测试,旨在评估这些工具如何构建 Android 应用。
McCullough 解释说,“我们的目标是为模型创建者提供一个基准,用于评估 LLM 在 Android 开发中的能力。通过为高质量的 Android 开发设定一个清晰可靠的基准,我们希望可以帮助模型创建者识别差距并加速改进,使他们能够更加高效地工作,让 AI 助手有更广泛的模型可以选择——这最终将提高 Android 生态系统中应用的质量。”
GPT 5.5 是目前 Android 开发的最佳 AI 模型
这项新服务似乎不提供模型排名随时间上升和下降的历史记录,但 9to5Google 报道称,最后一次 Android Bench 将 Gemini 3.1 Pro 与 OpenAI 的 GPT 5.4 并列为该领域的领导者。
根据 5 月 18 日的最新消息,GPT 5.5 目前是 Android 应用开发的最佳 AI 模型。
对于 Android Bench 采用的方法,谷歌做了一个 公开的说明:“该服务会向 LLM 展示来自开源软件项目的真实问题和拉取请求,从而评估它们生成代码解决问题的能力。这种方法旨在确保任务能够代表开发者每天面临的挑战。”
为什么谷歌要构建 Android Bench?
谷歌表示,他们之所以构建 Android Bench,是因为基于 AI 的软件工程“已经出现了几个基准”来衡量 LLM 的能力。该公司进一步表示,Android 开发者“面临着一些特定的挑战,而这些挑战没有被现有的基准覆盖到”,因此他们创建了这个排名服务,专注于全面评估高质量的 Android 开发。
谷歌 表示,“我们创建了一个模型无关的基准,用于准确评估 LLM 在各种 Android 开发任务上的性能”。该公司进一步明确了 Android Bench 的目标:作为鼓励 LLM 改进 Android 开发的手段;让 Android 开发者能够更高效地使用一系列“有用的模型”进行 AI 辅助开发;为 Android 生态系统带来更高质量的应用。
这个软件开发基准测试有效吗?
不出所料,开发者和模型创建者会质疑谷歌建立这个基准测试是否有用。反对者可能会自然地引用 Goodhart 定律:“当一个度量成为目标时,它就不再是一个好的度量。”当然,任何奖励系统都可能吸引那些为了实现标准化目标而优化行动的行为者。
谷歌可能已经预见到了这个陷阱,基于真实的公开代码库创建了 Android Bench 基准测试。
来自谷歌的 McCullough 写道,“在创建基准测试时,我们策划了一系列 Android 开发领域常见的任务集,其中包含来自公共 GitHub Android 存储库的不同难度的真实挑战”。
这意味着测试的场景包括解决跨 Android 版本发布的“破坏性变更”(当代码以前工作正常,但因为谷歌更新 Android 到新版本而被损坏时),特定领域的任务,如可穿戴设备的网络(高延迟和频繁断开连接的幽灵始终是一个威胁),以及迁移到最新版本的 Jetpack Compose(Android 自己的声明式 UI 工具包,使用 Kotlin 语言函数)等。
还存在哪些 Android 基准测试?
Jetpack Microbenchmark 也 是一个 Android 基准测试库,允许开发者在 Android Studio 内对他们的 Android 原生代码进行基准测试,无论是用 Kotlin 还是 Java 编写的。姊妹基准 Jetbank Macrobenchmark 用于测试大规模的用户交互,如应用冷启动时间或用户界面动画的流畅性。
在 Android 性能基准测试领域有一个基准测试 Firebase Performance Monitoring。这是一个生产级的现场基准测试工具,用于监控应用的网络请求和屏幕渲染时间;这更像是一个应用性能监控工具。
在 Android 开发者社区中,Android Vitals 已经提供了一个仪表板来跟踪应用的质量指标,如稳定性、性能、电池使用情况和权限问题。Apptim 是一个生成式 AI 移动应用分析和测试工具,也可以用于性能基准测试,但与 Android Bench 不完全相同。我们还要提一下谷歌自己的 Android Performance Analyzer(APA),它于今年 5 月 19 日才推出,是一个支持工作流简化的分析和性能分析工具。
“像 Android Bench 这样的开放基准测试很棒,我们希望有更多这样的测试。但需要注意的是数据污染问题。公共存储库会渗入训练过程,我们曾看到某些模型在公开评估中仅差几分,但在模拟相同工作负载的私有基准测试中却表现出天壤之别。”
——Zencoder 首席执行官 Andrew Filev。
Zencoder 首席执行官兼创始人 Andrew Filev 告诉 The New Stack,他虽然很欣赏这些系统,但也提出了一些保留意见。
Filev 热情地说,“像 Android Bench 这样的开源基准测试工具非常棒,我们希望这类工具能更多一些。总体而言,软件开发领域过于多样化,单是一个总分不具有普适意义——Python 基准测试几乎无法反映模型在处理 Rust、嵌入式系统或移动应用时的表现。此外,构建一个开放的 Web 应用、仅供几百人使用的内部工具,以及全球规模的多租户产品之间有着根本性的差异,模型在这些领域中的表现也各不相同。”
有鉴于此,他说,特定领域的基准测试促使模型开发者关注用户的实际工作环境,因此他认为,“谷歌在这方面值得称赞”,并希望其他平台效仿谷歌的做法。
Filev 说,“但需要注意的是数据污染问题。公共存储库会渗入训练过程,我们曾看到某些模型在公开评估中仅差几分,但在模拟相同工作负载的私有基准测试中却表现出天壤之别。在我们自己的研究中,仅仅对测试用例的表述方式进行微小的调整,就能使模型的偏差范围从 6 个百分点扩大到 26 个百分点,并彻底改变了排名顺序。因此,公开基准测试有助于提升大语言模型在各领域的性能,而私有评估则有助于评估模型在具体工作负载下的实际表现。”
Android Bench 得分是如何生成的?
每个 Android Bench 模型的总体基准测试分数,是基于谷歌开发的一套计算方法得出的,其中包含四个核心指标。
置信区间(CI)范围(%)是预期性能范围的度量,反映了结果的统计可靠性(p 值,0.05); 平均延迟分数是指在 10 次运行中完成 100 个任务所花费的时间;平均总令牌分数是衡量在 10 次完整的基准测试运行中令牌消耗量的指标;而平均成本则是指测试时每次基准测试运行的成本,单位为美元。
Android Bench 测试框架已经 公开发布在 GitHub 上。
原文链接:
https://thenewstack.io/gpt-5-5-android-bench
声明:本文由 InfoQ 翻译,未经许可禁止转载。
今日好文推荐
Anthropic冲刺IPO:Claude一个月烧掉客户5亿美元,却成了上市前最强广告
Token 卖疯了挣的也是小钱,Snowflake 盯上了 AI 时代最贵的资产
Codex 500万用户福利被怼“作秀”!Claude Code 吃掉近九成 Token,OpenAI 抢用户败在“小气”上?





