写点什么

“阿里是当下苹果最好的选择,甚至可能没有之一”

  • 2025-02-12
    北京
  • 本文字数:4406 字

    阅读完需:约 14 分钟

大小:2.04M时长:11:53
“阿里是当下苹果最好的选择,甚至可能没有之一”

就在人们还对马云突然现身阿里杭州园区津津乐道的时候,苹果突然被爆将与阿里巴巴合作为中国 iPhone 用户开发人工智能功能。

 

根据 The Information 的消息,有知情人士表示,苹果和阿里巴巴已经提交双方共同开发的中国版 AI 功能,正在获得中国监管部门备案的过程中,这表明双方合作已经取得了重大进展。

 

据报道,苹果从 2023 年就已经开始测试各类中国头部 AI 大厂开发的 AI 模型。去年,原本选定百度作为主要合作伙伴,但双方的合作并不顺利,百度为“Apple Intelligence”开发模型的进展未达苹果标准。但目前不清楚苹果是否是选用单一供应商,是否会完全放弃百度。

 

近几个月苹果开始考虑其他选项,对腾讯、字节跳动、阿里巴巴以及 DeepSeek 开发的模型进行评估。最终,阿里被苹果选中。

 

“当下阿里倒算得上最好的选择,甚至可能没有之一。”知乎大模型话题优秀答主刘延表示。“为什么是阿里,不是 DeepSeek ?”这是很多人在看到这个新闻后的第一反应。一些专家也对此进行了很多分析。

 

为什么是阿里?

 

用户优势

 

据报道,苹果的目标是找到一家能基于中国用户个人数据理解中国本土用户需求的中国合作伙伴。在评估各公司开发的 AI 模型性能时,苹果对它们理解用户意图并将用户实际手机使用情况融入生成回复的能力感到不满。

 

据悉,一位直接了解决策细节的知情人士称,作为电商巨头,阿里巴巴掌握的中国消费者个人数据比百度更多,比如用户的购物和支付习惯。阿里巴巴的 AI 模型就是基于这些数据集进行训练的,因此能帮助“苹果智能”为中国用户提供更个性化的服务。有接近阿里巴巴的人士透露,基于中国相关数据隐私安全法律法规,阿里巴巴不会与苹果共享其个性化数据集。

 

模型能力够强、开源社区认可

 

不管是云端还是端侧,阿里模型能力是足够强的。

 

Monica.im 产品合伙人张涛在其公众号(潜云思绪)中分享说,阿里的千问(Qwen)系列模型涵盖了各种各样的任务领域和尺寸,可以匹配 Apple Intelligence 对于人工智能技术需求。Qwen 模型的性能表现,比如 Qwen2.5 系列各模型的 benchmark 表现非常棒。站在大模型应用开发者的角度上,光是“刷榜”或提供不同尺寸的模型还不够,模型的周边能力也挺重要,比如 function call 支持;此外,Qwen 在多语言能力方面全球领先(甚至可以说是第一),并且在产品化对齐程度上表现也很优秀。

 

知乎大模型话题优秀答主段小草也指出,Qwen 一直都是国内 T1 阵营的模型,Qwen 系列模型中,除了旗舰模型闭源商用外,其余所有模型都在走开源路线。Qwen 的特点是开源模型多、全、强,和 DeepSeek V3/R1 开源的 671 B 超大模型不同,Qwen 主打全尺寸、全功能。小到手机也能运行的 1.5B,大到 110B,基本上覆盖了开源社区的绝大多数需求,因而在全球开源社区中影响力很大。

 

张涛还指出,Qwen 是类 Llama 架构,能很好与各种 Infra 对接,“我合理猜测,对于苹果工程师也容易对接。”

 

重要的是,Qwen 受到了真正开发者的认可。在 Hugging Face 的模型 trending 排行中,Qwen 有很高的关注度和下载量。Qwen 绝大部分开源模型是基于 Apache2.0 协议,意味着可以商用,姿态非常开放。

 

“非常多的研究工作都是以 Qwen 为基础模型开展的,可以说养活了一大帮 AI 专业的研究生和博士。”段小草提到,DeepSeek 推出 R1 时,为了验证大模型推理模式的有效性、方便开源社区进一步研究,主动蒸馏了一部分小模型,这些小模型就是基于 Qwen2.5 和 Llama 的,Qwen 和 Llama 也是目前开源最全面的两个主流模型。

 

“某种程度上,这次合作可以说是开源生态的全面胜利。产品实力的进化、社区反馈很重要。我看到的 Qwen 团队非常拥抱社区,有良好的社区互动,然后逐渐在全球技术社区形成影响力。”张涛表示,“开源做好了,能力做高了,并与主流生态有好的对接,是可以反哺商业化的。”

 

刘延则以自己体验为例说道,“我日常干活大体上是在 DeepSeek、Qwen Max/72B 以及 Gemini 2.0 之间切换使用,GPT 说中文人话的水平比这仨还是差了点。三个模型各有长处和局限性:DeepSeek 长文本生成容易回到自己的风格,Qwen 偶尔不太说人话,Gemini 快。”

 

他还表示,阿里的 Qwen 系列模型可能是能用在苹果手机端侧的“小”模型里最好的。由于 iPhone 的内存限制,大概就支持 1-3B 参数的模型端侧运行,甚至 Qwen2.5 里面,1.5B/3B 这些相对小模型,在经过 Deepseek 的蒸馏后,大部分场景也能说点人话,并且表现出还不错的交互能力(指令服从性)。“我怀疑,阿里这个模型在苹果手机上的表现可能比苹果自家的还要好点。”

 

云业务增加优势

 

“从支持力度来看,阿里背后有中国最大的云服务厂商阿里云,无论是通过阿里云做支持计算,还是由阿里云工程支持团队协作苹果云部署阿里模型,从商务、客户服务、技术支持等维度看,阿里云具备全面的团队支持。”张涛表示。

 

刘延也提到,阿里本身云业务也够强,能撑得起 iPhone 存量用户的并发需求和数据本地化政策,在云端还能接入不同家的模型,这块对云服务能力要求更高。

 

国内其他云厂商,各有长短板。“火山引擎(字节跳动)、腾讯现阶段云服务能力不错,但自有模型能力一般,也没有端侧小模型。百度问题也一样,云服务能力还不错,但自有模型起了个大早赶了个晚集。DeepSeek V3/R1 是个好模型,但 DeepSeek 不是个好云服务商,毕竟 DeepSeek 也没有专门搞云的团队。”刘延分析道。

 

此外,刘延表示,云服务商可能也要承担一部分模型训练的任务。从长期来看,端侧模型想要实现更好的功能,也需要结合用户数据做本地化训练,而这部分数据也不可能出境。“阿里云在训练小模型上的经验,应该算得上世界顶级。所以,综合模型产品、云服务能力来看,阿里确实是苹果当下最好的选择,可能没有之一。”

 

大热的 DeepSeek“输”在哪里?

 

报道还提到,苹果已经测试了 DeepSeek 的模型,但决定不采用,原因是苹果认为 DeepSeek 团队缺乏支持如苹果公司这样的大型客户的人力和经验。相关专家分析,DeepSeek 在自身人力配置、大模型等方面还是存在一些“短板”。

 

难以服务好苹果架构

 

张涛直言,服务苹果的架构,DeepSeek 还不“够格”。“我想表达的都不是针对 DeepSeek 的贬义,而是说术业有专攻。”张涛强调。

 

他分析道,要服务苹果的话,在云 Infra 上,DeepSeek 没有自己的云,它支撑自己 App 的推理都已经很痛苦了,肯定不可能再给苹果搞一套。但如果用苹果自己的云,那就需要把自己的 Infra 整体搬过去,在那边再建设一次。以 DeepSeek 现在的人员规模和配置来说,做这么强的 to B 支持服务,显然也不是这个团队擅长或者当下愿意干的事情,所以苹果云方案也不是 DeepSeek 当下能支持的。

 

“但阿里的研究团队应该能腾得出人手去支持苹果。”张涛说道。

 

段小草也指出,DeepSeek 现在的情况是自家官方服务器一直繁忙,API 都暂停充值了,基本上是没什么余力的,更不要说保障服务苹果这种超大客户。他猜测,DeepSeek 对 B 端业务不怎么有兴趣,因为以部署、运维为主的 B 端业务纯属脏活累活。苹果更不可能自己直接部署使用 DeepSeek 的开源模型。因此,苹果需要的不仅仅是一个模型,更是一个合作伙伴。

 

此外,DeepSeek 也难以匹配苹果独特的架构。去年,苹果发布 Apple Intelligence 时特别强调“隐私第一”,要求非常高。在张涛看来,如果要匹配苹果的架构,光是把 Infra 搬过去肯定不行,还要围绕它的 Private Cloud Compute 架构去做技术改造。

 


另外,张涛分析,端云混合部署意味着同一个能力模型需要多尺寸。比如要在 Private Cloud Compute 架构里跑很大 size 的模型,但在端侧上可能跑的是小模型,甚至针对不同的端,比如 在不同的 iPhone 型号或者在 MacBook、iMac、iPad 等不同端,可能跑的都是不同尺寸的模型。

 

在他看来,“总的来说,从云 Infra 的角度、从苹果对隐私的要求、包括端云混合部署多尺寸的要求等等,我个人觉得都不是 DeepSeek 擅长或者说他们当下愿意/应该做的事情。对于当下的 DeepSeek 来说,或许专心攻关、一路向前探索 AGI、ASI 才是最重要的。”

 

模型只在某个方面突出

 

“虽然 DeepSeek 厉害,但是在支持广度方面,目前可能做得没那么全面,比如模型类型。”张涛表示。

 

另外,从产品化“成熟”度方面看(这里的成熟是一个相对概念),模型要真正用到大规模应用场景里,需要考虑的事情会很多,比如合规、用户喜好和常见场景等。因此,除了模型本身强大以外,也需要大量地从各方面做大量的后训练,也就是所谓的对齐,确保能够适应现实商用场景。

 

“我自己在使用 V3 和 R1 的过程会发现,DeepSeek 专注于前沿的探索创新,但在现实商用方向的对齐方面是没有花过多的精力。”张涛说道,“总的来说,AI 行业很宽广,DeepSeek 的突破和创新是在某一个特定的方向。”

 

段小草也指出, 最新的 Qwen2.5-Max 其实是赢过 DeepSeek V3 的。

 

大家现在对 DeepSeek 体验良好,主要是在于推理模型 R1。但 o1/R1 这类推理模型最大的问题就在于输出太长、太慢了,每次都要先输出思维过程,然后再组织语言进行回答,内容冗余很多,所以更适合“短输入、长输出”的场景。

 

另外,o1/R1 这些推理模型相比于普通的对话模型来说贵好几倍,输出长 + 单价贵,二者叠加在一起就显得性价比不高。而 Qwen2.5/DeepSeek V3 这类对话模型,更适用于“长输入、短输出”的场景,比如总结一篇文章主要内容、对多个信源进行总结等,也许更适合用户在 iPhone 手机上的日常场景。

 

Apple Intelligence 何时在中国落地

 

Apple Intelligence 自去年 6 月亮相以来,已经过去了整整 8 个月,目前已经在海外部分地区上线,但反响平平。苹果曾称会在 2025 年上线支持汉语。

 

Apple Intelligence 入华几经波折,段小草此前曾分析,Apple Intelligence 没有入华,跟和谁合作的关系并不大,而是在 Apple Intelligence 自身的部署方式上。

 

“不论是跟百度、字节、腾讯哪家合作,苹果都不可能把第三方作为唯一 AI 服务而放弃自身的 AI。我分析主要还是有两种可能性:第一是 Apple Intelligence 现在只支持英文,其他所有的语言都排到 2025 年去了,汉语、法语、日语、西班牙语等本来也都是 2025 年才会支持。第二则是国内的监管限制,按照要求生成式 AI 算法需要备案,苹果还没有完成这样的备案。”

 

目前,包括华为、荣耀、OPPO、魅族、努比亚在内的众多国产手机均已官宣接入 DeepSeek-R1。vivo 方面据媒体报道确认接入,具体时间和细节有待官方公布。而小米尚未正式宣布与 DeepSeek 的合作计划,但此前有报道称,雷军以高薪招募 DeepSeek“天才少女”罗福莉,负责小米 AI 实验室的大模型团队,官方尚未对此作出回应。无论如何,对于苹果而言,与阿里的合作必须加快脚步,否则在中国的市场竞争中将会更加被动。

 

相关链接:

https://www.theinformation.com/articles/apple-partners-with-alibaba-to-develop-ai-features-for-iphone-users-in-china

https://www.zhihu.com/question/119516702

https://mp.weixin.qq.com/s/hJVA-g8iP2jx8xfjuTLliQ

https://www.zhihu.com/question/7281173530/answer/60003109746

2025-02-12 15:3713695

评论 1 条评论

发布
用户头像
分析的不错
2025-02-12 21:03 · 上海
回复
没有更多了

Python:灵活的开发环境

eng八戒

Python Python自动化办公

CDH+Kylin三部曲之一:准备工作

程序员欣宸

大数据 kylin 12月月更

AngularJS进阶(二十二)实现时间选择插件

No Silver Bullet

AngularJS 12月月更 AngularJS时间插件

bat脚本常用命令及测试

@下一站

软件开发 BAT 12月日更 12月月更

2022-12-04:给定一个由 ‘[‘ ,‘]‘,‘(‘,‘)’ 组成的字符串, 请问最少插入多少个括号就能使这个字符串的所有括号左右配对, 例如当前串是 “([[])“,那么插入一个‘]‘即可满足

福大大架构师每日一题

算法 rust 福大大

MetaTown:一个可以自己构建数字资产的平台

华为云开发者联盟

区块链 华为云 12 月 PK 榜 数字资产平台

架构训练营模块1作业

附加信息

架构训练营

踩坑之旅:配置 ROS 环境

eng八戒

机器人 ROS 移动机器人 机器人开发

TDengine3.0:解决高基数问题的时序数据库设计思路

TDengine

数据库 tdengine 时序数据库

工作中常用的设计模式--策略模式

lpe234

Java 后端 设计模式 策略模式 spring-boot

AngularJS进阶(二十四)AngularJS与单选框及多选框的双向动态绑定

No Silver Bullet

AngularJS 12月月更 单选 多选

极客时间架构训练营作业-模块一

张建闯

架构实战营

架构实战营 - 微信业务架构图 & “学生管理系统”毕设架构设计

huiwen

架构实战营

极客时间 - 运维进阶训练营 - 第六周作业

dog_brother

mysql优化之 performance Schema常用查询sql

@下一站

MySQL 优化 12月日更 12月月更

架构实战营 1-6 学生管理云平台实战随堂测验

西山薄凉

「架构实战营」

【愚公系列】2022年12月 微信小程序-组件模板和组件样式

愚公搬代码

12月月更

编码开发如何开展API安全实现

穿过生命散发芬芳

12月月更

4.如何做好架构设计

程序员小张

「架构实战营」

足球比赛中的数据科学

CnosDB

数据库 时序数据库 开源社区 CnosDB infra

会议报道 | 第二届百家医院单细胞中心联盟年度峰会圆满落幕

联营汇聚

鸿蒙开发实例 | 可复用列表项的ListContainer

TiAmo

华为 华为云 12月月更

底层逻辑-理解Go语言的本质

面向加薪学习

golang go语言 源代码 golang 面试 Go源代码

浅谈 Apache Flume 数据接入的实现原理以及问题分析处理方式

移动云大数据

flume

火山引擎DataTester:一个爆款游戏产品,是如何用A/B测试打磨出来的?

字节跳动数据平台

大数据 游戏 AB testing实战 12 月 PK 榜

企业如何应对开源软件供应链安全问题?

安势信息

开源 开源安全 软件供应链安全 开源安全与治理 清源CleanSource SCA

架构实战营 1-5 学生管理系统实战随堂测验

西山薄凉

「架构实战营」

AngularJS进阶(二十五)requirejs + angular + angular-route 浅谈HTML5单页面架构

No Silver Bullet

AngularJS 12月月更 requirejs angular-route

理解DALL·E 2, Stable Diffusion和 Midjourney的工作原理

Baihai IDP

人工智能 AI 工具 AIGC 文转图

“阿里是当下苹果最好的选择,甚至可能没有之一”_AI&大模型_褚杏娟_InfoQ精选文章