写点什么

端计算 Walle:2235 亿次运算,为了无法计算的端智能价值(二)

  • 2020-01-07
  • 本文字数:1031 字

    阅读完需:约 3 分钟

端计算Walle:2235亿次运算,为了无法计算的端智能价值(二)

面临的挑战

今年我们加大投入,并联合了算法团队、搜索推荐工程团队、手淘基础链路团队,共建端计算的工程体系。随着端计算体系承载的业务数量与复杂度的快速增加,也对 DAI 等基础设施提出来了更多更严峻的挑战。


▐ 研发效率


初期的设计是算法同学通过控制台下发 TensorFlow 的 pb(protobuffer) 模型文件,所有的逻辑均在 pb 的网络结构中实现。这种模式下,存在如下一些不足的地方。


  • 由于端侧集成的为精简版 TF Mobile ,算法同学编写的 TF 代码在端侧可能存在缺少算子而跑失败的情况。

  • 新增或修改 Op 需要 Native 发版实现,周期长。

  • if、for 等流程控制在 TF 中难以处理。

  • TF 的端侧推理耗时较长,业务决策响应不及时。


▐ 稳定性


Android 出于包大小和动态性的考虑,采用了动态下发并加载动态库的模式。但是由于 Android 设备的碎片化,动态加载存在着诸多兼容性的问题,测试也不好验证。同时 JavaScriptCore 本身在 iOS 上是个黑盒,曾在 iOS9 上就出现过大量的 JavaScriptCore 的 Crash 问题。而端计算作为算法处理的基础设施,每日被调用的次数非常庞大。所以任何一个极小的不稳定因素,都有可能被放大。


并且端侧的故障,大部分是由于线上配置发布引起的。手淘对于线上变更有着严格的安全生产流程,涉及发布窗口、验证、灰度、观察等各个环节。而算法同学往往对端侧的指标不熟悉,一些潜在风险未必能及时发现。我们需要在各个环节加强完善设施能力,在风险发生前及时暴露,在发生中将影响减至最低。


▐ 任务治理


在年初的时候,我们进行了一次线上业务梳理。发现手淘环境中有 5+的特征提取任务、4+的曝光任务。很多基础的数据特征,在不同的业务场景下都需要使用到,且对于同一特征的加工方式往往相识。若所有的特征均由各业务方自行进行加工,难免会造成开发成本及端上计算成本的浪费。而且无法高效地将已有能力复用到更多业务和 App 上。


▐ 场景覆盖


在端计算模式快速发展中,我们关注到部分业务域虽然不具备算法资源,但是希望借鉴端计算的思路,在一些输入因素相对比较固定的场景下,对用户特定的行为进行快速的响应与干预。同时初期 DAI 的触达能力比较单一,仅将执行结果以广播的方式通知到业务方,由业务方自行实现通知后的触达响应逻辑。而一些常规的触达途径,在大部分业务域都是相识的。比如 Push、Poplayer(浮窗)、触发其他模型任务联动等。在这个环节需要有一套统一的多样的触达机制,满足不同场景不同定制。


本文转载自淘系技术公众号。


原文链接:https://mp.weixin.qq.com/s/V2QrhvW-F8asXvtyg7i0XA


2020-01-07 18:05738

评论

发布
暂无评论
发现更多内容

1小时搞定跨浏览器测试!零基础玩转Playwright自动化

测试人

软件测试

OPPO 持续赋能开发者,助力 Android 16 整体适配率超 98%

科技热闻

运维效率提升35%+成本降低40%:低代码开发在企业数字化运维体系中的规模化落地方法论

不在线第一只蜗牛

低代码

1688 Agent Russia 丨俄罗斯淘宝代购1688代采集运系统搭建指南

tbapi

淘宝代购系统 俄罗斯淘宝代购系统 俄罗斯1688代采系统 俄语淘宝系统 俄语1688代采系统

技术干货推荐:高效解决性能瓶颈与抖动之进程热点追踪

阿里云基础软件

操作系统 系统运维 SysOM 阿里云操作系统控制台 进程热点追踪

黑龙江等保测评:筑牢网络安全防线

等保测评

系统容量评估方法

陈一之

构架师 容量设计

分享一个 Cursor mdc 生成器,基于 Gemini 2.5,很实用!

Immerse

WinZip Pro 11 (简洁直观的压缩解压工具)

Geek贝

解压缩软件

如何挑选RPA厂商?

Techinsight

Apple Remote Desktop(远程管理软件)

Geek贝

Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架

阿里云基础软件

AI Mooncake 大模型推理架构

Product Hunt 双料榜首,开发仅用 2 周:00 后创业者的 AI 智能体实践

火山引擎开发者社区

AI DeckSpeed

JavaScript Quine揭秘:如何让程序输出自身源代码?

不在线第一只蜗牛

JavaScript

基于世界模型的实时互动游戏引擎 Mirage:可自然语言创造可互动游戏;阿里开源 OmniAvatar:音频生成全身数字人视频丨日报

声网

快手联合港科大“放大招”!推出测试时扩展方法EvoSearch,1.3B视频模型碾压14B!

快手技术

大模型 快手 语言大模型

企业级远程控制方案选型指南:四款主流方案深度对比

科技热闻

京东商品详情API接口(JD.item_get)

tbapi

京东商品详情接口 京东API 京东商品数据采集

商品中心—库存分桶的一致性改造文档(二)

电子尖叫食人鱼

C# 数据库

运维利器-阿里云操作系统控制台上线!追踪隐式资源,巧解内存难题

阿里云基础软件

操作系统 系统运维 阿里云操作系统控制台

Yops 运维面板体验:文件变动自动备份 + 一键恢复实测

是但求其发

nginx ubuntu 容器 运维 Linux 运维

华为HMS for Car签约Anghami与Nabd,打造面向全球的本地化车机内容生态

极客天地

云原生机密计算新范式 PeerPods技术方案在阿里云上的落地和实践

阿里云基础软件

容器化 ACK Alibaba Cloud Linux PeerPods

SpectraLayers Pro|AI降噪+彻底解放你的声音想象力

柠檬与橘子

向量数据长什么样子?如何将一段文本数据转化为向量数据?

量贩潮汐·WholesaleTide

Python 机器学习

RPA 部署不是买白菜!企业级 vs 个人版差异曝光

Techinsight

GraalVM 24 正式发布阿里巴巴贡献重要特性 —— 支持 Java Agent 插桩

阿里云基础软件

Java jdk GraalVM

华为开发者空间全面升级,全新特性赋能AI智能应用开发

华为云开发者联盟

芯火三十年:纵横四海(2013-2021)

脑极体

AI

大模型时代 RPA 选型必看!企业级与个人版避坑指南,90% 的人都选错了

Techinsight

这几类运维难题,看阿里云操作系统控制台如何一站式破解

阿里云基础软件

操作系统 系统运维 智能运维 阿里云操作系统控制台

端计算Walle:2235亿次运算,为了无法计算的端智能价值(二)_语言 & 开发_淘系技术_InfoQ精选文章