写点什么

魅族技术晚场回顾,算法、架构、AI 之外,还要考虑未来

  • 2017-07-20
  • 本文字数:2050 字

    阅读完需:约 7 分钟

很多技术人应该都参加过 InfoQ 举办的技术晚场,这是一种相对 open 且轻松的技术交流活动。

根据提前设置好的技术话题方向,请预先邀请好的小组组长带领小组成员进行讨论,基本上,每个愿意交流的成员都能和组长或者其他嘉宾充分交流。

在 7 月 7 日 ArchSummit 深圳架构师峰会上,魅族联合 InfoQ 共同策划举办了第 9 期以“大数据和 AI 应用实践”为主题的魅族技术开放日活动。活动邀请了 5 位小组长:分别是腾讯云大数据及 AI 产品中心技术专家 张杉,eBay 数据和商业智能研发总监 沈则潜,销售易技术 VP 赵宇辰,魅族高级算法工程师 李梦婷,魅族数据平台研发组长、架构师 张欢引。

现场讨论非常热烈,大家相见恨晚,各抒己见,畅所欲言,对于大数据平台架构、推荐系统、图像识别、机器学习等话题,几乎有说不完的想法,讨论不完的问题,借助这样的机会,确实可以帮助大家提供技术解决方案和新思路。

李梦婷小组讨论的内容以推荐算法为主,讨论了两个主要的技术点,一是用户画像体系的建立,这里面涉及用户数据获取的方式,一般包括自行收集数据、外部官方渠道的数据、市场采集数据。其次就是建立标准的标签体系,每一个标签通常是人为规定的特征标识,用高度精炼的特征描述一类人,例如年龄、性别、兴趣偏好等,不同的标签通过结构化的数据体系整合,就可组合出不同的用户画像。除此之外还涉及到画像的存储与索引、标签的计算方法,以及评价指标等内容。

二是讨论到了推荐系统,内容包括推荐系统架构,具体各个模块用到的算法以及效果如何,特征工程,线下评价以及线上评价的方式,算法人员和产品 / 运营之间的合作方式,推荐位与推广位的权衡等等。

张欢引小组的组员问到,魅族数据仓库是否是按主题分别存储的?除了行为数据外,像日志、DB 数据等是怎么接入数据仓库的这样的问题。

实际上,魅族数据仓库是基于一个大规模 Hadoop 集群上实现的,根据不同业务做不同主题划分,只不过是存储在一起的。数据开发人员在集成开发平台(或流平台)配置对应的任务,将各类行为记录、业务日志、DB、第三方数据通过定时离线抽取(或实时流)方式写入统一的数据仓库,大致流程如下图:

其次,组员们对魅族的用户画像系统存储实现的组建很感兴趣,以及对标签数据生成过程和具体的使用场景很有兴趣。

张欢引介绍,魅族用户画像主要有两种场景,所用的存储组件不同:

  • 圈人及画像洞查服务:用户通过 Web 进行操作,一次处理数据量大,响应时间要求在 3s 内,对比 Vertica 和 ES 后,最终用户宽表选择了 ES 方案。
  • DMP 服务主要是为 PUSH、推荐、广告等提供实时接口查询,并发高,要求在 ms 级响应。团队最后使用的是 HBase 方案(对于要求更苛刻的广告业务则使用了 Redis)。

用户画像数据魅族区分指标和标签有两个概念,举例而言:用户消费金额数是指标(0.1 元等),而基于此基础上的消费金额等级(高、中、低)则是标签。标签可通过标签规则设置,实则由指标生成。标签数据生成过程如下:

上述生成过程有两个不足:一是会因为某一个指标或标签的生成 delay 而造成整体标签宽表输出延后,另一个是未考虑实时标签。所以魅族新的方案是将生成的单个标签融合入宽表过程改为单个标签实时 put(或 post),这样就有效的避免了不足之处。目前魅族画像数据已经为活动分析、营销推广、推荐、广告及业务本身运营提供了支撑。

赵宇辰作为大数据方面的技术大触,和沈则潜老师带领数据挖掘和机器学习讨论组过程中,展开了关于人工智能话题的热烈讨论。在深度学习非常火爆的今天,小组首先分析了深度学习最常见的几个应用场景:图像,声音和文本。机器学习从传统的 Feature Engineering(特征工程)随之转向深度模型的 Architecture Engineering(架构工程)。

随后小组又讨论了深度学习是否需要大量数据作为训练,在实际应用场景中,如果没有大量数据,Transfer Learning(迁移学习)等技术是否能在此有所应用。来自阿里的组员还分享了阿里在深度学习特别是自然语言处理上的应用,从多轮对话机器人到情感分析,再到知识库,甚至自然语言生成 Natural Language Generation(NLG)等等,对整个小组的话题引导和经验分享都非常有帮助。来自企业服务(B2B)的小伙伴们分享了在 B2B 领域人工智能应该如何发挥作用和应用机器学习的未来愿景。

张杉老师带领小组进行图像识别的话题讨论,讨论结果认为,图像识别在未来的好几个场景是有落地基础的,包括工业制造,智慧城市,智慧医疗,智慧驾驶,以及金融行业。同时在智能医疗上也有可能落地,未来的影象资料结合 AI 是可以实现的,对于诊断有很大的帮助。

最后小组也讨论了支撑图像识别的技术,尤其在深度学习的大背景下,深度学习其实在很大程度上是大数据的一个发展积累;另外一个重要的条件就是“计算能力+算法”,GPU 的出现使得计算能力更进一步,这两者是图像识别的一个重要资源。当然除此之外,小组还聊到了 AI 时代哪些岗位可能会被替代?例如智能客服的出现,很有可能会取代传统的人工客服岗位。另外数据分析岗位也在可能性行列,数据生成结果之后,怎么往数据中心去迁移则是需要重点考虑的事情。

2017-07-20 23:371884
用户头像

发布了 181 篇内容, 共 100.8 次阅读, 收获喜欢 207 次。

关注

评论

发布
暂无评论
发现更多内容

图控软件大盘点 国内外顶级SCADA软件整理

2D3D前端可视化开发

组态软件 工业自动化 SCADA HMI 图控软件

离散元分析有什么用?仿真软件介绍

智造软件

CAE CAE软件 离散元

常用的企业加速公司内部大文件传输速度方法

镭速

大文件传输 传输大文件 内部大文件传输

如何通过营销策略和资源平台提升API竞争力

幂简集成

API 产品运营 营销模式 差异化

免费SSL,阿里云免费SSL证书申请及如何宝塔更换SSL证书

JaneYork

阿里云 ssl 宝塔面板 免费SSL证书 宝塔

亚马逊云科技推出五项Amazon SageMaker新功能

财见

身为 Go 程序员,我为啥更喜欢用 Zig?

树上有只程序猿

Go 编译器 Zig语言

大模型数据集:突破边界,探索未来

数据堂

过去 100 天,发生了啥?丨 RTE 开发者日报 Vol.100

声网

公有云频繁宕机,从上云到下云备份如何实现?

财见

云图说 | 图解制品仓库服务CodeArts Artifact

华为云开发者联盟

华为云 华为云开发者联盟 华为云CodeArts 华为云云图说

B 站基于 StarRocks 构建大数据元仓

StarRocks

数据库 StarRocks 数据分析、

XPET宠物游戏系统开发技术

薇電13242772558

gamefi

FPS和SFTP的速度哪个更快?区别在哪里?

镭速

ftp sftp 传输大文件

7 种查询策略教你用好 Graph RAG 探索知识图谱

NebulaGraph

知识图谱 LLM rag

亚马逊云科技携手埃森哲助力默沙东利用云技术缩短药物发现时间

财见

【写作训练营打卡|02】

终身学习 #学习

Vue 应用程序性能优化:代码压缩、加密和混淆配置详解

社交泛娱乐出海,市场 & 赛道、投放 & 变现的最新干货分享

融云 RongCloud

社交 泛娱乐 市场 变现 梳理

直播预告丨电商内容营销的AIGC式进化

京东科技开发者

电商 大模型 AIGC

云服务器的安全防护:技术与策略全面解析

一只扑棱蛾子

云服务器

可视化软件开发工具——JNPF

互联网工科生

低代码开发 可视化开发 JNPF

行外人提问:CST软件仿真能够解决哪些问题?

思茂信息

cst cst电磁仿真 cst仿真软件

大模型数据集:构建、挑战与未来趋势

数据堂

DAPP算力挖矿系统开发丨合约技术开发

l8l259l3365

用 2 种方法取消 Axios 请求,掌控请求的主动权

Liam

JavaScript 程序员 前端 axios 网络请求

细说SQL与ETL之间的小秘密

华为云开发者联盟

数据库 后端 华为云 华为云GaussDB 华为云开发者联盟

魅族技术晚场回顾,算法、架构、AI之外,还要考虑未来_大数据_Xue Liang_InfoQ精选文章