NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

魅族技术晚场回顾,算法、架构、AI 之外,还要考虑未来

  • 2017-07-20
  • 本文字数:2050 字

    阅读完需:约 7 分钟

很多技术人应该都参加过 InfoQ 举办的技术晚场,这是一种相对 open 且轻松的技术交流活动。

根据提前设置好的技术话题方向,请预先邀请好的小组组长带领小组成员进行讨论,基本上,每个愿意交流的成员都能和组长或者其他嘉宾充分交流。

在 7 月 7 日 ArchSummit 深圳架构师峰会上,魅族联合 InfoQ 共同策划举办了第 9 期以“大数据和 AI 应用实践”为主题的魅族技术开放日活动。活动邀请了 5 位小组长:分别是腾讯云大数据及 AI 产品中心技术专家 张杉,eBay 数据和商业智能研发总监 沈则潜,销售易技术 VP 赵宇辰,魅族高级算法工程师 李梦婷,魅族数据平台研发组长、架构师 张欢引。

现场讨论非常热烈,大家相见恨晚,各抒己见,畅所欲言,对于大数据平台架构、推荐系统、图像识别、机器学习等话题,几乎有说不完的想法,讨论不完的问题,借助这样的机会,确实可以帮助大家提供技术解决方案和新思路。

李梦婷小组讨论的内容以推荐算法为主,讨论了两个主要的技术点,一是用户画像体系的建立,这里面涉及用户数据获取的方式,一般包括自行收集数据、外部官方渠道的数据、市场采集数据。其次就是建立标准的标签体系,每一个标签通常是人为规定的特征标识,用高度精炼的特征描述一类人,例如年龄、性别、兴趣偏好等,不同的标签通过结构化的数据体系整合,就可组合出不同的用户画像。除此之外还涉及到画像的存储与索引、标签的计算方法,以及评价指标等内容。

二是讨论到了推荐系统,内容包括推荐系统架构,具体各个模块用到的算法以及效果如何,特征工程,线下评价以及线上评价的方式,算法人员和产品 / 运营之间的合作方式,推荐位与推广位的权衡等等。

张欢引小组的组员问到,魅族数据仓库是否是按主题分别存储的?除了行为数据外,像日志、DB 数据等是怎么接入数据仓库的这样的问题。

实际上,魅族数据仓库是基于一个大规模 Hadoop 集群上实现的,根据不同业务做不同主题划分,只不过是存储在一起的。数据开发人员在集成开发平台(或流平台)配置对应的任务,将各类行为记录、业务日志、DB、第三方数据通过定时离线抽取(或实时流)方式写入统一的数据仓库,大致流程如下图:

其次,组员们对魅族的用户画像系统存储实现的组建很感兴趣,以及对标签数据生成过程和具体的使用场景很有兴趣。

张欢引介绍,魅族用户画像主要有两种场景,所用的存储组件不同:

  • 圈人及画像洞查服务:用户通过 Web 进行操作,一次处理数据量大,响应时间要求在 3s 内,对比 Vertica 和 ES 后,最终用户宽表选择了 ES 方案。
  • DMP 服务主要是为 PUSH、推荐、广告等提供实时接口查询,并发高,要求在 ms 级响应。团队最后使用的是 HBase 方案(对于要求更苛刻的广告业务则使用了 Redis)。

用户画像数据魅族区分指标和标签有两个概念,举例而言:用户消费金额数是指标(0.1 元等),而基于此基础上的消费金额等级(高、中、低)则是标签。标签可通过标签规则设置,实则由指标生成。标签数据生成过程如下:

上述生成过程有两个不足:一是会因为某一个指标或标签的生成 delay 而造成整体标签宽表输出延后,另一个是未考虑实时标签。所以魅族新的方案是将生成的单个标签融合入宽表过程改为单个标签实时 put(或 post),这样就有效的避免了不足之处。目前魅族画像数据已经为活动分析、营销推广、推荐、广告及业务本身运营提供了支撑。

赵宇辰作为大数据方面的技术大触,和沈则潜老师带领数据挖掘和机器学习讨论组过程中,展开了关于人工智能话题的热烈讨论。在深度学习非常火爆的今天,小组首先分析了深度学习最常见的几个应用场景:图像,声音和文本。机器学习从传统的 Feature Engineering(特征工程)随之转向深度模型的 Architecture Engineering(架构工程)。

随后小组又讨论了深度学习是否需要大量数据作为训练,在实际应用场景中,如果没有大量数据,Transfer Learning(迁移学习)等技术是否能在此有所应用。来自阿里的组员还分享了阿里在深度学习特别是自然语言处理上的应用,从多轮对话机器人到情感分析,再到知识库,甚至自然语言生成 Natural Language Generation(NLG)等等,对整个小组的话题引导和经验分享都非常有帮助。来自企业服务(B2B)的小伙伴们分享了在 B2B 领域人工智能应该如何发挥作用和应用机器学习的未来愿景。

张杉老师带领小组进行图像识别的话题讨论,讨论结果认为,图像识别在未来的好几个场景是有落地基础的,包括工业制造,智慧城市,智慧医疗,智慧驾驶,以及金融行业。同时在智能医疗上也有可能落地,未来的影象资料结合 AI 是可以实现的,对于诊断有很大的帮助。

最后小组也讨论了支撑图像识别的技术,尤其在深度学习的大背景下,深度学习其实在很大程度上是大数据的一个发展积累;另外一个重要的条件就是“计算能力+算法”,GPU 的出现使得计算能力更进一步,这两者是图像识别的一个重要资源。当然除此之外,小组还聊到了 AI 时代哪些岗位可能会被替代?例如智能客服的出现,很有可能会取代传统的人工客服岗位。另外数据分析岗位也在可能性行列,数据生成结果之后,怎么往数据中心去迁移则是需要重点考虑的事情。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2017-07-20 23:371539
用户头像

发布了 162 篇内容, 共 71.6 次阅读, 收获喜欢 196 次。

关注

评论

发布
暂无评论
发现更多内容

32核打赢AMD64核 英特尔Ice Lake为HPC提供强劲性能

E科讯

释放数字化活力 高质量建设数字中国

CECBC

数字经济

Appium常用操作之「Toast提示信息获取」

清菡软件测试

Maven-技术专题-Setting文件结构解析

洛神灬殇

3年Java开发经验从阿里、美团、滴滴面试回来,想和Java程序员谈一谈感悟及面经

Java架构之路

Java 程序员 架构 面试 编程语言

DataOps系列丨DataOps的组织架构与挑战

DataPipeline数见科技

大数据

输入法B端市场转化:百度推动产业智能化的新路径

脑极体

JVM运行时数据区,你真得好好学一学

Simon郎

JVM Java 分布式

《迅雷链精品课》第六课:主流区块链数据存储分析(一)

迅雷链

区块链

DataOps系列丨数据的「资产负债表」与「现状」

DataPipeline数见科技

大数据

五、一致性哈希算法

Geek_28b526

【得物技术】浅谈分布式事务中间件Seata

得物技术

开源 分布式事务 中间件 解决方案 seata

区块链+供应链,双链融合开启新时代

CECBC

区块链 供应链物流

入坑 docsify,一款神奇的文档生成利器!

沉默王二

docsify

微服务手册:高速查询?除了Redis我们还有另外的选择

互联网应用架构

redis 微服务 springboot Caffeine 高速缓存

架构师训练营 W05 作业

Geek_f06ede

实现2nm工艺突破,台积电为何能给“摩尔定律”续命?

脑极体

git使用与原理剖析及其私服搭建

Fox

git

阿里大牛八年打造,编程宝典,从初学到编程进阶—深入学习—实战

Java~~~

Java 阿里巴巴 程序员 架构 编程语言

一周信创舆情观察(11.9~11.15)

统小信uos

架构师训练营 1 期 -- 第九周作业

曾彪彪

极客大学架构师训练营

Nacos实战及其源码分析

Fox

Spring Cloud nacos spring cloud alibaba

《使用C ++的数据结构和程序设计》限时免费下载

计算机与AI

c++

大专学历Java开发7年,从年初被裁到四面美团点评成功上岸,闭关七个月,入职那一天我哭了!

Java架构追梦

Java 阿里巴巴 面试 美团 java架构

消灭微服务的坏味道 之 循环依赖

码猿外

微服务 循环依赖 坏味道

DataOps系列丨DataOps理念与设计原则

DataPipeline数见科技

大数据

结合实战和源码来聊聊Java中的SPI机制?

冰河

Java spi 服务发现

石、火、水:从OriginOS透视移动系统进化论

脑极体

架构师系列之6: python实现一致性hash

桃花原记

第九周学习性能优化 3 总结

三板斧

极客大学架构师训练营

数字人民币究竟是什么

CECBC

数字货币

魅族技术晚场回顾,算法、架构、AI之外,还要考虑未来_大数据_Lucien_InfoQ精选文章