【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

魅族技术晚场回顾,算法、架构、AI 之外,还要考虑未来

  • 2017-07-20
  • 本文字数:2050 字

    阅读完需:约 7 分钟

很多技术人应该都参加过 InfoQ 举办的技术晚场,这是一种相对 open 且轻松的技术交流活动。

根据提前设置好的技术话题方向,请预先邀请好的小组组长带领小组成员进行讨论,基本上,每个愿意交流的成员都能和组长或者其他嘉宾充分交流。

在 7 月 7 日 ArchSummit 深圳架构师峰会上,魅族联合 InfoQ 共同策划举办了第 9 期以“大数据和 AI 应用实践”为主题的魅族技术开放日活动。活动邀请了 5 位小组长:分别是腾讯云大数据及 AI 产品中心技术专家 张杉,eBay 数据和商业智能研发总监 沈则潜,销售易技术 VP 赵宇辰,魅族高级算法工程师 李梦婷,魅族数据平台研发组长、架构师 张欢引。

现场讨论非常热烈,大家相见恨晚,各抒己见,畅所欲言,对于大数据平台架构、推荐系统、图像识别、机器学习等话题,几乎有说不完的想法,讨论不完的问题,借助这样的机会,确实可以帮助大家提供技术解决方案和新思路。

李梦婷小组讨论的内容以推荐算法为主,讨论了两个主要的技术点,一是用户画像体系的建立,这里面涉及用户数据获取的方式,一般包括自行收集数据、外部官方渠道的数据、市场采集数据。其次就是建立标准的标签体系,每一个标签通常是人为规定的特征标识,用高度精炼的特征描述一类人,例如年龄、性别、兴趣偏好等,不同的标签通过结构化的数据体系整合,就可组合出不同的用户画像。除此之外还涉及到画像的存储与索引、标签的计算方法,以及评价指标等内容。

二是讨论到了推荐系统,内容包括推荐系统架构,具体各个模块用到的算法以及效果如何,特征工程,线下评价以及线上评价的方式,算法人员和产品 / 运营之间的合作方式,推荐位与推广位的权衡等等。

张欢引小组的组员问到,魅族数据仓库是否是按主题分别存储的?除了行为数据外,像日志、DB 数据等是怎么接入数据仓库的这样的问题。

实际上,魅族数据仓库是基于一个大规模 Hadoop 集群上实现的,根据不同业务做不同主题划分,只不过是存储在一起的。数据开发人员在集成开发平台(或流平台)配置对应的任务,将各类行为记录、业务日志、DB、第三方数据通过定时离线抽取(或实时流)方式写入统一的数据仓库,大致流程如下图:

其次,组员们对魅族的用户画像系统存储实现的组建很感兴趣,以及对标签数据生成过程和具体的使用场景很有兴趣。

张欢引介绍,魅族用户画像主要有两种场景,所用的存储组件不同:

  • 圈人及画像洞查服务:用户通过 Web 进行操作,一次处理数据量大,响应时间要求在 3s 内,对比 Vertica 和 ES 后,最终用户宽表选择了 ES 方案。
  • DMP 服务主要是为 PUSH、推荐、广告等提供实时接口查询,并发高,要求在 ms 级响应。团队最后使用的是 HBase 方案(对于要求更苛刻的广告业务则使用了 Redis)。

用户画像数据魅族区分指标和标签有两个概念,举例而言:用户消费金额数是指标(0.1 元等),而基于此基础上的消费金额等级(高、中、低)则是标签。标签可通过标签规则设置,实则由指标生成。标签数据生成过程如下:

上述生成过程有两个不足:一是会因为某一个指标或标签的生成 delay 而造成整体标签宽表输出延后,另一个是未考虑实时标签。所以魅族新的方案是将生成的单个标签融合入宽表过程改为单个标签实时 put(或 post),这样就有效的避免了不足之处。目前魅族画像数据已经为活动分析、营销推广、推荐、广告及业务本身运营提供了支撑。

赵宇辰作为大数据方面的技术大触,和沈则潜老师带领数据挖掘和机器学习讨论组过程中,展开了关于人工智能话题的热烈讨论。在深度学习非常火爆的今天,小组首先分析了深度学习最常见的几个应用场景:图像,声音和文本。机器学习从传统的 Feature Engineering(特征工程)随之转向深度模型的 Architecture Engineering(架构工程)。

随后小组又讨论了深度学习是否需要大量数据作为训练,在实际应用场景中,如果没有大量数据,Transfer Learning(迁移学习)等技术是否能在此有所应用。来自阿里的组员还分享了阿里在深度学习特别是自然语言处理上的应用,从多轮对话机器人到情感分析,再到知识库,甚至自然语言生成 Natural Language Generation(NLG)等等,对整个小组的话题引导和经验分享都非常有帮助。来自企业服务(B2B)的小伙伴们分享了在 B2B 领域人工智能应该如何发挥作用和应用机器学习的未来愿景。

张杉老师带领小组进行图像识别的话题讨论,讨论结果认为,图像识别在未来的好几个场景是有落地基础的,包括工业制造,智慧城市,智慧医疗,智慧驾驶,以及金融行业。同时在智能医疗上也有可能落地,未来的影象资料结合 AI 是可以实现的,对于诊断有很大的帮助。

最后小组也讨论了支撑图像识别的技术,尤其在深度学习的大背景下,深度学习其实在很大程度上是大数据的一个发展积累;另外一个重要的条件就是“计算能力+算法”,GPU 的出现使得计算能力更进一步,这两者是图像识别的一个重要资源。当然除此之外,小组还聊到了 AI 时代哪些岗位可能会被替代?例如智能客服的出现,很有可能会取代传统的人工客服岗位。另外数据分析岗位也在可能性行列,数据生成结果之后,怎么往数据中心去迁移则是需要重点考虑的事情。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2017-07-20 23:371537
用户头像

发布了 161 篇内容, 共 71.0 次阅读, 收获喜欢 195 次。

关注

评论

发布
暂无评论
发现更多内容

几乎包含了市面上所有启动优化方案,学习路线+知识点梳理

android 程序员 移动开发

谈JavaScript中纯函数与非纯函数

devpoint

JavaScript 纯函数 11月日更

关于MVC_MVP_MVVM的一些错误认识,android面试流程

android 程序员 移动开发

关于大厂Android面试必问的事件分发机制,应该没有比这篇讲的更好的了

android 程序员 移动开发

写给Android开发者的混淆使用手册,程序员工作2年月薪12K

android 程序员 移动开发

尝试一下最新的OV框架

IT蜗壳-Tango

11月日更

关于拼多多被曝删除用户本机照片的一点想法,移动服务框架app下载安装

android 程序员 移动开发

区块链上的房地产:区块链会颠覆房地产吗?

CECBC

写给即将正在找工作的Android攻城狮,移动客户端开发面经

android 程序员 移动开发

架构学习总结

俊杰

关于使用 Android MVVM + LiveData 模式的一些建议,ffmpeg音视频同步

android 程序员 移动开发

关于程序员35岁的坎:年龄不是挡板,当你匹配了这个年纪该有的能力还有什么畏惧

android 程序员 移动开发

YAML初探

程序员架构进阶

容器 yaml 配置管理 11月日更

再见!onActivityResult!你好,android开发电子书阅读器

android 程序员 移动开发

架构训练营第1期 毕业总结

高远

架构训练营第 1 期 模块九作业(毕业设计)

高远

毕业设计—电商秒杀系统

俊杰

架构实战营

这本“算法宝典”讲得透彻,完全掌握后,我竟拿到字节跳动offer

程序员 算法 字节

元宇宙,如何看待它就是下一代互联网(附下载)

CECBC

再见!onActivityResult!你好(1),太现实了

android 程序员 移动开发

再见!杭州!再见,kotlin数组fold方法

android 程序员 移动开发

写代码还是做管理?安卓开发者的困扰,一文全懂

android 程序员 移动开发

写给软件工程师的 30 条建议,9次Android面试经验总结

android 程序员 移动开发

架构训练营毕业总结

喻高咏        

架构训练营

快速理解大O复杂度

ES_her0

11月日更

关于拼多多被曝删除用户本机照片的一点想法(1),android程序设计基础

android 程序员 移动开发

内存泄漏以优化大全,2021非科班生的Android面试之路

android 程序员 移动开发

05 K8S之kubeadm介绍

穿过生命散发芬芳

k8s 11月日更

尝试一下最新的OV框架

IT蜗壳-Tango

11月日更

关于Android的渲染机制,大厂面试官最喜欢问的7个问题【建议收藏

android 程序员 移动开发

华为花瓣搜索的新解读:让开发者透过垂直生态,掘金全球

脑极体

魅族技术晚场回顾,算法、架构、AI之外,还要考虑未来_大数据_Lucien_InfoQ精选文章