写点什么

魅族技术晚场回顾,算法、架构、AI 之外,还要考虑未来

  • 2017-07-20
  • 本文字数:2050 字

    阅读完需:约 7 分钟

很多技术人应该都参加过 InfoQ 举办的技术晚场,这是一种相对 open 且轻松的技术交流活动。

根据提前设置好的技术话题方向,请预先邀请好的小组组长带领小组成员进行讨论,基本上,每个愿意交流的成员都能和组长或者其他嘉宾充分交流。

在 7 月 7 日 ArchSummit 深圳架构师峰会上,魅族联合 InfoQ 共同策划举办了第 9 期以“大数据和 AI 应用实践”为主题的魅族技术开放日活动。活动邀请了 5 位小组长:分别是腾讯云大数据及 AI 产品中心技术专家 张杉,eBay 数据和商业智能研发总监 沈则潜,销售易技术 VP 赵宇辰,魅族高级算法工程师 李梦婷,魅族数据平台研发组长、架构师 张欢引。

现场讨论非常热烈,大家相见恨晚,各抒己见,畅所欲言,对于大数据平台架构、推荐系统、图像识别、机器学习等话题,几乎有说不完的想法,讨论不完的问题,借助这样的机会,确实可以帮助大家提供技术解决方案和新思路。

李梦婷小组讨论的内容以推荐算法为主,讨论了两个主要的技术点,一是用户画像体系的建立,这里面涉及用户数据获取的方式,一般包括自行收集数据、外部官方渠道的数据、市场采集数据。其次就是建立标准的标签体系,每一个标签通常是人为规定的特征标识,用高度精炼的特征描述一类人,例如年龄、性别、兴趣偏好等,不同的标签通过结构化的数据体系整合,就可组合出不同的用户画像。除此之外还涉及到画像的存储与索引、标签的计算方法,以及评价指标等内容。

二是讨论到了推荐系统,内容包括推荐系统架构,具体各个模块用到的算法以及效果如何,特征工程,线下评价以及线上评价的方式,算法人员和产品 / 运营之间的合作方式,推荐位与推广位的权衡等等。

张欢引小组的组员问到,魅族数据仓库是否是按主题分别存储的?除了行为数据外,像日志、DB 数据等是怎么接入数据仓库的这样的问题。

实际上,魅族数据仓库是基于一个大规模 Hadoop 集群上实现的,根据不同业务做不同主题划分,只不过是存储在一起的。数据开发人员在集成开发平台(或流平台)配置对应的任务,将各类行为记录、业务日志、DB、第三方数据通过定时离线抽取(或实时流)方式写入统一的数据仓库,大致流程如下图:

其次,组员们对魅族的用户画像系统存储实现的组建很感兴趣,以及对标签数据生成过程和具体的使用场景很有兴趣。

张欢引介绍,魅族用户画像主要有两种场景,所用的存储组件不同:

  • 圈人及画像洞查服务:用户通过 Web 进行操作,一次处理数据量大,响应时间要求在 3s 内,对比 Vertica 和 ES 后,最终用户宽表选择了 ES 方案。
  • DMP 服务主要是为 PUSH、推荐、广告等提供实时接口查询,并发高,要求在 ms 级响应。团队最后使用的是 HBase 方案(对于要求更苛刻的广告业务则使用了 Redis)。

用户画像数据魅族区分指标和标签有两个概念,举例而言:用户消费金额数是指标(0.1 元等),而基于此基础上的消费金额等级(高、中、低)则是标签。标签可通过标签规则设置,实则由指标生成。标签数据生成过程如下:

上述生成过程有两个不足:一是会因为某一个指标或标签的生成 delay 而造成整体标签宽表输出延后,另一个是未考虑实时标签。所以魅族新的方案是将生成的单个标签融合入宽表过程改为单个标签实时 put(或 post),这样就有效的避免了不足之处。目前魅族画像数据已经为活动分析、营销推广、推荐、广告及业务本身运营提供了支撑。

赵宇辰作为大数据方面的技术大触,和沈则潜老师带领数据挖掘和机器学习讨论组过程中,展开了关于人工智能话题的热烈讨论。在深度学习非常火爆的今天,小组首先分析了深度学习最常见的几个应用场景:图像,声音和文本。机器学习从传统的 Feature Engineering(特征工程)随之转向深度模型的 Architecture Engineering(架构工程)。

随后小组又讨论了深度学习是否需要大量数据作为训练,在实际应用场景中,如果没有大量数据,Transfer Learning(迁移学习)等技术是否能在此有所应用。来自阿里的组员还分享了阿里在深度学习特别是自然语言处理上的应用,从多轮对话机器人到情感分析,再到知识库,甚至自然语言生成 Natural Language Generation(NLG)等等,对整个小组的话题引导和经验分享都非常有帮助。来自企业服务(B2B)的小伙伴们分享了在 B2B 领域人工智能应该如何发挥作用和应用机器学习的未来愿景。

张杉老师带领小组进行图像识别的话题讨论,讨论结果认为,图像识别在未来的好几个场景是有落地基础的,包括工业制造,智慧城市,智慧医疗,智慧驾驶,以及金融行业。同时在智能医疗上也有可能落地,未来的影象资料结合 AI 是可以实现的,对于诊断有很大的帮助。

最后小组也讨论了支撑图像识别的技术,尤其在深度学习的大背景下,深度学习其实在很大程度上是大数据的一个发展积累;另外一个重要的条件就是“计算能力+算法”,GPU 的出现使得计算能力更进一步,这两者是图像识别的一个重要资源。当然除此之外,小组还聊到了 AI 时代哪些岗位可能会被替代?例如智能客服的出现,很有可能会取代传统的人工客服岗位。另外数据分析岗位也在可能性行列,数据生成结果之后,怎么往数据中心去迁移则是需要重点考虑的事情。

2017-07-20 23:372061
用户头像

发布了 181 篇内容, 共 102.4 次阅读, 收获喜欢 208 次。

关注

评论

发布
暂无评论
发现更多内容

社交语聊平台运营,需要哪些资质?语聊APP原生开发和混合uniapp开发的利弊分析

山东布谷科技胡月

语音聊天系统软件开发 语音直播平台开发 语音聊天室开发 语音程序源码 社交直播APP开发

一文看懂:小程序游戏需要版号吗?

FN0

九科信息成功签约中交房地产集团有限公司RPA项目

九科Ninetech

几款常用基于Web的组态编辑器

2D3D前端可视化开发

物联网 web组态 web组态软件 组态可视化 web组态编辑器

走进大模型

统信软件

人工智能 深度学习 大模型

​Elastic Stack最佳实践系列:Beats->ES,一个更轻型的架构选择

腾讯云大数据

ES

头脑风暴小工具-影响地图

Bruce Talk

敏捷开发 Agile Product Owner 影响地图

软件测试|人工智能如何帮助测试工程师解决问题?

霍格沃兹测试开发学社

如何将数据从 InfluxDB 无缝接入到 TDengine 中?来看看

TDengine

tdengine Influxdb 时序数据库

我是如何使用Spring Retry减少1000 行代码

越长大越悲伤

Java spring retry spring-retry

融云:AI 机器人在社交软件中的花样存在

融云 RongCloud

AI 融云 社交软件 AIGC My AI

唯一受邀参会通信服务商!融云出席数字经济头部盛会「中数大会」并发言

融云 RongCloud

人工智能 互联网 通信 数字 融云

首批通过!柏睿数据旗下数据库产品获强制性国标最高级别认证

新消费日报

一张图读懂TuGraph Analytics开源技术架构

TuGraphAnalytics

大数据 分布式 流计算 图计算 流图

融云深度参与「新加坡 GTLC 大会」,连接亚太机遇、开拓国际市场

融云 RongCloud

通信 服务 融云 GTLC 东南亚

图智能在反洗钱方向的应用实践丨Fabarta 技术专栏

Fabarta

图计算 图分析 反洗钱 图智能 智能风控

软件测试|如何使用ChatGPT生成思维导图

霍格沃兹测试开发学社

Last Week in Milvus

Zilliz

非结构化数据 开源社区 Milvus Zilliz 向量数据库

什么是HTTP代理?HTTP代理的作用?HTTP代理怎么设置?

巨量HTTP

代理IP IP地址 http代理 socks5代理

第三周作业

大肚皮狒狒

Easysearch 跨集群复制实战

极限实验室

easysearch

国内智慧工业的实践,在一首曙光《长歌行》中

脑极体

AI 算力 数智化 曙光

常用的国内外组态软件推荐

2D3D前端可视化开发

物联网 组态软件 工业组态软件 web组态软件 SCADA

2023年科技趋势展望报告,这几个领域程序员可以恰饭

互联网工科生

人工智能 软件开发 麦肯锡

又一可视化低代码神器!云耀云服务器L实例正式发布

mecchi

软件开发 云主机 云服务器 博客搭建

加入DevRun软件开发流水线实战营,即刻开启你的职场竞争力之旅!

科技热闻

FuncGPT(慧函数)教你用Mybatis进行一对一查询映射处理

飞算JavaAI开发助手

魅族技术晚场回顾,算法、架构、AI之外,还要考虑未来_大数据_Xue Liang_InfoQ精选文章