东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

明略科技 AI 中台的技术应用与实践

  • 2019-12-26
  • 本文字数:3146 字

    阅读完需:约 10 分钟

明略科技AI中台的技术应用与实践

AI 闭环与 AI 中台


人工智能,按照智能化程度,可分为 5 级。第一级,识别能力,通过泛在多维感知,将高质量的数据连接起来。第二级,理解能力,基于可积累的行业符号体系的智能抽取技术,构建千亿知识网络的知识图谱数据库。第三级,分析能力,通过知识图谱、暴力挖掘对知识进行多维度分析推理,打造决策模型。第四级,决策能力,建立明确的行动计划,指导行动,实现智能决策。第五级,创新能力,也就是智能的终极本质。从识别感知,到理解分析,再到决策行动,循环反馈,形成 AI 闭环。相应地,需要建设感知应用基础设施,数据中台、AI 中台、业务中台,行动系统,才能实现 AI 闭环的落地,其中数据中台、AI 中台、业务中台,是核心,承担 AI 大脑的角色。


在技术实践中,明略科技采取的是数据中台、AI 中台、业务中台微服务架构。底层是数据中台,包括数据接入、存储、处理和输出。中间层是 AI 中台,提供模型线上部署,包括推荐服务和识别相关的各类模型,以及自动参数优化等。上层是业务中台,通过算法统一打通,支持数据清洗、标签、实时数据分析服务、洞察服务。


AI 中台,本质上是 AI 应用全生命周期的开发和管理平台,用于数据分析与处理、模型训练与评估、模型应用与监控。提供统一的数据存储系统,和基于容器的异构计算资源管理系统、机器学习库与模型训练实验管理系统以及模型部署与运行监控系统,采用分布式模型训练,大幅提升数据和模型的性能、效果、目标。



具体而言,AI 中台具备六大能力。第一,统一的存储空间,支持多数据源导入。第二,Pipeline 可视化工作流管理与执行,支持数据科学家从数据建模阶段开始的可视化管理,节省成本,快速体现数据科学家的价值。第三,基于容器的计算资源分配和软件库安装,支持 TensorFlow、PyTorch 等各种框架。第四,支持 GPU、TPU、CPU 框架和基于异构计算的模型管理。第五,模型管理,支持新手快速上手,无需通过自己实现原始算法,只需要理解算法原理就可以通过调参实现。第六,AI Serving,模型一键封装为 API,一键部署。


AI 中台,以实现业务智能为目标,为数据科学家团队提供服务,加速用户画像、推荐系统、图像识别、智能客服等智能应用开发。以此为基础快速迭代,扩大 AI 应用覆盖面,推动 AI 技术在其他行业领域的落地应用。

AI 中台落地的技术挑战与实现路径

AI 中台在实际落地过程中,却存在着不少挑战。首先,数据分散,以多种形式存储在多个系统中,需要统一存储。第二,流程复杂,相互依赖性强,需要统一流程。第三,存在 Spark、TensorFlow、Pytorch、Lightgbm 等多种多样的软件环境,需要统一协调。第四,模型训练时间长,需要管理大量模型训练实验。第五,模型影响因素多,需要管理大量模型版本。第六,AI 模型难部署,需要专用软件环境,深度学习对算力要求高,资源管理难度大,需要多方面优化性能。


目前,国内外主流的 AI 平台架构,都在试图解决这些问题。


第一类是 BATJ、网易、小米、讯飞的开放 AI 平台,这类 AI 平台通常采用 Docker+Yarn 或者 Docker +K8s 架构,提供图像、语音识别等应用能力,通过 Restful API 的方式,提供服务的使用,但数据必须要发给平台方。BAT 以外的厂商,一般只能提供某一方面的能力,如需使用多个能力,则需使用多个平台的产品,管理和开发的复杂度较高。AI 中台大部分部署在客户私有集群、私有机房。


第二类是 Acumos AI,通过把 AI 学习中的各环节微服务化,以 MarketPlace 的方式实现发布和共享,但文档缺失严重,部署和使用不方便,上手成本高。


第三类是 MLflow,通过 Tracking、Project、Models 3 个层面的抽象,整合所有的机器学习和人工智能算法和模型,但对于全流程集成的支持尚欠缺,比如数据导入和管理,模型的部署,资源的管理等。


第四类是 OpenPAI,通过 K8s 实现云、单机、集群的多环境,支持多种主流框架,具备资源管理的功能,但对于全流程集成尚欠缺。传统的集群,数据科学家实验室,没有实线上突破,模型到线上部署很难实现。


明略科技从三个层次来进行 AI 平台的架构设计。


第一层,基础设施,以满足数据、算法模型和过程性能要求。第二层,容器集群,以计算调度引擎为主。第三层,由三部分构成,一是数据处理模型,二是模型训练,涵盖目前最流行的 Parameter Server 等模型,三是模型 Serving,满足 Model Server、Model Converter 相关的线上场景需求。



基于此,明略科技 AI 中台主要有以下特点。


第一,数据存储和计算任务分离,计算任务通过内部高速网络读写数据,避免数据再次“搬运”。


第二,ETL 集成,拖拽式任务设计,支持定时任务和事件触发,内建 Mysql、HDFS、Kafka 等多种数据源,Spark、Flink 等计算引擎。把已有的 MySQL、Kafka 与系统完美融合,以可视化方式看到各种统计,这个理念与数据中台的理念一致,单独的子系统可以实现可视化、监控、任务、管理。


第三,支持 Notebook 交互式开发,符合数据科学家习惯,促进业务价值。可实现 Python based 交互式场景,支持 TensorFlow Pytorch 等多使流行框架,CPU、GPU 资源控制,单机集群计算资源。这是基于原生态的 Jupyter notebook 实现,数据科学家可以指定单机还是集成方式,快速解决实际问题,通过交互式数据开发环境,选择不同 Kernel 可连接到不同计算资源。


第四,Pipeline 的实现,Docker based 可复用,运行状态可视化,比如,A 数据科学家用的是 Tensorflow,B 数据科学家用的是 Spark,保证兼容,每次运行结果存档,生成 DAG 图,快速看到逻辑和节点问题。


第五,弹性扩展的 Model Serving,基于 k8s 和微服务技术,每个模型都部署一个微服务,同时支持 RESTFul 和 gRPC 协议访问,自动解决了负载均衡和 FailedOver 的问题,可自动按负载动态扩缩容 AutoScale,滚动升级和 ABtest 等多版本对比环境,支持 Java、Pyhton、C++等多语言部署,灵活性高。


第六,语言和框架,支持 TensorFlow、PyTorch、Spark、MPI、MXNet 等框架,Python、R、Java 等语言。


第七,提供图像识别、推荐系统、NLP 三大类别的内置模型分析。


第八,提供 AI 中台监控,可全面监控集群多项基础指标以及各运行任务粒度资源使用情况,内置集成报警功能,可实现数据实时可视化。


总之,明略科技的 AI 中台最核心的三点优势是,可与现有数据大数据平台无缝对接,支持异构计算和扩展框架。

AI 中台技术实践案例

在零售业,明略科技为行业领先的某新零售公司打造了 AI 中台,主要带来了三方面的提升。首先,改变了探索方式和时间效率。数据科学家写代码通常是交互式的,原先类似拖拉式的方式无法满足数据科学家的需求,明略科技的 AI 中台使探索方式变得更加灵活,并且探索时间从 15 天减到了 7 天。第二,改变了模型发布方式和发布效率。原先的做法是,算法工程师写完一套,工程师重写一遍,然后再上线,使用 AI 中台后,可快速上线同时做 AB 测试、滚动升级、小流量测试等,平均发布时间也从 15 天大幅降低。第三,原先 AB 测试需要人工重度参与,且复用性差,现在则能轻松应对。


在银行业,明略科技为国内某大型国有银行打造了基于 AI 中台的从关键词到知识图谱相关的推荐系统。基于 AI 中台可以快速实现实时请求查询,线下场景离线与 AI 中台无缝切换,模型 Serving 与数据中台、业务中台无缝对接,通过管理系统实时看到策略、排序等。


在对话机器人领域,明略科技基于知识图谱和 AI 中台技术能力打造了客服机器人。虽然深度学习、神经网络的算出的结果可能是准确的,但过程无法解释,而知识图谱是实体关系属性,组成网状结构,具有可解释性。在构建知识图谱时,将行业知识与客户企业内部知识相结合,实现隐性关系的挖掘,快速解决问题。AI 中台把聊天客服机器人、算法、知识图谱进行有机融合,确保了基于领域知识图谱对话客服机器人的准确性和有效性。


作者介绍:


卢亿雷,明略科技集团副总裁兼推荐/推理系统负责人


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-12-26 08:042516

评论 1 条评论

发布
用户头像
额,文中总结的八个特点,除了第七里面的自有算法,其他7点跟其他平台有什么区别吗?
2019-12-31 11:27
回复
没有更多了
发现更多内容

我发现了Chrome的一个bug

wzx

JavaScript chrome

大型团队的敏捷项目管理实践与思考

万事ONES

项目管理 敏捷开发 ONES 开发管理

上手后才知道,这套仪表盘系统用起来是真的爽!

尔达Erda

开源 微服务 运维 APM msp

那些必须要掌握的Hive数据倾斜与调优手段

云祁

7月日更

神奇的Duff's device

实力程序员

RAID-0-1-5-10 搭建及使用-删除 RAID 及注意事项

学神来啦

云计算 Linux linux运维 raid

Flink + Iceberg + 对象存储,构建数据湖方案

Apache Flink

flink

架构实战营 模块八作业

冬天的树

降低网络拥塞,追求美好体验——对话拍乐云首席科学家章琦

拍乐云Pano

字节跳动技术总监自爆:看完你还觉得算法不重要

欢喜学安卓

android 程序员 面试 移动开发

详解SQL优化必备:并行执行框架和执行计划

华为云开发者联盟

sql SQL优化 执行计划 GaussDB(for openGauss) 并行执行框架

模块8 作业

Chris Cheng

架构训练营

anyRTC 6月SDK更新迭代

anyRTC开发者

音视频 WebRTC 实时通讯sdk

字节跳动面试:来自阿里巴巴佛系安卓程序员的指南

欢喜学安卓

android 程序员 面试 移动开发

字节跳动技术总监自爆:万字Android技术类校招面试题汇总

欢喜学安卓

android 程序员 面试 移动开发

Selenium4前线快报

FunTester

软件测试 自动化测试 测试开发 selenium

【技术实践】基于Cglib动态代理,实现Spring的AOP核心功能!

小傅哥

spring 小傅哥 aop 动态代理 cglib

【源码篇】Flutter GetX深度剖析 | 我们终将走出自己的路(万字图文)

小呆呆666

flutter ios android 大前端

听说过对 Go map 做 GC 吗?

万俊峰Kevin

map Go 语言

关于数据库时区,这么多奥秘你都知道么?

华为云开发者联盟

数据库 操作系统 时间 时区 GaussDB(DWS)

“攻城狮”实用指南之Linux CPU性能优化

中原银行

Linux

模块二作业-微信朋友圈复杂度分析

babos

#架构实战营

质量基础设施一站式服务平台建设,NQI平台解决方案

5G消息盛事来袭|2021中国移动创客马拉松大赛5G消息专题赛即将启动!

5G消息

开发者 创客开发 开发者大赛 5G消息

Python OpenCV 霍夫(Hough Transform)直线变换检测原理,图像处理第 33 篇博客

梦想橡皮擦

7月日更

HarmonyOS开发者创新大赛作品《智能农场》相关开发技术分享

科技汇

颠覆传统经营模式,区块链助力餐饮行业数字化革新

旺链科技

数字化 区块链技术 餐饮

我是一个请求,我是如何被发送的?

华为云开发者联盟

注解 流程 CSE 请求 RestTemplat

决定中国SaaS成败的三个关键问题

ToB行业头条

SaaS

架构师之于团队的作用和其能力体现是什么?

happlyfox

话题讨论

字节跳动技术总监自爆:大牛带你直击优秀开源框架灵魂

欢喜学安卓

android 程序员 面试 移动开发

明略科技AI中台的技术应用与实践_AI&大模型_卢亿雷_InfoQ精选文章