阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

那些穿格子衬衫的 AI 开发者学到了什么“独家秘笈”?

  • 2019-12-26
  • 本文字数:5318 字

    阅读完需:约 17 分钟

那些穿格子衬衫的AI开发者学到了什么“独家秘笈”?

AI、IoT、云计算等技术的不断发展,为企业提供了前所未有的发展良机。在迈向智能化的过程中,企业的创新、效率、体验等得到了大幅度的提升,但与此同时,也在面临种种挑战。12 月 4 日,“DevRun·选择不凡,华为云开发者沙龙 2019”上海站,面向企业、开发者开启了技术布道之旅。来自华为云的 5 位资深技术专家,分别从 AI 模型构建、IoT 平台布局、鲲鹏移植、企业应用软件开发、数据库查询优化等角度,为开发者分享了实战经验与心得体会。

GaussDB OLTP 数据库 SQL 优化

GaussDB OLTP 数据库有着 12 年研发历程。2007 年,在电信实时计费项目领域,华为开始组织人手研发内存数据库。2010 年,华为数据库研发团队开始对 2007 年版本进行全面重构,并写下了重构版本的第一行代码,数据库对象的定义:“typedef struct st_database{…}database_t;”。


从这个版本开始,华为数据库的定位已经不再仅局限于内存数据库,而是在向通用关系型数据库逐渐转变,重构过程中,开始融入大量非内存数据库的特性,这就是 Gauss OLTP 数据库的前身。


OLTP 数据库在企业数字化转型中必不可少。这类系统事务性非常高,需要具备企业级的稳定性和性能。每秒执行的 Transaction 以及 Execute SQL 的数量往往是衡量 OLTP 数据库性能的重要指标之一。OLTP 的数据块变化及 SQL 提交都非常频繁,如何提高查询效率,并极大改善高并发请求下的系统性能,是企业普遍面临的问题。


GaussDB OLTP 数据库是华为全字研的分布式数据库,支持 x86 和华为鲲鹏硬件架构,基于创新性数据库内核,可以提供高并发事务实时处理能力、两地三中心金融级高可用能力和分布式高扩展能力。现场,华为 GaussDB 资深技术专家贾新华介绍,GaussDB OLTP 具有三种产品形态支持全场景业务:


  • 单机数据库:主要适用场景为非核心系统,实现自主可控。

  • 集群数据库:主要适用场景为核心系统,支持 RAC 系统的平滑迁移,如大型企业的 CRM、ERP,银行核心系统等。

  • 分布式数据库:主要适用场景为类互联网应用,支持数据库的高扩展。


GaussDB OLTP 数据库在业内首创了 Switch Turbo 技术,通过全局页面缓存(GBP)、RDMA 软硬件垂直整合、高速网络及网络协议创新等关键技术,实现主机异常后备机立刻升主并对外提供服务,RTO 从 30~300s 降低到 10s 以内,弥补了开放平台可靠性差距。有效解决了业务负载大,耗时不确定等问题。


据贾新华介绍,GaussDB OLTP 数据库是一款全自研的分布式数据库,主要面向 OLTP 场景,其特点是:


  • 高可用:故障倒换时间<10s,支持闪回。

  • 高性能:基于鲲鹏 920 处理器,性能超越业界其他 TOP 商业数据库 30%。

  • 高扩展:分布式强一致,TPC-C 扩展比>0.8。

  • 兼容性:支持 SQL-92、SQL:1999、SQL:2003 等一系列标准的常用语法,兼容业界其他 TOP 商业数据库常用的 SQL 语法,支持离线 / 在线迁移。



华为 GaussDB 资深技术专家贾新华


在交易、分析和混合负载场景下,GaussDB OLTP 数据库基于最优化理论,首创基于深度强化学习的自调优算法,调优性能大幅提升。GaussDB OLTP 数据库采用全自研企业级内核,其性能对比如下图所示。



全自研企业级内核,极致单点性能


  • Switch Turbo:AZ 内极致高可用,RTO<10s



对于任何一家提供数据库服务的云厂商而言,技术创新的步伐无法停止,但如何将技术创新、行业趋势、客户需求三者完美结合在一起,是数据库创新的一大难点。作为国内业界唯一拥有全栈能力的云服务商,华为云可实现对数据中心基础设施、芯片、硬件、基础云服务等全栈优化。在华为云上,GaussDB 能够为金融、互联网、物流、教育、汽车等行业客户提供全功能、高性能的云上数据仓库服务。


随着数据在企业发展中占据越来越重要的地位,数据库的管理也愈发成为企业的当务之急。各大公有云厂商在数据库产品上的高增长,也反映了整个市场的需求。而在智能时代,异构、智能和融合的数据库将成为金融、政府、电信等各行业数据基础设施的关键支柱。

基于华为智能 IoT 平台,快速构建行业应用

经过近几年技术与市场的培育,物联网即将进入快速发展期,给 ICT 行业带来了广阔的市场空间,预计 2025 年,物联网联接数将达近 1000 亿。虽然物联网产业已进入高速发展期,但仍有众多企业仍旧面临着创新投入大、技术门槛高、生态资源难以获取、全球化业务落地困难等问题。


华为 LiteOS 高级产品经理苏振表示,万亿“物连接”将迎来红利,而要获取“物联接”的红利,需要解决数字化感知、联接和商业价值闭环的问题。因此,华为推出 IoT 云服务,为加速产业规模化商用助力,推动行业数字化转型。



华为 LiteOS 高级产品经理苏振


华为云 OceanConnect IoT 云服务汇聚了华为的关键技术积累,聚焦”Access + Insight + Action“使能行业服务,解决设备协同管理、数据分析成本高、行业差异性大等问题。基于对 IoT 产业的深入理解,华为云 IoT 平台抽象出通用 API,降低 IoT 技术门槛,易于开发者使用。



华为云 IoT 平台采用多终端介入方式,屏蔽不同终端差异性,让应用开发者可以聚焦应用逻辑实现。面对 IoT 设备服务能力、设备通信协议、设备交互方式各异,难以面对行业持续扩充的业务诉求,华为云 IoT 平台提供模型管理服务,按设备服务能力进行抽象,供面向业务应用统一发放管理,助力标准化进程推进,并用完整的设备管理,支撑起业务运维。


面向开发者,华为云 IoT 平台还为开发者提供包括开发指南、API 文档、丰富的样例及开发工具在内的全面的技术支持。最后,苏振在现场还进行了构筑 IoT 智慧路灯的案例分享。从环境准备,到公有云操作、设备开发、应用开发、再到后期的业务调试,为开发者们展示了基于华为云 IoT 平台的应用开发全流程,便捷高效,实现了解决方案的快速落地。

华为鲲鹏工具链开放,实现应用无忧迁移

业务和数据的多样性需要新的计算架构,海量的数据增长带来了更高的计算需求,鲲鹏由此而生,面向智能世界持续提供先进算力支持,使能各个行业加速数字化转型。


那么,已有的软件如何从 x86 迁移到鲲鹏计算平台?华为智能计算架构 & 设计专家张汝涛为参会者详细讲解了鲲鹏生态下的应用迁移全流程。



华为智能计算架构 & 设计专家张汝涛


在应用迁移的过程中,分析扫描工具、移植工具、调优工具以及加速库往往是备受关注的四个部分。其中,分析扫描工具(Dependency Advisor)用于软件的评估可移植性,并通过分析移植软件代码文件,评估移植代码量和工作量。用户在准备移植已有软件到鲲鹏服务器之前,可先用该工具分析可移植性和移植工作量。分析扫描工具用于软件主要解决客户软件移植评估分析过程中人工分析投入大、准确率低,整体效率低下的痛点。


代码移植工具可分析待移植软件源码文件,给出代码移植指导报告。用户在有源代码的软件移植到 Kunpeng 服务器上时,可用该工具自动分析出需修改的代码内容,并指导如何修改。代码移植工具主要解决客户代码兼容性人工排查困难、移植经验欠缺、反复依赖编译调错定位、投入工作量大、整体效率低的痛点。


性能优化工具 (Tuning Kit) 在软件运行状态下,通过采集系统数据,分析出系统性能指标,定位到瓶颈点及热点函数,从而给出调优建议。用户的软件在鲲鹏服务器上运行时遇到性能或体验问题时,可用该工具来快速分析、定位及调优。该工具主要解决客户软件运行遇到性能问题时,凭人工经验定位困难、调优能力弱的痛点。


加速库从底层算力进一步提升应用软件性能。华为云为开发者提供了 glibc 基础库和 HMPP 两种加速库。glibc 基础库已优化 16 个最常用接口,采用主流的 benchmark 测试指标性能提升 4.16%,在数据库、DPDK、分布式存储、web 等场景下也有较明显的性能提升。HMPP 拥有适配接口数 501 个,占 IPP 信号库接口 38.5%,占 IPP 库总接口 11%。

基于华为沃土数字平台快速开发企业应用

在数字化转型大潮下,应用软件开发面临着构建难、复制难、缺平台等问题。对企业而言,在引入数字技术的同时,基于云架构的软件体系、商业模式、咨询服务、运维体系等的同步改变才有可能将数字技术的价值发挥到最大程度。而华为沃土数字平台,正是帮助企业融合新 ICT,打造数字世界的底座的平台。在现场,华为沃土数字平台资深架构师董鑫武为我们介绍了华为沃土数字平台的平台架构及设计理念。




华为沃土数字平台资深架构师董鑫武


华为沃土数字平台以云为基础,整合视频、物联网、大数据、视频、GIS 等新技术,基于华为数字化转型经验,打通融合各类数据,使能业务协同与敏捷创新的,主要介绍融合集成 ROMA 平台与 AppEngine 应用敏捷开发平台。


ROMA 平台拥有三大功能;数据集成,消息集成和服务集成,主要用于广泛的连接,收集各个厂商的系统数据,打通客户现网各个烟囱式的结构,达到所有数据共享并可调用的目的。


董鑫武表示,ROMA 的核心能力是融合一切数据、汇聚一切能力。面向数据融合与集成,ROMA 可支持 API 数据源、实时消息等新数据接入方式以及传统 IT 域数据融合;在统一服务汇聚与开放方面,ROMA 可以和华为现有 ICT 能力及多个第三方伙伴完成预集成,支持灵活编排,提供 80+ 场景化服务。同时可通过配置化实现服务注册,不需要像传统 ESB 基于 SOA 框架进行编码;在多节点、多云的集成方面,ROMA 支持分布式组网,实现数据、服务快速路由和集成,并添加隔离区来保障数据和服务的安全集成。


AppEngine 则是开发应用的平台,具有前端、后端、集成三层技术架构。集成层集成第三方系统、物联网平台等;后端定义对象模型,使用 Flow 来提供对外的 Restful API 接口、BPM&Script 实现后台业务逻辑,存取 Object 的数据、调用第三方接口;前端提供标准和高级页面,高级页面 Widget 通过 Bridge 调用后台的 Restful API 接口,标准页面通过拖拽组件,绑定模型。经过三层架构,从定义数据模型到后台流程逻辑编排、页面组装编排到应用的一键式发布,帮助开发者提升开发效率,从而解决 0 到 1 应用构建、1 到 N 复制的难题。

ModelArts 让 AI 开发极简化

AI 正在改变我们的生活,正在改变我们身边的各行各业,但是这条通往智能世界的路并不平坦,其中一个巨大鸿沟就是 AI 人才的稀缺。一方面要大幅降低初学者的门槛,让更为广泛的 AI 初学者群体,庞大的软件开发者群体都能快速掌握 AI 技能,把 AI 用起来,要追求覆盖范围之广。另一方面要显著提升专业 AI 开发者的效率,让算法工程师、数据科学家们聚焦基础核心的算法研究与创新,释放他们无限潜能,要追求技术探索之深。为此,华为云面向开发者,推出了一站式 AI 开发平台——ModelArts,提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端 - 边 - 云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期 AI 工作流。ModelArts 支持应用到图像分类、图像检测、视频分析、语音识别、产品推荐、异常检测等多种 AI 应用场景。


面向不同经验的 AI 开发者,ModelArts 提供便捷易用的使用流程。例如,业务开发者无需关注模型或编码,即可使用自动学习快速构建 AI 应用;AI 初学者可以使用预置算法构建 AI 应用,而无需关注算法开发过程;面向 AI 工程师,提供多种开发环境,多种操作流程和模式,方便开发者编码扩展,快速构建模型及应用。




在 AI 模型训练性能方面,今年 3 月,斯坦福大学发布的 DAWNBenchmark 最新成绩中,图像识别(ResNet50-on-ImageNet,93% 以上精度)的总训练时间排名中,华为云 ModelArts 位列第一,比之前最快的训练平台 Fast.AI 的最好成绩提升了近 78%。在现场,华为云 AI 开发者生态高级经理、华为云 EI 布道师林旅强带领大家动手体验了 ModelArts 一站式 AI 开发过程。



华为云 AI 开发者生态高级经理、华为云 EI 布道师林旅强


在数据处理方面,ModelArts 支持 7 种类型的数据集标注,包括图像分类、物体检测、声音分类、语音内容、语音分割、文本分割和命名实体。ModelArts 提供的智能标注系统,可节省人力提升效率 50%~80%。具体包括:


  • 智能标注:基于主动学习和预置模型,系统边标边学,越标越准,标注效率提升 70%。

  • 团队标注:任务分发和质检策略用以保证标注质量。

  • 数据管理:数据增量导入、版本管理、难例管理等。

  • 复合筛选:设置多条件标签进行过滤筛选。


训练作业部分,ModelArts 提供了 30 余个各领域最优秀、最常用的模型,并实现了精度和速度的优化。一键训练模式,开发者仅需配置数据和日志输出路径;使用预置模型进行迁移学习;自动超参调优;自动模型压缩(量化、修剪);零编码模型训练优化。新增的模型转换功能,可以将已有模型转换成相应的格式后,应用至不同的芯片类型,如 Ascend 芯片、ARM 等,来获得更高的算力。


自动学习功能中,开发者只需上传数据并标注,通过自动训练,即可一键完成部署,全程由 UI 导向,无需 AI 经验、无需编码、无需学习复杂模型。

结束语

据人工智能行业分析机构 CBInsights 发布的 《2019 年 AI 趋势报告》 来看,人工智能正在以可见的速度渗透到各行各业中。互联网巨头公司正致力于推动产业互联网发展,希望通过丰富的云端应用打通产业链上下游企业,使真实的生产数据能够在云平台累积。其中,AI 主要通过认知智能体现价值,由 NLP、知识图谱技术建立打通产业的关联数据库,通过机器学习训练模型,推导出最佳的优化策略,向企业输出解决办法、咨询服务或 SaaS 应用等,使整条产业链的生产更柔性,商业逻辑更具可预测性。


AI 的未来,仍然不可限量。





公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-12-26 15:00603

评论

发布
暂无评论
发现更多内容
那些穿格子衬衫的AI开发者学到了什么“独家秘笈”?_服务革新_王晓青_InfoQ精选文章