万字长文：用人工智能技术打造虚拟生命-InfoQ

导读：近年来，作为人工智能时代的入口级产品，聊天机器人得到了快速的发展，然而从用户体验上来看，大多数产品都远低于大众预期。本次分享，将分析聊天机器人产品所面临的技术和落地难题，引出聊天机器人的下一代范式-虚拟生命，并详细阐述如何使用人工智能技术，包括语音、图像、自然语言处理以及知识图谱技术等，打造具有认知智能的虚拟生命。

分为 4 个部分：

聊天机器人困境及破局
虚拟生命核心技术及落地
工程实践中的其他问题
结束语

聊天机器人困境及破局

1. 分享两个观点

1.1 人工智能技术真的很牛

左上角列出的是 DeepMind 出品的 AlphaGo，它打败了世界最顶尖的选手，后续又出了很多新的版本，又打败了柯洁；左下角是 IBM 新出的辩论机器人，辩论机器人可以和人类辩手针对某个问题进行辩论，战绩也非常不错；中间是大家熟悉的波士顿动力机器人，可以完成各种复杂动作；右边，是把人工智能技术用在游戏中，比如星际争霸二。所以大家就会有种感觉，人工智能技术真的是上天入地，无所不能。既然人工智能技术和深度学习技术已经如此优秀了，是不是所有问题都可以解决呢？答案当然是否定的。比如 AlphaGo 可以下围棋，但是不能端茶倒水。有人开玩笑说，战胜人工智能最好的办法就是把它的插头拔掉。

1.2 聊天机器人好傻

举例来说，前段时间亚马逊爆出“隐私门“ – 亚马逊音箱 Echo 在半夜突然笑了一声，把用户吓得半死。也就是说，Echo 在不停的监听用户的语音。市场上还可以看到其他的智能音箱产品，如小米的“小爱同学”，我们自己做的“公子小白”，“叮咚音箱”，“天猫精灵”，还有百度带屏的“小度在家”，还有很多叫不上名字的。市场上充斥着大量的机器人产品，但无一例外都是“不智能”的，尤其是在多轮对话中。虽然小冰已经做到了第六代的情感引擎技术，但我们在与小冰聊天的过程中，还会发现很多矛盾的、上下文不一致的点。为什么聊天机器人做不好？这就是我们想要聊的核心。我们期待机器人能够模拟人类对话，在这个过程中，需要什么样的技术积累呢？我们看一下 2018 年最新的 Gartner 技术曲线

2. Gartner 技术曲线

蓝色的点，表示 5-10 年可以达到成熟的技术；黄色的三角形，表示超过 10 年才能成熟的技术。知识图谱技术和通用人工智能技术，是达到机器人和人类自由对话中必不可少的技术。知识图谱目前处于上升初期，还需要 5-10 年才能成熟；通用人工智能，也处于初步阶段，需要 10-20 年做到成熟。

可以看出，在做产品过程中，技术的发展是不匹配的，远没达到人类需要的期望值。尤其是在做聊天机器人的过程中，需要用到自然语言处理 ( NLP ) 技术，目前也没有办法实现真实的自然交互。

3. NLP 为什么这么难

周明老师说过，语言智能是人工智能皇冠上的明珠。人工智能技术在深度学习的加持下，在图像、声学中都取得了重大突破，但在语言智能技术上却有很多阻碍。

举例来说，《绿林俊杰》是一本武侠小说，但百度贴吧里林俊杰粉丝却开始炸锅，说林俊杰最近做了什么事情，为什么被“绿”了？这也是 NLP 较难解决的问题。

再如右边的例子，这是一本讲什么的书？还有：男生和女生表白，“我好喜欢你哦，可不可以亲亲你”，女生说“不要脸”，男生说“那我亲嘴好了”，这就是在理解过程中，人类都容易犯的错误，存在很多歧义。这就是为什么 NLP 如此难做的原因。

4. 人是怎么对话的

我们想模拟人类对话的过程，但人类是怎么对话的呢？

上图是我梳理的人类对话要素。比如我是男生，我对一个女生说，“今天天气很不错”，这句话代表的意思和很多因素有关：这句话的上下文是什么；我和这个女生是什么关系；我自己的静态世界观是什么；我现在的情绪；我们现在所处的环境等。如我上午坐电梯的时候，电梯非常挤，对女同事说，“今天天气很不错”，是为了化解尴尬；如果这个女生是我的女朋友，我的意思可能是，“今天天气很不错，要不我们出去玩儿”；如果是分手多年的女友，在大街上偶遇，“今天天气很不错”，就很可能代表“你最近过的好吗”。在不同的场景、上下文中，同样的句子会代表不同的含义。

目前的聊天机器人，是通过文字来猜测人类对话意图的。而人类有强纠错功能，如在回答提问者的问题时，会根据接下来的回复，来纠正对意图的理解偏差，但机器人做不到。机器人回复效果做的最好的，是用 IR ( 信息检索 ) 技术，从大量语料库中，检索出比较合适的回复语。这也是为什么单轮对话可以做的很好，多轮对话做的差的原因。

微软亚研的宋老师，从事小冰的研发，有一天问他母亲 ( 非 AI 相关从业者 ) 说，“如果机器人可以打败人类最顶尖的围棋选手，你觉得机器人厉害吗？”。他妈妈说，“厉害”。又问说，“如果小冰机器人可以和你聊天，那这个技术厉害吗？”妈妈说，“不厉害”。宋老师问为什么，母亲回答“不是每个人都会下围棋，但每个人都会说话啊”。可以看到，人类已经是非常擅长说话了，让机器来模拟人类对话，是非常困难的一件事。

5. 时代 VS 入口

作为一个 80 后，我经历了 4 个时代：

IT时代，我当时有一台386电脑，16M内存，玩DOS版的仙剑奇侠传。
互联网时代，有了Google搜索，可以和世界各地的人聊天，当时用MSN和网上的人练习英文。
移动互联网时代。它的到来，是随着iPhone的出现到来的，发生了两件事情的变革：效率的提升和交互方式的改革。效率的提升，使得很多事情在手机端解决，可以实时点餐，实时叫车，这是在互联网时代无法实现的事情。交互方式的改变，我们习惯使用触摸、语音的方式和机器交互。
AI时代，以微软CEO纳德拉代表性的一句话说，人工智能时代的入口是语音技术、语音产品。人类是最擅长用语音聊天的，AI时代，一定会出现一款以语音交互为入口的一款产品。

每个时代都有一个入口：

IT时代的入口：PC电脑
互联网时代的入口：浏览器
移动互联网时代的入口：触屏手机
AI时代的入口：语音交互类产品

每个时代都会诞生一家伟大的公司：

IT时代：微软
互联网时代：Google
移动互联时代：Apple
AI时代的伟大公司，现在还不知道。现在都是在争抢入口，无论是天猫精灵还是小米，都是想占据入口

6. 聊天机器人体系

下面跟大家聊一聊聊天机器人，从聊天机器人的体系开始说起。包括三个方面：1.框架；2.产品；3.平台。

框架，用来实现产品的框架，比如用亚马逊的alexa实现了Echo音箱；
产品，我们能看到或者使用到的终端，比如小冰或者siri；
平台，小冰这款产品是没有硬件形态的，所以需要一个平台来承载这样的产品形态，所以会诞生微信、微博这样的平台，来承载小冰。把这些平台称为聊天机器人的平台。

从产品的分类看，产品分为主动交互和被动交互：

主动交互是更进一步的智能化产品，可以主动推荐、关怀、提醒，这部分不在我们今天的讨论范围，现在每家都做的不好；
被动交互方面，是大家见到的主流聊天机器人，被动交互是一问一答的形式，又可分为闲聊、任务对话、问答三个部分。

下面聊这几部分产品是如何实现的：

闲聊很简单，比如我跟机器人说“今天天气不错”，机器人回复，“今天天气也很不错”
任务对话，比如订票，是为了去完成某个目的，“给我订张票“， “查下某个人的电话号码”，“今天天气怎么样”。
问答，是想要得到具体的答案，比如“特朗普的妻子是谁？” “姚明的女儿是谁？” “珠穆朗玛峰有多高？”基本上都是一问一答。

问机器人，“你知道大川的电话号码吗”，机器人回答“知道”，再问“能告诉我大川的电话号码吗？” 机器人答 “可以”。这句话本来是任务型对话的，想要大川的电话号码，但机器人用安全的回复来闲聊，这是无意义的对话，也是聊天机器人中存在的问题。

7. 三要素

人工智能三要素：算法、算力、数据

chatbot 三要素：人工 > 数据 > 算法

人工堆一些规则，用大规模的 QA 数据，就能做到非常好的效果。完全不需要任何算法的加持。也有可能会需要检索的算法，怎样用 index 的方法使数据库的检索更快。但目前还是以人工和数据为主，算法排在最下面的层次。

8. 人工智能的人格化和 IP 化

既然 chatbot 的效果这么差，用什么方法来破局呢？怎么让 chatbot 更加有吸引力？这就是人格化和 IP 化。如在 chatbot 中植入智能的 IP，比如王俊凯，吴亦凡，比如大白，这对于粉丝和非粉丝的吸引力都会提高。

9. 多模态交互

另外，可以通过多模态交互，使得交互更生动，如手势交互、视觉交互、语音交互，还可以看到动作、视频、形象，用这种多模态的方式来吸引用户，这也是可以优化机器人表现的一种方式。这就是为什么在讲聊天机器人的下一代范式，一定是虚拟生命的形态。

虚拟生命核心技术及落地

虚拟生命，是用人工智能技术来描述虚拟生命的主要特征，利用多形态和多模态进行交互，具备强大的感知和认知能力，并进一步实现自我认识和自我进化。虚拟生命，最早提出是在 2017 年 CCF 的 paper 中，讲虚拟生命应该具备的能力。

1. 人工生命：人造生命 VS 虚拟生命

生命分为两种：生物学上创造的碳基化合物；另一种是计算机技术创造的硅基生命体。这是在生命的定义上所走的两条不同的路。

2. 虚拟生命能力范畴

可以看下虚拟生命应该具备的能力，包括看、听、说、动作，进一步会拥有思考的能力。

3. 虚拟生命技术范畴

分解到细节，有两种范围：

基于认知的多模态交互；
具有生命感的表达。

接下来的内容重点讲图像、声学、知识图谱、NLP，以及在歌曲上的技术落地。

3.1 语音技术：耳朵和嘴巴

首先看语音技术。语音技术相当于虚拟生命的耳朵和嘴巴，因为要听人类的语言并转化成文字，这也是大家熟知的语音识别，ASR。国内有多家公司，讯飞是目前较好的一家语音识别公司。语音合成也涌现了很多用深度学习做语音合成的公司。在深度学习之前，一直在用传统的方法进行语音的合成，随着深度学习方法的出现，语音合成技术的门槛大大降低，相关资料很多，这里不细讲。

3.1.1 个性化语音合成

个性化语音合成。语音合成分成三个部分，第一部分是前处理，最后一个是后处理。中间的是算法，分两个部分：端到端的深度学习算法，vocoder 技术。图中是 seq2seq 的语音合成技术的算法，称为 Tacotron，现在已经有了第二代。百度的 Deepvoice 也有类似的算法，功能实践中，现在看到的还是以 Tacotron 的技术为主。在语音合成的技术中，虽然能快速搭建框架，但真正在做语音合成的过程中，需要花费 3 个月的时间，才能真正做好。在聊天机器人的实现过程中，对语音合成速度有极高的要求，如对不同的语音秒数，5 秒，10 秒，有不同的要求，如低于 50ms、100ms 的语音合成技术，这就考验了整个 seq2seq、声码器的处理效率；还有在前处理过程中，如何处理更多的多音字，比如“你好”，这个词中，你读三声 ( 汉语声调有 6 种，升平阳平上声去声，外加轻声和 3 转 2 )。你在“你好”中的发音为 2 声。

3.1.2 后处理优化

可以看到汉字中有很多变调的情况出现，所以要针对这个情况做处理，还需要针对不同的设备，如在手机端或者电脑端播放，做不同的后处理。这也需要花大量的时间调整。如在后处理优化的时候，左边的图，是优化前的图，在合成男声的图时，发现男声比女声的难合成，通过一些处理方法，把左边的声谱图，变成右边的声谱图，使声音更加均匀。所以称声音处理师为百万调音师。类似于演唱会上的调音师的功能，声音调整成到和硬件最匹配的状态。这些是在声学上的落地。

3.2 图像技术：眼睛和身体

再看图像技术，图像技术相当于虚拟生命的眼睛和身体，因为图像技术中有计算机视觉，可以通过摄像头看到场景和用户，这是在人脸识别、场景识别用到的技术。还有个技术是 3D 重建技术，可以根据动漫的原型图，或者照片，来自动生成 3D 模型，通过一定的加工，可以把身体生成出来。由于 3D 也属于图像技术，非常成熟了，不再多说。大概说下在 3D 重建中使用的方法。

3.2.1 人脸重建

人脸重建中，目前用的最主流的方法是这样的，分两个工作流，上面的是在做 3D 模型，下面的是在做 shader 渲染 ( 想象石膏像，希腊图像中有很多白色石膏像，如果我们想把石膏像中用颜色把鼻子、眼睛、耳朵涂出来，这就是 shader 渲染 )。石膏像生成、把纹理贴到石膏像上，就可以生成最终的 3D 模型。Git 上有开源的 PRNet，3DMM 等经典算法，大家可以看下。

3.3 NLP 技术：基本交互

NLP 技术解决的问题是聊天机器人的基本交互，分为 5 个模块，核心的有 3 个：NLU、NLG、对话管理。整个交互模式是通过一个输入，到理解判断意图，到对话管理中解决槽位填充，到 NLG 中生成比较自然的回复，输出给用户，这是我们在 NLP 基本交互技术中的经典框架。

3.3.1 问答

问答时，聊天机器人分为 3 类：闲聊、问答、任务对话。问答是一问一答，如果是用最简单的方法正则模板，可以在代码中写很多正则模板，来一个 query 在正则模板中匹配，然后在建立好的字典库中，查找“科大讯飞”属于哪个字典库，最后查到属于 Firm 的名称，直接把科大讯飞的实体抽取出来，然后查已经建立好的数据库，比如建立了一个 key 和 value 的数据库，分别对应每个公司的股票代码，就会查到答案是 00230。这就是问答的最简单的做法。在做问答的过程中，还有语义解析、文本解析等方法。检索性的做法是在工程中用的最多、也是最有效最简单的方法。

3.3.2 对话

对话是一个任务型的对话，是为了解决带有目的性的任务。比如用户问“给我推荐 10 块钱以内的人工智能概念股，要最近涨幅靠前的几个”。这句话带给我们的信息，需要 NLU、DM 和 NLG 这几个模块来解决。在 NLU 中需要判断意图，假设用分类模型判断出来意图是查询个股，然后开始填槽，包括时间、概念和排名。查找到了时间是“最近”，概念是“人工智能”，价格是“10 块钱以内，涨幅靠前”。把这些信息变成标准槽位，起始时间是 4 月 8 日，对话管理中，根据 DST，接下来要做的事情是，给用户推荐排名最高的结果。这是 DPO 的事情。DST dialogue state tracking，DPO：dialogue policy optimization。最终推荐的结果是通过 NLG 给用户返回一句话，给用户返回一句话：为您推荐 4 月 8 日到 12 日，每股十元以内的人工智能概念股票，涨幅前十位分别是：XXX。

3.3.3 闲聊

闲聊做的最好的是检索型的，怎么做的呢？比如，用户有一个语料，“你穿的衣服好漂亮”，我们已经建立好了很多的 QA pairs，现在要做的事情，就是把这句话放在数据库中，进行相似度匹配，把最相似的句子挑出来，得到上面表格这两句，对这两个句子做 ranking，得到最好的。这里最关键的技术是 matching 技术，怎样从数据库中找到相似句子？

3.3.3.1 Matching 算法

TF-IDF，最大子串，基于字的相似度匹配，这里想提的是计算语义相似度的 matching 算法。有两种典型做法：基于表达的算法，和基于交互的算法。这是想解决基于语义相似、句子不相似时，怎样做好 matching。

先看基于表达怎么做，基于表达最早的论文是诺亚方舟实验室在 2014 年发表的，提出 2 种算法：ARCI 和 ARC II。把两个句子分别进行向量化，向量化的做法：word2vec，或 embedding 技术。把词嵌入，把词表示为一个向量，句子的向量矩阵，对它们做卷积操作，在每个句子上做卷积操作，最后得到定长向量后，做多层感知机，计算匹配度，在分别句子操作后，最后一层做相似度计算。这是基于表达的方法。

基于交互的经典算法，是在 2016 年发表的，在各大比赛中都取得了较好的成绩。怎么做的呢? 一开始就把两个句子揉在一起，对两个句子的每一个 word，都进行一次 similarity 的操作，这有多种方法，可去看论文，其实就是把两个句子，揉成一个矩阵。在这个矩阵上做卷积操作，最后经过多层感知机，输出 score。

这两种方式最典型的区别，一个是分开做的，一个是一开始就揉一起了。感兴趣的可以看下北大的严睿老师，对 matching 做过专题分享，网上可以搜到 PPT。

3.3.4 工程方案汇总

想要做 chatbot 蛮简单的，在工程方案汇总之后，NLU 不用自己做，可以使用 jieba 分词，或者哈工大的分词，意图解析可以使用训练数据跑一个 fastText 或者 BERT、transformer，得到解析；人物对话，需要自己写一些规则，功能也可以不用自己做，可以用海知智能的如意平台上很多技能拿来用。问答技能可以用模板搜索数据库中的答案，就可以了。闲聊基于检索，把一问一答的 QA 库存在 ES 中，使用相似度匹配放在句子中抽取出来。唯一需要写代码的，是写规则。NLG 通过配置来实现。这就是最简单的工程方案汇总。这只是最简单的方案，如果要做成产品，还需要考虑很多时间响应的事情。比如在大规模的用户并发的情况下，如何保证每条语句的返回结果都是 500ms 内的，此时如果用深度学习技术，就达不到这样的效果。在工程实现过程中，需要考虑很多效率因素。

说到 NLP 之后，谈一谈知识图谱：

3.4 知识图谱：跨越感知和认知的桥梁

现在，知识图谱技术在学界、工业界，都公认是从感知智能通往认知智能的桥梁。是真正解决机器人认知智能的方法，来看下为什么这么说：

知识图谱技术，可以为聊天机器人带来什么进展？如果有了 KG 技术，可以通过记忆模块，抓取用户输入，下面举例说明怎么做。用户在与 chatbot 聊天的过程中，不断抽取用户的知识图谱，把它存在简单的 mysql 或者图数据库，存成用户的知识图谱，知道了喜好、性别、年龄，图谱可以动态更新。有了图谱就可以提供更多的个性化推荐服务，如日程、关怀等。比如今天被老板骂了，可以查到用户是做什么的，老板是谁，主动关怀一句“你们老板太抠门了“。这是 KG 在个性化推荐上可以做的事情。

简单聊一下 KG 的本质：

简单说，KG 是知识+图。这是最简单的解释。想象一下，传统的数据是到 information 级别的，从 data 到 information，到 knowledge，再到 wisdom，是不断凝练的过程。这是上世纪初学者提到的 DIKW 体系。什么是数据，“姚明身高是 2.26m“。2.26 是数据，“身高是 2.26”这是 information；把姚明用节点表示出来，节点周围加上属性，比如姚明的妻子是叶莉，姚明效力的球队是上海队、中国队等；把这些知识总结成图的形式，就是知识图谱的最简单的定义。把知识以图的形式来表示。

知识图谱实现的过程中，用到了这些模块，从知识来源到知识应用，共 5 层。从不同的知识来源，加工后，得到知识图谱，知识图谱之上，可以用知识映射的手段，做问答、推理、联想、推荐、数据增强等。比如问答，通过知识检索、实体发现、实体对齐、实体消歧，在百科知识图谱上做出来的结果。这是知识图谱的整个体系。

流程上看是这样的，数据，到知识映射，到知识表示，形成百科知识图谱，通过知识检索、实体链接，做成上层应用。这个图是最基本的知识图谱构建引擎。

3.4.1 KG schema

知识图谱不得不谈 schema。

schema 是知识图谱的灵魂。一个形象的比喻，如果把 schema 看成是骨架，整个知识图谱就是一个人。如果把知识图谱看做一棵大树，schema 是它的树干树枝。如果没有 schema，数据就会比较散，没有标准。这里列出来的是一个简单的例子，事物下有人物、地点、艺术。艺术下有油画、戏剧、雕塑。这其实是一个分类体系。如果学编程，知道什么是类和对象。类相当于 KG schema，对象相当于实体。比如任务科学家，下面有个屠呦呦，他是一个实体，科学家是一个 class。

3.4.1.1 实体属性上下位

构建 schema 的过程中，有很多可参考的资料，比如 schema.org 以及 cnSchema，我们在这些 schema 的基础上，定义了自己的知识图谱。

构建 schema 的过程中，会发现很多关于实体属性上下位的事情。在拥有这个东西之后，做问答，可以很方便地进行语义解析，比如问“特朗普的老婆是谁”，可以通过老婆的同义词，查找到，“特朗普的老婆是谁” = ““特朗普的妻子是谁”” = “特朗普的配偶是谁”。可以知道特朗普和梅拉尼娅属于夫妻关系，使用实体属性上下位的方法，会对问答推理带来作用。

3.4.2 KG 构建

3.4.2.1 数据来源

首先是数据来源，可以是半结构化、非结构化的数据，我们用的有百度、萌娘百科，二次元领域的聊天机器人需要用到萌娘百科，知乎、维基百科等。

3.4.2.2 知识表示

用什么来表示知识？知识以什么形式存在，以及知识图谱的存储。可以用原生的图模式，也可以用 RDF ( resource description framework，经典的三元组形式 )。主谓宾的形式表示。

3.4.2.3 知识补全

利用 schema 做知识补全，比如在百度百科上发现，陈道明有一条边，妻子，指向杜宪，杜宪的百科中，没有提到陈道明是她的老公，此时用 schema 的定义，来反推，杜宪的老公是陈道明，用这种方法，可以把知识补全。可以直接把知识自动化补全。

3.4.2.4 知识扩展

知识扩展层面，举一个例子，4 月 3 日，“奶茶妹妹”卸任刘强东旗下“嫩绿茶”董事。“奶茶妹妹”和“嫩绿茶”两个实体，不太清楚指的是谁。这里可以通过 NLP 中的实体链接技术来判断，奶茶妹妹其实指的是章泽天，嫩绿茶其实是指“嫩绿茶叶有限公司”。可以把知识补全到知识图谱中，奶茶妹妹卸任，指不是嫩绿茶的现任董事，而是历任董事，可以更新到图数据库中。

3.4.2.5 新知识发现

新知识发现，是知识图谱要做的一个非常重要的工作。现在网络流行词很多，需要不断爬取、发现新知识。比如什么叫互联网创业公司，主营业务是 P2V，是 PPT to VC。如果项目是 Python 写的，就是一个 machine learning 的项目。什么是“不满式创业”，这都是知识发现要做的事情。

3.4.2.6 知识更新

刚才讲到章泽天，也是知识更新的层面。需要爬取这些热搜，不断增量更新整个知识库，这里面又牵扯到是否要全量更新，每个月做一次全量更新；增量更新，只需要更新节点，可以更新一跳关系，两跳关系，现任妻子变成前任妻子，现任董事变成前任董事，这都是知识更新要做的。

3.4.2.7 问答

问答方面，牵扯到问答领域几种典型的方法，有基于语义解析、基于模板、基于深度学习、基于检索的。融合了多种 NLP 技术，如问 CEO 国籍，狗尾草可能是一种植物，也可能是一个公司，CEO 可能是首席执行官，也可能是别的意思，通过基本的 NLP 处理和实体连接等技术把实体关系找出来，然后语义组合之后，变成 sparql 的查询语句，要找的答案其实是狗尾草的 CEO 是谁，是邱楠，邱楠的国籍是中国，然后通过比较自然的方式回复给用户。

（1）理解用户

比如突然发现明天是我生日，可以抽取出我的生日日期。当时做 PPT 的时候是 1 月 18 日，记住用户的生日是 1 月 19 日。比如想要个女朋友，判断性别是男，情感状态是单身，讨厌甜食。“弹个吉他给你听吧”，才艺就是吉他。怎么抽取用户的信息，保存在图谱中，这个信息，可以给用户更多的推送。这是理解用户的过程。

（2）推理机

推理有推理机，类似于知识补全。比如知道了某个人，是一个男性的母亲，就可以知道性别是女，这里蓝色的是已经有的，黄色的是需要推理得到的知识。比如她的奶奶是这个人，她又是这个人的女儿，那么她的性别应该是女，这是推理中用到的方法。

（3）推理规则 QA

可以使用比较型、上下文、聚合型、多跳型，上面是规则推理的例子。

（4）联想：歌曲推荐

比如用户通过音乐播放记录，知道用户听了四首歌，都指向了周杰伦，下次要推荐歌手的时候，会以更大的概率推荐周杰伦的歌曲。这是在歌曲推荐中的应用。还有一些信息提供，比如用户提到飞机，可以通过上下位关系，查找相应的实体，提供信息。

3.4.2.8 知识存储

根据实际情况看，传统关系型数据库能解决的问题，尽量不用图数据库，如 ES 是用到的较多的数据库，效率足够高；RDF 图数据库， jena 是有代表性的 RDF 图数据库；Neo4j 是有代表性的原生图数据库，可以根据不同的情况使用。

3.4.3 构建知识图谱的成本

是否需要构建知识图谱，是要考虑成本的。比如 Cyc，每一条知识图谱的成本是 5.71 美元， DBpedia，1.85 美分一条。因为它出现的比较晚，可以用深度学习技术提升构建知识图谱效率，来降低成本。

公开的知识图谱，放了部分数据在上面，也可用这个网址查询。

3.5 音乐技术：表现

00:00 / 00:00

1.0x

2.0x
1.5x
1.25x
1.0x
0.5x

网页全屏

全屏

00:00

Demo

这里播放一个视频。目的是根据不同的音乐跳不同的舞蹈，前面是机械舞，后面是古风舞。这里用到了音乐检测技术。下面是 onsite detection 的流程图：

音乐属性检测包括多方面，如节奏、韵律、鼓点，有了这样的技术，产品在跳舞时，会把节拍卡的很好，表现会很强。

自动作曲方面，机器人可以自动作曲和演唱。在 Magenta 的技术上做了改进，使用 ABABB 的形式，主歌副歌主歌副歌副歌，韵律表现：C 跳到 G，再跳到 M，F，C，来体现音乐生成的感情色彩。这也是我们在做的有意思的尝试。

00:00

02:59

3.6 虚拟生命的发展阶段

虚拟生命，现在还是在 1.0 的阶段，还有很长的路要走。

其应用场景，如车载，风控等：

工程实践中的其他问题

1. 多要素妥协

最后再谈下工程方面的问题，即使有很好的技术，也不一定能能做出好的产品。做好产品是多重要素的特性，不仅要考虑卖给谁、怎么卖、卖什么，还要考虑系统性能，以及投入多少的人力，以及整个市场是蓝海市场，还是红海市场。尤其是 chatbot 市场，已经不是红海市场，完全变成血海市场，chatbot 的产品是需要慎重考虑的，用什么形式进入市场。

2. 商业模式

前段时间较火的，夸夸机器人，刘知远老师在清华的夸夸机器人群里的聊天记录。聊天机器人可以不停夸你。会有人买单吗? 否定的。根本上来讲，这不是一个刚性需求。感兴趣的话我们可以线下继续讨论商业模式的问题。

最后，大家可以看下我们推出的 Gowild AI Virtual Engine ( GAVE ) 人工智能虚拟生命引擎，已经应用到我们的产品中，也欢迎大家到我们的官网了解更多信息：

https://www.gowild.cn/

本次分享就到这里，谢谢大家。

作者介绍：

邵浩，日本国立九州大学工学博士。狗尾草智能科技有限公司合伙人，人工智能研究院院长，带领团队打造了聊天机器人产品“公子小白”及 AI 虚拟生命产品“琥珀·虚颜” 的交互引擎。上海市静安区首届优秀人才，兼任中国中文信息学会青年工作委员会委员，语言与知识计算专委会委员，中国计算机学会 YOCSEF 上海学术委员会委员，语音对话与听觉专业组委员，中文信息技术专委会委员。研究方向为人工智能，共发表论文 50 余篇，出版了业内第一本聊天机器人著作，主持多项国家级及省部级项目，曾在联合国、WTO、亚利桑那州立大学、香港城市大学等任访问学者。

本文来自 DataFun 社区

原文链接：

https://mp.weixin.qq.com/s?__biz=MzU1NTMyOTI4Mw==&mid=2247494628&idx=1&sn=a8357c3d7588af8fdb21d0801b32b183&chksm=fbd75988cca0d09e6a58688e5adcbd577275766e368bf4a44f533d6d05fd504e3fe82eb2337a&scene=27#wechat_redirect

发布

暂无评论

万字长文：用人工智能技术打造虚拟生命