红帽白皮书新鲜出炉!点击获取,让你的云战略更胜一筹! 了解详情
写点什么

一位女博士在人工智能领域创业的那五年

  • 2021-11-16
  • 本文字数:4695 字

    阅读完需:约 15 分钟

一位女博士在人工智能领域创业的那五年

作为 IT 行业的新时代焦点产业,人工智能领域近年来催生了一大批很有前途的创业企业,涌现出众多技术过硬、眼光独到的优秀创业者。与此同时,越来越多的技术人与投资者开始将目光投向人工智能,希望在这一数字时代的“淘金热”中抢占先机,取得令人瞩目的成就。

 

不过,任何行业的创业之路都不可能一帆风顺,人工智能创业者和企业都必须面对诸多挑战与未知的困境。如何才能尽可能避开创业道路上的沟壑与弯路,怎样充分利用有限的资源快速响应需求,在激烈的竞争中赢得优势?想要回答这些问题,一位资深创业者的经历无疑能为我们带来宝贵的经验作参考。为此,InfoQ 大咖说栏目采访了爱数智慧创始人和 CEO 张晴晴博士,以人工智能行业长达 5 年的资深创业者身份,为大家分享了她在这一行业中积累的经验与观察思考成果。

 

从学术研究到创业实践:一位创业者的心路历程


2016 年,在中科院担任副研究员的张晴晴选择离职创业,创办了爱数智慧。张晴晴回忆,当时最重要的驱动力是学术领域在进行人工智能研究工作时非常缺乏数据资源的支持,于是张晴晴决定从做模型与算法的角色,转变成为全世界的 AI 工作者提供底层数据服务能力的角色。

 

这样的转变对于象牙塔出身的张晴晴而言,无疑是巨大的挑战。之前的十一年间,张晴晴一直身处研究环境,更多接触的是个人性质的工作任务。但进入创业阶段后,创业者需要建立商业逻辑、建立团队并构建协作氛围,还要更多地将目光转向市场与行业趋势等方面,而这些思维转变都是不可或缺的。

创业者需要做到的两件事

张晴晴从多年的研究者经历中,收获最大的就是建立了一套完整的科学思维体系。相比之下,创业之路更考验创业者的学习能力与创业初心。作为公司的引领者,CEO 一定要明确企业的发展方向,也就是公司的发展战略。创始人的思维高度往往决定了企业的发展高度,所以创业者需要持续思考、快速迭代,才能不断提升企业成功的几率。

 

创业者还要认识到,创业不是一个人的事情,而是一群人的事情。创业者需要让伙伴们了解大家需要做什么事情,发现每一个人各自的能力与特长所在,并把自己的知识传递给他们,还要确保整个团队向同一方向努力。在创业过程中,经费不足等客观原因也曾导致很多意外事件,在张晴晴看来,团队共同克服困难的过程也是创业必经之路。

 

此外,作为 AI 领域公司的创始人和 CEO,张晴晴在观察行业、决定公司方向的同时也要立足于技术的理解和认知层面,需要知道 AI 的底层原理是什么、未来会怎样发展、存在哪些阻碍以及如何去突破等等。与此同时,创始人也要以团队服务者的角色,在大家遇到困惑的时候站出来帮助大家解决现在的问题。

给女性创业者的建议


商业世界男性占比很高。身为女性创业者,张晴晴表示自己很少思考自己的性别、年龄等标签。对于她来说,如何更好、更快完成创业目标,为社会创造更大价值才是关键所在。她也建议其他女性在创业或扮演重要角色时忘掉自己身上的一些标签:


因为很多事情,你没有尝试就告诉自己说不可以,那就真的没有机会了。抛弃社会给你定义的东西,专注在事情本身,你会发现通过这样的一种思维逻辑,这个世界都会为你而开启。

 

在你决定做这件事情之前,不用给自己设太多边界。只要专注在这件事情上,迈开这一步,就是最大的成功。人的潜力无穷无尽,只要你真有足够的毅力和定力去做,你会发现很多你过去想不到的目标可能有一天都能实现。

 

爱数智慧成立五年来,张晴晴一直对于创业抱有敬畏之心,时刻思考每一个环节要怎样去做才能更好达到目标。

 

身处 AI 这样高速进化的行业之中,创业者最重要的一点就是维持积极学习的态度。创业者不应该在任何时刻认为自己应该停下脚步。所谓活到老,学到老,张晴晴认为这不仅应该是创业者具备的素养,也应该是希望活出精彩人生的每一个人都要有的态度。

如何应对创业道路上的问题与挑战


谈到创业道路上解决的问题,张晴晴首先提到了公司组织结构的转变,又从业务角度分享了自己的观察。

 

在创业早期,团队往往没有细致的分工,但当公司慢慢进入到一定规模后,管理者就要开始做职能拆解,明确分工职责。在公司很多年的老人可能对于这个过程会有些不适应,新来的小伙伴也需要逐渐融入这样的环境,因此会有一定的挑战。但职能拆分是持续的过程,随着规模的扩张必然会继续下去。

 

对于公司业务的部分,爱数智慧的企业定位是为所有人工智能企业提供底层数据服务。数据是未来的原油,但在不同的应用场景下,数据的提炼方式与规则也有所不同。过去五年来,爱数智慧逐步形成了一套提炼体系,搭建了一套数据处理系统,并在今年正式商业发布。张晴晴希望把爱数智慧过去 5 年所沉淀下来认知凝结在这套系统里面,赋能给更多需要用到数据的企业,帮助他们在业务演进过程中通过数据处理和迭代、各种标签体系和预测分析等工具更快前进。

人工智能:行业正在经历怎样的变化


对话式 AI 是人工智能领域的终极问题之一。对话 AI 的目标是让机器像人一样和人类自然交流对话。在过去,人机对话交互主要局限在一些特定场景,涉及确定的动作。但人类非常希望能够按照自己想要的表达方式去跟机器交流,这样的需求催生了对话式 AI。

 

以汽车智能座舱为例,司机要告诉导航系统自己想去哪个地方,可能的表达方式是多种多样的,系统没有办法完全预测每一个人的说话方式;同时人类还有口音和语气的差异,这些在对话式 AI 里面都是非常典型的难点,也是需要行业在未来几年中逐步解决的问题。

 

在解决这些问题的过程中,AI 专家需要花费大量时间采集数据。因为人工智能是靠数据驱动,数据清洗采集的好坏直接影响了建模性能,决定了预测效果。从海量数据里挑选出想要的数据,就像在浩瀚海洋中找寻一个贝壳,是非常耗时耗力的事情。未来,随着数据生产和现实生活中出现的数据越来越多,这个问题就会变得越来越突出。因此行业需要一套更高效的数据处理工具,也需要建立数据处理的标准和体系,才能不断提高数据处理过程的效率。

 

在数据的收集过程中,最重要的一点就是理解数据的使用场景。根据企业需要解决的问题来决定数据处理的重点和方法。数据处理过程结合了机器和人两者的优势,这种人机协作的方式也需要行业思考和深耕。

 

目前,人机对话模式还处在比较机械、呆板的初级阶段。张晴晴认为这是比较系统性的问题,不只是单点问题。站在数据角度来讲,目前人机交互的底层数据积累还远远不够。比如说人们在用中文交流,但是每个人的用语体系都是有差异的,而机器在理解这种差异时会显得呆板,不够灵活。要解决这个问题,张晴晴认为从业者需要将思考维度放的更长远一些。比如认识一个人需要从很小的时候就开始在他的身边,长年累月才能知道他的性格、喜好,人们很难在很短的时间对某人构成很清晰的认知。所以在未来,人机交互要进一步发展可能需要某种虚拟的陪伴机器人,跟随主人一段时间后才能对主人有全面的认知。

标注员:新时代的“数据民工”?


很多人认为智能化标注平台上的数据标注员像是“数据民工”,但张晴晴并不认同这样的说法。在她看来,所有从业者严格来说都是工作者,而数据标注员是把他对于这个世界的认知转化成机器可读取的 0、1 等确定的数字。数据标注员的工作是连接人类所在的真实世界和计算机所在的虚拟世界的连接点。随着需要处理的数据类型以及待解决问题越来越多样化,数据标注员需要掌握的知识体系也越来越丰富。

 

以智能医疗系统为例,这个系统可能需要一些主任医师和专家才能标注,他们标注出来的每一个结果都代表了他们积累了几十年的经验。其他领域里也有类似的情况,比如金融股票方面的会议场景,就需要标注员具备相应的背景知识。如果标注员对这些领域不熟悉,那么标出来的东西可能完全是错的。从这个角度来讲,张晴晴认为,把数据标注员称之为数据专家会更合适。

AI 如何帮助提升数据平台效率


数据处理是需要人和机器协同完成的事情。人力处理数据最大的问题就是不同的人对同一件事情的认知也会不同,而且行业需要处理的数据量越来越大,完全靠人工的方式来处理无疑也无法跟上 AI 落地的发展节奏。

 

在这种情况下,行业应该将一些最基础的标注能力逐步沉淀到系统层面,让系统帮助人工更快完成标注工作。简单来讲,一些初步的标注工作让机器去做,人类则负责审核与校正,这些校正结果也会反哺系统,帮助系统更快迭代。但社会每天都会产生新生事物,系统也要处理新的事物和数据,这部分还是需要靠人来建立连接点,标注员连接起虚拟世界和真实世界,尽快将知识沉淀到系统里面来做迭代。

AI 行业的一些前沿动向


在 AI 产业发展早期,从业者的终极目标就是构建大量的数据。不过,当前通过一些技术迭代,从业者在一些特定场景中也可以通过小数据获得相对精准的结果。AI 发展的另一个重点是可解释性。缺乏可解释性的情况下,从业者会不知道到底是哪些数据对模型提供了最根本的帮助,这会导致数据资源的浪费。

 

联邦学习也是 AI 领域的一大研究方向。通过联邦学习,所有人各自训练的模型就有机会共享,实现共同快速的迭代和优化。

 

从产业赋能的角度来看,AI 本质上是一种工具,可以赋能到各行各业。比如说在法律方面,有公司在做智慧法庭、焦点争议的快速判定,或者一些摘要记录工作。张晴晴表示,AI 可以真正用于各行各业,只要在相应领域里设定好标准、定义好目标是什么,就能得到比较匹配的数据,获得很好的赋能成果。

数据安全与隐私保护对 AI 行业的影响


在 AI 的落地过程当中,数据的隐私保护是非常重要的关键环节。

 

AI 行业的初心是希望社会变得更美好,那么在人们贡献数据来加强与机器之间的理解、沟通能力的同时,一定要确保数据的安全性,确保数据的使用经过充分授权。从业者要严格区分数据的使用权与所有权,涉及到个人隐私的部分还需要做数据脱敏。随着相关法律法规的健全完善,科研工作也在这一领域不断取得进展。在未来,数据的合规性和技术迭代应该并驾齐驱。

AI 行业未来需要克服的挑战与发展趋势


在现有框架下,AI 行业未来需要解决数据和算力这两个人工智能的底层问题。在追求更多数据与算力的过程中,行业还需要克服能源消耗问题,保护地球环境不受破坏,实现可持续的发展道路。

 

从行业宏观角度来看,对话式 AI 一定会不断前进,这是行业的终极目标。但在这个过程当中有很多问题要去解决,行业需要综合考虑能源耗费、人力物力投入、数据合规性等等问题,最终才能一步一步迈向更美好的未来。

MagicHub 开源社区背后的思考


2021 年 4 月,爱数智慧发起的 MagicHub 开源社区正式上线。之所以选择以开源的方式跟大家共享爱数智慧的研究成果,张晴晴也有自己的思考和理念。

 

首先,MagicHub 是爱数智慧从数据集和数据处理工具这两个维度打造的开源项目。纵观全球,更多的开源项目集中在算法系统层面,而这些算法需要由底层的数据去驱动。但行业还没有很多合适的数据能够用于 AI 训练。张晴晴表示,很多试图尝试进入到 AI 领域的工作者常会自己下载开源工具,希望能自己跑些 AI 算法,但发现在这个过程中没有发现合适的数据来完成模型迭代,所以他们对 AI 的认知也会停留在比较浅的阶段。数据的开源方式能够让更多从业者开始尝试玩儿 AI,产出更好的成果。

 

目前,MagicHub 开源社区成员有来自国内外的 AI 研究者、科研机构等,他们会主动到这个开源社区里下载和分享、贡献数据。MagicHub 也是很好的学习社区。MagicHub 提供了中英双语的版本,方便国内研究者更快上手学习使用。

 

另外,张晴晴建议从业者在学习了解各种技术时,可以去关注一些顶级会议,读这些会议相关的组织者、发表的文章,通过这种以点带面的方式,从业者就可以快速理解一个细分领域的发展历程,更好地理解技术现状背后的演进逻辑。

 

结束语

 

如今,爱数智慧成立已经有 5 年时间,张晴晴自己也在 AI 领域走过了 16 年。张晴晴希望爱数智慧一直希望做一家专业的数据公司,做出更高效的数据处理系统。

 

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2021-11-16 15:052021
用户头像
褚杏娟 InfoQ 编辑

发布了 953 篇内容, 共 450.1 次阅读, 收获喜欢 1491 次。

关注

评论

发布
暂无评论
发现更多内容

前端食堂技术周刊第 46 期:Chrome 三方 cookie 计划、npm 引入更多安全增强功能、Awesome Bun

童欧巴

Linux npm Cookie

Nacos配置中心之加载配置

急需上岸的小谢

8月月更

开源一夏|要有遥不可及的梦想,也要有脚踏实地的本事

坚果

开源 HarmonyOS OpenHarmony 8月月更

如何给 UE4 场景添加游戏角色

HelloWorld杰少

c++ 游戏 UE5 8月月更

【高并发项目实战】自适应高并发复杂场景的订单拆分算法工具

小明Java问道之路

高可用 高并发 高性能 签约计划第三季 8月月更

如何优雅的消除系统重复代码

慕枫技术笔记

设计模式 代码 签约计划第三季 8月月更

好好活就是做有意义的事,有意义的事就是好好活

宇宙之一粟

8月月更

一、《图解HTTP》- WEB和网络基础

懒时小窝

图解https

你认同这个观点吗?大多数企业的数字化都只是为了缓解焦虑

雨果

数字化转型 数字化

企业公众号文章写作方向:如何写出读者认可的优质内容

石头IT视角

Serverless基础知识

阿泽🧸

Serverless 8月月更

【Go实现】实践GoF的23种设计模式:迭代器模式

元闰子

Go 设计模式 迭代器模式

毕业作业-设计电商秒杀系统

Fan

#架构实战营

让你10分钟就能看懂Linux文件权限(超级详细、超级简单!!!)

Albert Edison

Linux centos linux 文件权限控制 8月月更

LeetCode第三题(Longest Substring Without Repeating Characters)三部曲之一:解题思路

程序员欣宸

LeetCode 8月月更

系统可用性:SRE口中的3个9,4个9...到底是个什么东西?

董哥的黑板报

运维 后端 可用性 SRE

Gitee图床被屏蔽后,我搭建了一个文件系统并封装成轮子开源!

IT学习日记

Java springboot 签约计划第三季 seaweedfs文件系统 Gitee图床崩了

小程序容器+自定义插件,可实现混合App快速开发

Speedoooo

小程序 插件 APP开发

leetcode 204. Count Primes 计数质数 (Easy)

okokabcd

LeetCode 算法与数据结构

SRv6 L3VPN的工作原理

穿过生命散发芬芳

8月月更 SRv6

【SeaTunnel】从一个数据集成组件演化成企业级的服务

Apache SeaTunnel

大数据 微服务 数据处理 数据集成 大数据 开源

Java中的引用

flow

签约计划第三季

学习英语的网站与资料

玄兴梦影

学习 英语

PDF转Word有那么难吗?做一个文件转换器,都解决了

IC00

C# 签约计划第三季

Python 教程之输入输出(1)—— 在 Python 中接受输入

海拥(haiyong.site)

Python 8月月更

鲲鹏编译调试插件实战

乌龟哥哥

8月月更

GRPC MacOS M1 处理器的问题

HoneyMoose

dvwa 通关记录1 - 暴力破解 Brute Force

Todd-Lee

渗透测试 DVWA

Linux性能调优之内存负载调优的一些笔记

山河已无恙

签约计划第三季

Android编译系统初探

桑榆

8月月更

物无定味适口者珍,Python3并发场景(CPU密集/IO密集)任务的并发方式的场景抉择(多线程threading/多进程multiprocessing/协程asyncio)

刘悦的技术博客

多线程 协程 多进程 Python3 Python.

一位女博士在人工智能领域创业的那五年_AI&大模型_褚杏娟_InfoQ精选文章