生成式AI领域的最新成果都在这里!抢 QCon 展区门票 了解详情
写点什么

算法“内卷”,我该如何保持竞争力?

  • 2020-12-04
  • 本文字数:4109 字

    阅读完需:约 13 分钟

算法“内卷”,我该如何保持竞争力?

人工智能无算法不 App。人工智能算法造就了一批互联网公司的崛起,同时因其高于同行平均水平的薪资也吸引着越来越多的人成为算法工程师。


如何高效率完成工作,如何在内卷严重的行业保持竞争力等都是算法工程师,甚至任何一位程序员要面临的问题。为此,InfoQ 与得物 App 算法负责人祁斌川做了简单交流。作为从业 6 年多的“算法 OG”,祁斌川分享了自己工作中的经验,并给出了一些实用建议。(祁斌川老师也是 2020 年 QCon 上海算法优化专题出品人,这个专题会分享什么内容呢?点击会议议程

业务导向


算法系统的运作主要有三件事情:数据收集、机器决策和决策可量化优化。算法工程师的工作就是围绕这些来的:首先,要有一个数据系统获取数据;然后,通过机器学习等技术做机器决策;最后,通过报表系统量化决策并持续优化。


公司是盈利为目的的组织,投入产出比是最重要的。企业最看重的就两件事:成本和收益,即搭建一个系统要投入多少成本和时间,然后可以获得多少回报。所以,企业内的算法工程师和科研院所的研发创新导向不同,工作更需要追求投入产出比。


在祁斌川看来,能产生较高 ROI 算法系统建设的核心是业务导向,尤其在项目初期更是强业务导向。


“很多公司在算法平台建设的时候,喜欢先成立一个很高级别的项目,囊括各方人员,包括产品、业务方、技术方等,并设定了一个明确的研发周期,这是典型技术导向,期望闭关修炼后,就能够无往不利,解决一切业务问题。这样做的结果往往是平台搭建好了,要么解决业务问题还是要做大量的定制化,要么平台貌似提供了很多高大上的功能,但对于业务没什么应用场景。这就造成了资源浪费,并没有解决问题。”祁斌川的经验是:始终围绕解决业务问题去建设算法平台和算法团队。


当前业务最紧迫的问题是什么?如何通过算法解决?解决方案能否通用化、组件化?这一系列问题解决的同时,也会形成一个可以被复用的平台,极大方便了以后工作的展开。这样,在团队的诊断能力和人数情况有限的情况下,也可以高效率地创建产品。


“18 到 19 年底,我们团队 12 个人提供了 40 多个对外服务,从效率上来说是不错的。“祁斌川说到,“技术方案简单就是收益。18 年团队刚成立就 4 个人,大都没经验,要从 0 开始建设推荐搜索服务,那我的设计方案肯定不能太复杂,或者复杂的技术方案也要简化成可实施性更快、更容易上手的方案。”


技术不是越先进越好,解决方案不是越复杂越好,人力投入也不是越多越好,核心的问题是要解决问题,并且要把成本控制好。


“今年年初时,我们的分发精排线上用还是逻辑回归模型。现在,深度学习很火,大家都在用,线性模型就被认为太简单,太古董。但在与字节跳动、阿里云、达观、中量引擎的 PK 中,线性模型表现并不比复杂模型差,很多指标甚至表现更好。“祁斌川说道。


是否拓展算法平台的复杂度和覆盖范围,决定因素应该看业务,其次才是技术。


祁斌川认为,企业要效益,而技术研究更多是高校和科研院的责任。从效率角度考虑,也有很多公司会将自主研发和外包相结合,这无可厚非。得物平台的核心主体就是由内部搭建,而像报表系则引入了第三方服务。


数据是资源,加上算法后才是生产力


经过数年发展,各家企业已对算法的使用得心应手,但新的问题已经出现,比如现在很严重的“信息茧房”。信息茧房,即推荐信息的垂直度越来越高,信息面越来越窄。同种商品出现频率过多,消费者便会产生厌烦情绪。这也是算法工程师们目前最需要解决的问题之一。


目前,大家普遍采取的方案就是“破圈”。顾名思义,破圈就是算法工程师在设置推荐的时候,不完全依赖于现有的兴趣,而是进行更大范围的试探。试探是有成本的:基于兴趣去推荐,有可能会带来一个好的结果,但也有可能会让你感觉厌烦;不基于兴趣推荐,有可能会试探失败,也可能会带来一个好的结果。对于分发新内容来说,试探是比较合适的。但最终如何取舍,需要企业自己的权衡。


破圈方案中,目前最常用的就是反馈机制。反馈机制可以分为显性反馈和隐性反馈。给用户设置是否喜欢此类内容、是否喜欢作者等的选项,让用户直接表明对分发内容的态度,然后据此做相应的调整,这是显性反馈机制。而隐性反馈机制,更多是分析用户的行为。比如用户在刷信息流产品时,如果用户一直刷但是从来没有点进去或停下观看,那么系统就会将此记录下来,随后会减少这类内容的推送。



常用的显性反馈机制


用户体验变差的同时,监管部门在加强对用户数据保护的管理。


近日,国家互联网信息办公室出台《常见类型移动互联网应用程序(App)必要个人信息范围(征求意见稿)》,对 38 类常见类型 App 必要个人信息范围进行了规定。


一些平台不可避免地会掌握大量用户的数据。比如外卖平台,肯定需要获得你的地理位置信息才能进行配送,所以数据获取有一定的必要性,这类信息即被称为“必要个人信息”。但实际中,很多平台会随意收集用户数据,不提交则不能使用应用,甚至滥用和交易用户数据。


《征求意见稿》中规定,对于网络直播、在线影音、短视频、新闻资讯、运动健身、浏览器、输入法、安全管理、电子图书、拍摄美化、应用商店、实用工具这 12 类 App,无须个人信息,即可使用基本功能服务。


而此前,《关于平台经济领域的反垄断指南(征求意见稿)》的出台也让行业对算法的应用更为谨慎。祁斌川透露,监管趋严将使用户年龄、地理位置等敏感性信息的获取越来越难,企业对于这些敏感数据的使用也会更加适度。


种种因素影响下,隐性反馈机制在慢慢成为主流方向。目前,机器学习的一个大方向是越来越使用不可解释性数据,即不再像以前先构建用户画像系统,然后在用户画像的基础上做推荐。


获得不可解释性数据很简单,这些数据越来越多,而且更有价值。比如当用户登陆一个应用,系统不再通过注册信息去判断用户性别,而是根据其行为来推断,甚至直接从用户行为推测该用户可能想购买什么产品等,这些都是可行的。


“用户在 APP 上所有的历史行为,构成了在站内消费场景对用户的最准确和实时描述。”祁斌川表示,“目前得物已经搭建了这样一套推荐系统,直接使用非结构化的元素数据,逐步摒弃掉一些相对比较敏感的画像数据的抽象和依赖。”


此外,对于必要的敏感数据,可以采取加密的方式进行传输,将数据变成不可解释性的形式,即使泄露了也不会带来风险。


当然,机器决策一般是狭义上的最优决策,这里面有两个原因:利用的数据是有限的,现实场景中优化的目标是多维度的。现有机制下,所有的决策都是基于现有的数据和有限的目标,这就决定了机器决策的有限范围的有效性。


“16 年的时候,网易云音乐做了一个用户调研,让用户评价网易云哪个推荐做得最好。当时一个投票特别高的是,在用户生日当天给他推荐生日快乐歌。而这样的一个推荐策略并不是机器决策的,实际上是基于经验、人工运营的结果。”祁斌川说道。


数据本身是无限的,我们能够采集获取到的数据是非常有限和垂直的,我们不可能完全依据采集到的数据去做决策。对于目标的拆解的精细度,合理性也决定了机器决策无法可能是短视的,有偏见的等等。如果完全依据数据决策,那在信息流平台上,有可能会看到非常多的低俗内容。人工干预仍是不可忽视的一部分。


要么做深,要么做广


面对种种行业问题,算法工程师可以用技术可以解决,而行业日趋严重的“内卷”问题却没那么容易。算法工程师的高薪资一直被人津津乐道,但“人傻钱多”的时代已经过去了。


公司初创期间对算法工程师的要求可能相对较低,尤其在前几年算法刚火起来的时候,面试者即使没有算法经验但只要在大学里面学的是算法方向或相关都会被录用,但近几年已经不可能了。稍具规模的公司对算法工程师的经验、背景、工作能力等方面的要求已经提高了很多,更不那些大厂们。


在祁斌川看来,人工智能算法价值不会降低,随着推广应用,价值反而会增加,但一般的算法工程师不会再是稀缺人才,收入也可能会随之降低。


“算法归根到底还是一个工具技能,就像当初的计算机一样,学习和使用的门槛会越来越低,最终也会变成一个很普遍的工具。但人工智能算法本身是有价值的,从业人员的收入会因为供需关系变化而降低。互联网的普及,技术开源的流行,都让知识和技能获取的门槛会越来越低;利之所在,再加上相对较高的收入,学习和掌握这项技能的人会越来越多。市场的供需关系也会发生变化了,不再稀缺,自然从业人员的薪资也就降下来了。”


互联网技术革新非常快,每隔一段时间就会有新的东西出来。现在的技术很有可能会被新技术迅速取代。祁斌川分享道,”我 14 年曾在网易做过一个关于人脸识别的项目,当时传统方法准确率只能达到 86%。然后,我使用深度学习模型后,一下提高到了到 97%、98%。对那些掌握和使用传统方法,在一个领域深耕十几二十年的从业者,如果不迅速学习,就面临淘汰。这就是典型的技术革新,带来的生存压力“祁斌川说道。


社会工业化,商业化,一个非常重要的特点就是对于效率的极致追求,效率其实也是性价比,也就是投入产出的比值。如果一个 35 岁的员工和一个 25 岁的员工提供的价值是一样的,前者要付的报酬高,对于企业来说效率就低了。个人价值效率决定收入不仅适用互联网行业。站在企业角度考虑,如果年轻人和资深专家的产出没什么差异,当然用年轻人的性价比更高。


所以,从业人员在往两个发展:一些有天赋、有热情的人,深耕成为这个领域的专家,但这个群体人数比较少;更多的人是在广度上寻求机会,即将人工智能技术和业务相结合。人工智能在消费领域的应用正在高歌猛进,在工业领域才刚刚开始。如何使用人工智能技术解决消费、产业领域的具体问题,带来效率上的提升,这些背后都蕴藏着很多机会。


程序员岗位需求 Top10、程序员难招岗位 Top10,来源:Mob 研究院


祁斌川给现在从业者的建议是,千万不要把自己定位成算法执行者的角色。算法工程师要做的不仅仅是会用,还要学会琢磨。琢磨技术原理是什么、为什么有用、可以用在哪些场景等等。想得越深、琢磨得越透,就可以解决更多的问题。


“仅仅成为执行者很容易丧失竞争力,要有意识的去做深,或做广。”祁斌川表示。

活动推荐

祁斌川老师也是 12 月 20-21 日QCon全球软件开发大会(上海站)“算法优化”专题出品人,邀请了网易云音乐、哈啰出行、爱奇艺、阿里巴巴的技术专家们来分享在算法上的工作实践。想了解大会议程和演讲嘉宾可以咨询:17310043226(同微信)

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2020-12-04 07:001818

评论

发布
暂无评论
发现更多内容

ReactNative进阶(九):API学习之注册组件AppRegistry

No Silver Bullet

React Native 1月月更 AppRegistry

关于常见状态码,你了解多少?

坚果

服务器 1月月更

08 Prometheus之警报管理

穿过生命散发芬芳

Prometheus 1月月更

模块 4 作业

miliving

云原生背景下故障演练体系建设的思考与实践—云原生混沌工程系列之指南篇

阿里巴巴云原生

阿里云 云原生 混沌工程

Spring Boot Serverless 实战系列“部署篇” | Mall 应用

阿里巴巴云原生

阿里云 Serverless 云原生 MAll

常见网络安全专业术语

喀拉峻

黑客 网络安全 信息安全

Linux之tar命令

入门小站

Linux

急速学习C#死锁

喵叔

1月月更

架构实战营 第 4 期 模块四作业

架构实战营 模块四 「架构实战营」

来了!「年度最强技术答辩」看这里

阿里巴巴云原生

阿里云 Serverless RocketMQ 云原生 编程挑战赛

Spring Boot CLI安装(WIN10、macOS系统)

JavaEdge

1月月更

架构训练营 -- 模块六

LJK

#架构训练营

今年最值得关注的5个云趋势

云原生

云计算 数据分析 云原生 趋势 SaaS

在线JSON转PHP Array工具

入门小站

工具

白帽子渗透行为监控方案

明亮安全观

网络安全 信息安全 渗透测试 行为监控

2021 阿里云容器服务年度盘点:企业级容器应用变化和技术趋势观察

阿里巴巴云原生

阿里云 容器 运维 云原生

一次无脑接口测试导致的无效排查的经历

liuzhen007

1月月更

第六周作业

lv

电商系统微服务拆分和系统架构设计

drizzle

「架构实战营」

考试数据存储方案

皓月

#架构实战营 「架构实战营」

深信服智能边缘计算平台与 OpenYurt 落地方案探索与实践

阿里巴巴云原生

阿里云 云原生 边缘计算 openyurt

也谈谈Python的内存管理

宇宙之一粟

Python 内存管理 1月月更

模块四作业

whoami

「架构实战营」

「架构实战营」模块四《如何设计业务高性能高可用存储架构》作业

DaiChen

作业 模块四 「架构实战营」

从运维域看 Serverless 真的就是万能银弹吗?

阿里巴巴云原生

阿里云 Serverless 运维 云原生

一文看懂椭圆曲线签名算法

Rayjun

区块链 椭圆曲线

Elasticsearch核心原理系列:10张图理解Elasticsearch核心概念

慕枫技术笔记

后端 1月月更

什么是 Github 的元数据以及如何备份 github 上的数据

Jerry Wang

GitHub 1月月更

SAP R/3系统的R和3分别代表什么含义,负载均衡的实现原理

Jerry Wang

负载均衡 abap 1月月更

「程序员35岁被淘汰」已经22岁了

FunTester

程序员 职业发展 FunTester 35岁焦虑 35岁退休

算法“内卷”,我该如何保持竞争力?_AI&大模型_褚杏娟_InfoQ精选文章