红帽白皮书新鲜出炉!点击获取,让你的云战略更胜一筹! 了解详情
写点什么

百度技术沙龙第 34 期回顾:机器学习之多媒体方向的思考(含资料下载)

  • 2013-01-15
  • 本文字数:2145 字

    阅读完需:约 7 分钟

在 1 月 12 日由 @百度主办、 @InfoQ 负责策划组织和实施的第 34 期百度技术沙龙活动上,来自百度的多媒体部副总监余凯和简网联合创始人、CTO 谷文栋分享了在机器学习方面的的经验与实践,话题涉及“深度学习进展以及在语音图像中的应用”和“个性化阅读产品实践”等。本文将对他们各自的分享做下简单的回顾,同时提供相关资料的下载。

本次沙龙是 2013 年的第一次沙龙活动,同时作为 2012 年的年度回顾,InfoQ 中文站创始人兼 CEO 霍太稳阐述了 InfoQ 的宗旨以及在 2012 和 2013 年的变化。随后分享了《架构师》月刊在 2012 年的专题内容并展望了 2013 年的技术热点。在谈到媒体的责任时,他认为“不在于预测的有多准,而在于记录的有多真实”。最后他强调了 InfoQ 对于移动开发、云计算、大数据、HTML5 和 Node.js 等方面的关注。

本次沙龙还选出了 2013 年的 6 位百度技术沙龙观察员:邵磊、老杨、张俊林、石川、邓侃、沈强。在新的一年里他们将会搜集开发者的反馈,分享精彩观点,将更多精彩的内容呈献给大家。

主题一:深度学习进展以及在语音图像中的应用 (下载讲稿

百度的多媒体部副总监余凯第一个为大家分享,他谈到自从 80 年代起,以神经网络、支持向量机等为代表的浅层分类模型有了很大的进展,随后以 Kernel Learning 、Transfer Learning 为代表的 Learning with Structures 引领潮流。成功之外,他指出在图像、视频以及语音识别以及关系数据挖掘方面还存在着很大的挑战。2006 之后,使用深架构学习高级特性已成为学习模式的主流。

他回顾了深度学习在工业界的运用:

  • 微软在 2009 年首次将其运用到机器语音识别的模型中;
  • 谷歌的“Google Brain”项目;
  • 百度在语音、图像识别方面的运用;

然后,他谈到了构建 Restricted Boltzmann Machine、Autoencoder Neural Net、Sparse Coding 等内容。

主题二:个性化阅读产品实践 (下载讲稿

简网联合创始人、CTO 谷文栋第二个为大家分享,本次分享的内容以开发指阅过程中的实践为主,包括指阅的“信息基因”技术、 图数据库(neo4j)以及产品感悟来向大家展示是如何运用等。

首先他阐述了 Tim Berners Lee 对于互联网的理解,即电脑互联、文档互联与物联三个阶段。目前,百度、谷歌等的兴起与发展代表了第二个阶段的成果,而第三个阶段正在到来。出于长远的考虑,他们打造了指阅这个产品,通过关联人与物(目前是文本)的关系为用户制作个性化的内容,他们称之为“基因工程”,目前已经有 Freebase、Google Knowledge Graph 和 Pandora 等同类产品。在实现产品构想的过程中,他发现原有的关系型数据库处理这些机器学习的数据时出现了局限性,而 NoSQL 在这个方面的解决方案得到了普遍的认可。

谷文栋分享了指阅在 NoSQL 解决方案的选择:图形数据库。出于稳定性和效率的考虑,指阅团队目前为采用 Neo4j 来作为数据库,并使用 Cypher 来进行数据查询,支持聚合、排序等操作。同时他还分析了图形数据库的一些缺点,即不容易进行分片。

指阅是将文本作为图,使用 TextRank 算法来建立信息基因,在构建产品的过程中他们也发现了一些问题:

  • 信息生命周期短暂
  • 同质化问题严重
  • 用户兴趣变化捉摸不定

最后,他总结了自己的心得,即:

用关联的视角去思考问题

Open Space(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了 Open Space(开放式讨论)环节。

在 Open Space 的总结环节,几位话题小组长分别对讨论的内容进行了总结。

余凯:关于机器学习的技术细节,并发散到技术的潜能,例如关于多人说话的即时翻译等,我们认为在今后的 5 年将会有更多成熟的产品推出;

古文栋:关于创业的方向选择,首先要从大势出发,另外就是结合自身的情况,最后就是要把算法作为工具来反哺于产品上;

邵磊:做产品要前期积累人脉,同时要把握住自己的方向,找到自己的兴趣点才能够成功;

老杨:主要谈到提高学习效率的方法:大范围交流、吸收重点、实践与反馈。

会后,一些参会者也通过新浪微博分享了他们的参会感受:

ThinkingThigh :今天参加了百度技术沙龙之后很有收获,除了自己一开始就很感兴趣的徐老师的 deep learning 之外,谷老师介绍的 neo4j 和杨老师提出的线下活动,都给了自己不少启发。

钱钤:百度技术沙龙办的很不错,@InfoQ 关注行业内最新技术资讯,@百度技术沙龙 邀请很多行业内知名专家给听众讲座并近距离交流,各位技术同仁,请大家多多关注吧~~~ 难得的沟通学习机会。

有假熊出没:人工智能对语音和图像的识别已经越来越强了,是不是可以为更广泛的人群所应用,期待中。

digiter :2012 年十月有不少大事呀,ImageNet 标志 DeepLearning 开始流行,Lucene 4 开始加入更好的打分方法,Solr 4 标志分布式全文检索时代开始。

lazycai :yukai 吐槽现在的机器学习工作者: 大家都喜欢做有趣的工作,全扎堆去做 prediction 这方面,不愿意去做前面四个很无聊的工作。但是,机器学习能否做好的关键,恰恰在前面四步。

有关百度技术沙龙的更多信息,可以通过新浪微博关注 @百度技术沙龙,或者参加百度技术沙龙微群,InfoQ 上也总结了过往31 期所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

特别提示:第35 期百度技术沙龙将在2 月2 日,在北京举行,欢迎关注 @InfoQ @百度技术沙龙获取后续的活动信息。

2013-01-15 03:112046
用户头像

发布了 89 篇内容, 共 31.0 次阅读, 收获喜欢 4 次。

关注

评论

发布
暂无评论
发现更多内容

开发实践丨昇腾CANN的推理应用开发体验

华为云开发者联盟

Python 人工智能

# 重要-即时通讯IM开源项目OpenIM关于版本管理及v2.3.0发布计划

Geek_1ef48b

JavaScript基础之值和引用

7月月更

ST 端侧人工智能之视觉检测课程

贾献华

7月月更

C 语言入门(五)

逝缘~

7月月更

灵雀云加入LF机密计算联盟,推进机密计算在云原生场景的应用

York

灵雀云 云原生 机密计算

Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?

OpenHacker

Docker

连麦直播系统软件——语音聊天系统

开源直播系统源码

软件开发 直播源码 开源源码 连麦语音直播 语音聊天直播

裴丹:AIOps 智能运维经验分享

华为云开发者联盟

云计算 后端

学习WEB前端去哪里培训比较好

小谷哥

在武汉学习web前端开发课程哪家比较好

小谷哥

Free自由协议系统Dapp开发(锁仓复利)

薇電13242772558

智能合约 dapp

自定义spring boot starter三部曲之二:实战开发

程序员欣宸

Java springboot 7月月更

冲刺!这篇1658页的《Java面试突击核心讲》学明白保底年薪30w

了不起的程序猿

Java java程序员 java面试 java编程

Optional的使用详解

echoes

自动化测试如何实施落地?

老张

软件测试 自动化测试 项目落地

在线SQL转JSON工具

入门小站

工具

分布式锁用 Redis 还是 Zookeeper?

C++后台开发

redis zookeeper 分布式 后端开发 C++后台开发

企事业单位建设知识管理的七条建议

Baklib

知识管理 企事业单位

2022年智能运维企业50强,博睿数据实力入选

博睿数据

数字化 智能运维 博睿数据 性能监测

linux远程复制文件命令小总结

入门小站

在线多行文本批量正则替换添加后缀工具

入门小站

工具

五分钟拿捏Python字典-Python3入门必备[字典详细操作]

迷彩

Python 字典 7月月更 入门教程

SaaS应用:实现企业数字化转型的最佳途径

Baklib

在上海想学web前端课程如何选择

小谷哥

web前端开发技术前景怎么样好不好

小谷哥

SAP Fiori 应用 Adapt UI 动态显示或者隐藏的技术设计细节解析

Jerry Wang

JavaScript 前端开发 web开发 SAP 7月月更

9款最佳项目组合管理工具

PingCode

项目管理 项目组合管理

SpringBoot的SpringBootApplication注解

技术小生

springboot 7月月更

大模型训练难于上青天?效率超群、易用的“李白”模型库来了

OneFlow

机器学习 gpu 模型训练

如何深入学习Html5前端技术知识

小谷哥

百度技术沙龙第34期回顾:机器学习之多媒体方向的思考(含资料下载)_百度_水羽哲_InfoQ精选文章