
6 月 27 日 -6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+ 资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。
IDEA 研究院计算机视觉与机器人研究中心讲席科学家张磊已确认出席并将在 Keynote 主论坛发表题为 《从检测到通用感知:构建空间智能的基础》 的主题分享。视觉感知是机器和物理世界交互的基础,也是 AI 走向通用必须具备的能力。本次分享将以视觉感知中的物体检测问题为核心,分析语言原生和视觉原生模型架构的特点和区别,并介绍基于 Transformer 的物体检测算法的核心思路,包括 DETR 到 DINO 的演化和改进,及面向通用感知的开集检测技术的进展,如 Grounding DINO 和 DINO-X,探讨其在物体关键点定位、属性理解以及 3D 感知方面的扩展和延伸,为构建空间智能提供强大的技术基础,并通过实例分析和实验结果,展示这些技术在实际应用中的效果和潜力。

张磊博士现任 IDEA 研究院计算机视觉与机器人研究中心讲席科学家、IEEE Fellow,曾任微软亚洲研究院、微软总部研究院首席研究员,长期带领研究组从事计算机视觉基础研究和大规模图像分析、物体检测、视觉语言多模态理解的应用研究,其研究成果广泛用于微软必应搜索及认知服务云计算平台。他于 2021 年加入 IDEA 研究院并创立计算机视觉与机器人研究中心,在物体检测方向做出一系列研究工作,其中 DINO 算法首次奠定了 DETR 类算法在物体检测领域的 SOTA 地位,Grounding DINO 及后续的 DINO-X 等工作成为视觉领域性能最好的开集物体检测模型。他在计算机视觉等相关领域发表论 150 多篇,并拥有 60 多项美国授权专利。他在本次会议的详细演讲内容如下:
演讲提纲
视觉感知和物体理解的重要性
语言原生和视觉原生模型架构的区别
从闭集检测到开集检测的研究
从检测到通用感知的研究
从通用感知到空间智能的延伸
总结与展望
听众收益
了解现有的多模态大模型在物体理解方面的局限和可能的原因
了解构建空间智能需要的物体理解能力和相关技术
了解物体检测和通用感知方向的前沿研究进展
除此之外,大会 Keynote 还邀请了硅基流动创始人 &CEO 袁进辉、Open Infrastructure Foundation Chief Operating Officer Mark Collier 、阿里云智能集团研发副总裁丁宇(叔同),他们将在主题演讲中分享 Agent、AI 编程等领域的趋势洞察与范式革新。
本次大会还策划了 AI Agent 构建与多场景实践、多模态实践与应用、大模型助力研发的实战经验、AI 在业务运营中的深度落地、大模型时代的数据处理与分析、AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+ 资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。
现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。

评论