收录了 模态逻辑 频道下的 50 篇内容
最近在博客圈里进行的一次讨论提出了这样的问题,我们是否应该使用业务规则来动态地引导业务过程的执行。
优酷视频搜索团队设计并研发了多级多模态搜索引擎(MMS),可以提供分布式大规模多层级多模态索引能力,低延时跨模态级联检索能力,多层级检索、融合、排序能力。
随着 AI 应用进一步在国内落地,百度在大模型牌桌也占据着独特的生态位置
随着深度学习和大语言模型的发展,AI 推理正从“感知智能”迈向“认知智能”。推理能力,作为人类智能的核心特征之一,是通用人工智能(AGI)实现的关键。本篇文章将深入探讨当前AI推理的理论框架、技术突破,并以代码案例展示推理模型的实现雏形。
微博用户可以以文字、图片、视频等多媒体形式,且有自己的特点,微博博文内容形式多样,包含文字、图像和视频等媒体,且文本较短,大部分不超过140字,文本表述简洁,简称、不规范用语以及网络流行用语被广泛使用。
支持 30+ 多种语言~
本文中,来自优酷算法中心负责人王晓博将为我们解析,优酷是如何利用多模态技术,最大限度地挖掘视频信息,创造更大的价值。剪片子又快又好、还能制作鬼畜视频的AI视频剪辑师到底是如何做到的呢?让我们来一探究竟。
多模态产品的演进将是技术价值从封闭走向开放、商业逻辑从效率提升转向生态共建的过程。
如何通过多模态生成提升游戏行业的美术、设计和开发效率。
百度一个月左右连发四款大模型,这是卷王登场啊!
近年来,GPT 系列模型的演进,客观上验证了 Scaling Law 的有效性。模型参数量决定模型能力的上限。
在 InfoQ 举办的 QCon 全球软件开发大会(北京站)上,枫清科技合伙人、智能平台事业部总经理王传阳分享了“复杂场景下的 RAG 架构演进:跨模态知识联邦与统一语义推理实践”,他深入剖析了基于跨模态知识联邦与统一语义推理的 RAG 架构,并结合生产实践分享实际应用成效,以及后续技术演进方向做了系统的分享。
多模态大模型技术的最新进展如何?这一波新技术,对于行业和消费者的体验会带来哪些变化?面对一波波快速、热闹的突破和变化,技术人员该如何适应多模态 + 大模型时代?
在2020年的Gartner报告中,人机对话的位置相比2019更加靠前。
超小端侧多模态大模型实践。
每一个视频,不论长短,在拍摄时都是有故事线和逻辑结构的,以往的视频分析主要集中于视频分类打标,而对于视频的细粒度结构分析涉及较少。
大模型在面向生态对抗性问题中的解决方案
随着媒体传播形式转向多媒体为主流,在多模态内容理解AI技术开始显示出重要的作用。然而,目前AI展示的诸多能力,还停留在图像、语音等感知层面,多媒体内容理解却是多方面的叠加,相对于单一图像、语音的理解来说更加困难。在多媒体内容理解方面,快手在技术和应用层面,有不少经验值得借鉴。
了解对话式语音 AI 智能体的实现路径和经验教训。
Transformer-like逐渐成为统一的底层架构。