写点什么

钉钉 AI 震撼升级:加入多模态、工作流等能力

  • 2024-03-28
    北京
  • 本文字数:1724 字

    阅读完需:约 6 分钟

钉钉AI震撼升级:加入多模态、工作流等能力

3 月 28 日,钉钉 AI 助理重磅升级,上线图片理解、文档速读、工作流等产品能力,率先探索多模态、长文本与 RPA 技术在 AI 应用的落地。


基于阿里通义千问大模型,升级后的钉钉 AI 助理拥有更强的视觉推理能力和长文本速读能力。目前,用户在钉钉 IM 消息框或点击魔法棒按钮进入 AI 助理对话框,发送长文件、在线文档、网页链接、视频内容,即可根据内容识人、识地点、分析、答题、翻译、摘要、提取文字,甚至可以通过多轮交互进一步做智能问答。


钉钉 AI 已支持图像理解、视频速读,化身全能“小百科”


LLM(大语言模型)之后,大模型领域迎来了新的爆点“多模态”,为 AI 应用带来了更大的想象力。


基于通义千问 Qwen-VL-Max 视觉理解模型,钉钉 AI 助理能够准确描述和识别图片信息,并根据图片进行信息推理、扩展创作、文字提取、翻译等,相当于一个全能的“图片小百科”。




不管图片展示的是某件物体、某个人物、风景,还是菜谱、社交梗图、数学题和衣服标签,AI 助理都能一秒识别图片内容,并在此基础上进行多轮对话问答。比如,旅游时看到一个很美的建筑,拍照发给钉钉 AI 助理,就能迅速了解它的历史背景和相关故事。


利用这一能力,用户还可以实现识图翻译或提取图片中的文字,让信息获取更加便捷。比如,不知道某件衣服的洗涤方式,把衣服标签拍个照发给钉钉 AI 助理,就可以翻译上面的英文。


通义千问 Qwen-VL-Max 拥有更强的视觉推理和中文理解能力,整体性能堪比 GPT-4V 和 Gemini Ultra。在 MMMU、MathVista 等测评中远超业界所有开源模型,在文档分析(DocVQA)、中文图像相关(MM-Bench-CN)等任务上超越 GPT-4V,达到世界最佳水平。




此外,AI 助理也支持视频内容的速读。发送给 AI 助理的短视频、直播切片或培训视频可以被快速“观看”, AI 助理会根据视频内容生成字幕,提取关键词,并生成一份智能摘要,对于最高 2GB 的视频内容,仅需 3 分钟即可完成智能解读。


“文档速读”能力升级,从冗长信息中解放生产力


利用大模型技术从文本中检索、总结信息,可以说是每个人日常生活、工作、学习的需求场景。


基于通义千问大模型,钉钉 AI 助理可以快速阅读本地文件如 Word、PDF、PPT、Excel 等、钉钉文档、网页链接等多种格式文件,轻松解析各类学术论文、产品手册、使用教程、数据表格、新闻报道、多国语言的图书等。




比如,临时需要分析一个业务数据时,上传相关的 Excel 表格,AI 助理就可以直接给出数据结论;企业复杂的产品手册发送给 AI 助理后,可以快速总结和智能问答,大幅提升信息效率。


值得一提的是,钉钉 AI 助理对长文本的处理能力已支持单次阅读 500 页的文件,可以为法律、医学、金融等专业领域提供更全面、准确的信息服务。


比如,有研究者将一份《大模型与自动驾驶如何结合研究报告》的长论文发送后,AI 助理在几秒内就快速总结了相应的内容,并给出了这一研究具体是什么、研究的技术创新点、研究方法等诸多论文的关键要素。用户还可以进一步追问某个知识点的具体来源或相关信息,从阅览文档、反复检索的冗长工作中彻底解放。


AI 助理上线“工作流”, AI 也能干复杂的活了


随着 OpenAI 带火 Agent(智能体),大模型融入自动化技术成为当前最具共识的方向之一。


今年 1 月,钉钉 AI 助理正式上线,企业和个人 AI 助理已进入到工作和生产力场景中。为让 AI 助理可以完成一系列更复杂的任务,钉钉 AI 助理上线了工作流能力。


工作流是 AI Agent 的一种进阶玩法,不仅可以在创建时对 AI 执行任务的流程进行拆解和编排,使得 AI 助理可以主动接管完成相应操作,还能够打通外部的系统数据和 API 能力,进一步扩展了它的行动能力,比如搭建能自动写脚本并生成视频的创作 AI 助理。




为降低用户的使用门槛,钉钉官方还提供了多种工作流模板。已有企业使用工作流创建了门店信息收集助理,将用户反馈自动化整理,并存储到一张钉钉多维表中,帮助员工节约琐碎的时间;个人用户也通过连接微博 API,创建了自动追踪热点并撰写文章的助理,一个指令就能批量执行,大幅提升内容生产的效率。


目前,用户可在钉钉 APP 或 PC 客户端直接使用 AI 助理的各项功能,包括多模态、长文本和工作流,体验 AI 带来的便捷与高效。


关于以上内容的更多信息,钉钉 CTO 程操红将在 4 月 11 日 QCon 全球软件开发大会上进行更深度地讲解,敬请关注!



2024-03-28 12:266049
用户头像
鲁冬雪 GMI Cloud China Marketing Manager

发布了 364 篇内容, 共 280.7 次阅读, 收获喜欢 298 次。

关注

评论

发布
暂无评论
发现更多内容

华为云游戏云端部署方案:如何为游戏厂商降本增效

平平无奇爱好科技

🔥年中技术盘点暨7月主题征文活动开始啦!

InfoQ写作社区官方

热门活动 年中技术盘点

2023年CCF-百度松果基金课题申报持续进行中,截至7月24日

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 百度飞桨

Python案例分析|井字棋(Tic Tac Toe)游戏 | 社区征文

TiAmo

Python 年中技术盘点 井字棋游戏

11个适合后端程序员的前端框架

高端章鱼哥

程序员 工具 后端

休闲类匹配竞技游戏公司为何需要华为云游戏云端部署方案?

平平无奇爱好科技

不能不知道的LED显示屏产业机遇

Dylan

机遇 产业 LED显示屏 led显示屏厂家

图+AI 生成未来|悦数图数据库亮相 2023 世界人工智能大会

悦数图数据库

AI 图数据库 大模型 AIGC

华为云云上云下一体化安全,如何为企业打造统一、高效的安全管理平台

平平无奇爱好科技

软件测试/测试开发丨Selenium的常用元素定位方法

测试人

Python 软件测试 自动化测试 测试开发 selenium

货拉拉论文入选中国市场营销国际学术年会CMIC

科技热闻

利用小程序技术,构建数字警务体系

没有用户名丶

聆心智能上榜“北京市通用人工智能大模型行业应用典型场景案例”

硬科技星球

华为云CodeArts IDE Online:让你随时随地畅享云端编码乐趣

华为云PaaS服务小智

云计算 软件开发 华为云 华为开发者大会2023

在 7 月 4 日,PoseiSwap 治理通证 $POSE 上线了 BNB Chain 上的头部

鳄鱼视界

研发质量指标大 PK:MTTR vs MTBF,谁是靠谱王?

LigaAI

高可用性 研发效能度量 MTTR 研发效能管理 企业号 7 月 PK 榜

爽游做得好,游戏部署方案必不可少,华为云游戏云端部署方案愈发吃香了

平平无奇爱好科技

华为云函数工作流FunctionGraph新手操作指南

华为云PaaS服务小智

云计算 Serverless 华为云 华为开发者大会2023

火山引擎DataLeap数据质量解决方案和最佳实践(三):最佳实践

字节跳动数据平台

推荐书单:个人成长的一些方法

老张

个人成长 书单

MatrixOne 0.8.0 开放公测啦!

MatrixOrigin

云原生 超融合 #数据库 MatrixOne

​山东大学高校专区入驻飞桨AI Studio,优质教育资源等你来学!

飞桨PaddlePaddle

人工智能 百度 paddle 百度飞桨

语音直播源码知识分享:探索新的沟通方式

山东布谷科技

软件开发 语音 源码搭建 直播源码 语音直播源码

prometheus描点原理

蓝胖子的编程梦

Docker 云原生 Grafana Prometheus #k8s

PoseiSwap 治理通证POSE登录PancakeSwap,开盘涨幅超2100%

西柚子

HDC开发者盛典 | 破解创业老板高效制果汁奥秘挑战!赢取代金券、按摩枕、收纳袋等礼品~

华为云PaaS服务小智

云计算 软件开发 华为云 华为开发者大会2023

云上办公时代,华为云桌面表现如何?

平平无奇爱好科技

MySQL的match函数在sp中使用的BUG解析

GreatSQL

数据库 greatsql

认知负担的挑战与平台工程的机遇

SEAL安全

DevOps 平台工程 认知负担

关于Java已死,看看国外开发者怎么说的

越长大越悲伤

Java 后端

钉钉AI震撼升级:加入多模态、工作流等能力_AI&大模型_钉钉_InfoQ精选文章