把握行业变革关键节点,12 月 19 日 - 20 日,AICon北京站即将重磅启幕! 了解详情
写点什么

豆包视觉理解模型正式发布:一元处理近 300 张高清图片,低于行业价格 85%

  • 2024-12-18
    北京
  • 本文字数:2207 字

    阅读完需:约 7 分钟

大小:1.15M时长:06:42
豆包视觉理解模型正式发布:一元处理近300张高清图片,低于行业价格85%

在 12 月 18 日举办的火山引擎 Force 大会上,字节跳动正式发布发布豆包视觉理解模型,不仅在数学、物理、图表、代码等更方面加强推理能力,而且千 tokens 输入价格仅为 3 厘,一元就可处理 284 张 720P 的图片,比行业价格便宜 85%。

豆包大模型全面升级

豆包视觉理解模型发布

 

研究显示,人类接受的信息超过 80%来自视觉。视觉理解将极大地拓展大模型的能力边界,同时也会降低人们与大模型交互的门槛,为大模型解锁更丰富的应用场景。

 

据火山引擎总裁谭待介绍,豆包视觉理解模型不仅能精准识别视觉内容,还具备出色的理解和推理能力,可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。此外,该模型有着细腻的视觉描述和创作能力。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      此前,豆包视觉理解模型已经接入豆包 App 和 PC 端产品。豆包战略研究负责人周昊表示:“豆包一直在努力,让用户的输入更快更方便”。为此,豆包产品非常注重多模态的输入和打磨,包括语音、视觉等能力,这些模型都已通过火山引擎开放给企业客户。


      豆包 3D 生成模型首次亮相

       

      会上,豆包 3D 生成模型也首次亮相。豆包 3D 模型采用 3D-DiT 等算法技术生成高质量的 3D 模型。

       

      veOmniverse 是火山和英伟达一起合作的数字孪生平台,该平台与豆包 3D 模型结合使用,可以高效完成智能训练、数据合成和数字资产制作,成为一套支持 AIGC 创作的物理世界仿真模拟器。

       

      下面是字节展示的 Demo,通过 veOmniverse 编辑器和文生 3D 快速搭建工厂车间场景。用户只需输入文本,即可实时生成 3D 场景和模型,满足仿真训练的多样化需求。

       

      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        字节方面表示,通过豆包 3D 模型与 veOmniverse 的结合方案,团队可以高效完成智能训练、数据合成和数字资产制作,加速虚拟与现实的深度融合。

         

        此外,其他豆包大模型多款产品也迎来重要更新。


        豆包通用模型 pro 已全面对齐 GPT-4o,使用价格仅为后者的 1/8。谭待介绍,在专业知识领域,豆包 pro 相比五月版本提升了 54%,这一效果略微领先于 GPT-4o;在综合任务处理能力上提升 32%,和 GPT-4o 持平;指令遵循提升 9%、推理能力提升 13%,在数学方面提升 43%。“可以看到,豆包 pro 已经全面对齐 GPT-4o 能力,甚至在部分复杂任务中表现更好,而且使用价格只有 GPT-4o 的八分之一。”

         


        豆包音乐模型从原来生成 60 秒的简单结构,升级到生成 3 分钟的完整作品。新的模型能够合理运用旋律、节奏、和声等信息,使全曲保持连贯性。如果对生成的歌词不满意,还能开启局部修改模式。

         

        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          文生图模型升级到 2.1 版本,该的新技能总结成一句话就是“一键 P 图,一键海报”,实现精准生成汉字和一句话 P 图的产品化能力,该模型已接入即梦 AI 和豆包 App。据介绍,豆包文生图 2.1 模型打通了 LLM 和 DIT 架构,构建了高质量文字渲染能力,可以让文字与整体画面的融合更为自然和实用。


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            大会还宣告,2025 年春季将推出具备更长视频生成能力的豆包视频生成模型 1.5 版,豆包端到端实时语音模型也将很快上线,从而解锁多角色演绎、方言转换等新能力。谭待表示,豆包大模型虽然发布较晚,但一直在快速迭代进化,目前已成为国内最全面、技术最领先的大模型之一。

             

            即梦 Dreamina 张楠认为,生成式 AI 技术可以把每个人脑子里的奇思妙想快速视觉化,“像做梦一样”。即梦希望成为“想象力世界”的相机,记录每个人的奇思妙想,帮助每个有想法的人轻松表达、自由创作。

             

            豆包日均 tokens 使用量 7 个月增长 33 倍

             

            数据显示,截至 12 月中旬,豆包通用模型的日均 tokens 使用量已超过 4 万亿,较七个月前首次发布时增长了 33 倍。大模型应用正在向各行各业加速渗透。

             

            据悉,豆包大模型已经与八成主流汽车品牌合作,并接入到多家手机、PC 等智能终端,覆盖终端设备约 3 亿台,来自智能终端的豆包大模型调用量在半年时间内增长 100 倍。

             

            与企业生产力相关的场景,豆包大模型也获得了众多企业客户青睐:最近 3 个月,豆包大模型在信息处理场景的调用量增长了 39 倍,客服与销售场景增长 16 倍,硬件终端场景增长 13 倍,AI 工具场景增长 9 倍,学习教育等场景也有大幅增长。

             

            谭待认为,豆包大模型市场份额的爆发,得益于火山引擎“更强模型、更低成本、更易落地”的发展理念,让 AI 成为每一家企业都能用得起、用得好的普惠科技。

             

            在公布豆包视觉理解模型超低定价的同时,火山引擎升级了火山方舟、扣子和 HiAgent 三款平台产品,帮助企业构建好自身的 AI 能力中心,高效开发 AI 应用。其中,火山方舟发布了大模型记忆方案,并推出 prefix cache 和 session cache API,降低延迟和成本。火山方舟还带来全域 AI 搜索,具备场景化搜索推荐一体化、企业私域信息整合等服务。

             


            云原生是过去十年最重要的计算范式,大模型时代则推动着云计算的变革。火山引擎认为,下一个十年,计算范式应该从云原生进入到 AI 云原生的新时代。

             

            基于 AI 云原生的理念,火山引擎推出了新一代计算、网络、存储和和安全产品。在计算层面,火山引擎 GPU 实例,通过 vRDMA 网络,支持大规模并行计算和 P/D 分离推理架构,显著提升训练和推理效率,降低成本;存储上,新推出的 EIC 弹性极速缓存,能够实现 GPU 直连,使大模型推理时延降低至 1/50、成本降低 20%;在安全层面,火山将推出 PCC 私密云服务,构建大模型的可信应用体系。基于 PCC,企业能够实现用户数据在云上推理的端到端加密,而且性能很好,推理时延比明文模式的差异在 5%以内。

             

            谭待说:“今年是大模型高速发展的一年。当你看到一列高速行驶的列车,最重要的事就是确保自己要登上这趟列车。通过 AI 云原生和豆包大模型家族,火山引擎希望帮助企业做好 AI 创新,驶向更美好的未来。”

            2024-12-18 14:4611115

            评论

            发布
            暂无评论
            发现更多内容

            绝了!阿里大佬的"Redis深度核心笔记",从基础到源码,全是精华

            Java你猿哥

            Java redis 面试 面经 春招

            4月飞桨国赛火热报名中!产业级赛题和免费硬件,等你来拿

            飞桨PaddlePaddle

            飞桨

            软件测试丨河南工业大学“火焰杯”软件测试开发选拔赛颁奖仪式

            测试人

            【四大分主题,九次干货分享】去哪儿网“云原生”系列分享即将开讲!!

            Qunar技术沙龙

            云原生 去哪儿网

            Redis缓存高可用集群

            京东科技开发者

            redis 云计算 redis哨兵 京东云 企业号 4 月 PK 榜

            使用 App Store Connect API v2.3 管理 App Store 新定价机制

            37手游iOS技术运营团队

            ios iap In App Purchase App Store Connect API app store

            selenium源码通读·2 | common/exceptions.py异常类

            Python 源码 测试 自动化测试 selenium

            带你揭开神秘的javascript AST面纱之AST 基础与功能

            京东科技开发者

            JavaScript 前端 AST 京东云 企业号 4 月 PK 榜

            GreatSQL社区月报 | 2023.03

            GreatSQL

            greatsql greatsql社区

            阿里P8架构师3年心血终成的453页神级Java系统分析与架构设计文档

            Java你猿哥

            Java ssm 架构师 面经 Java系统性能

            【直播回顾】数字化转型成为银行业发展的关键(上)

            易观分析

            金融 银行 经济

            微前端项目部署方案

            京东科技开发者

            微前端 京东云 企业号 4 月 PK 榜

            文本处理流程:Text Workflow 1.5.1直装版

            真大的脸盆

            文本处理 处理文本 文本管理工具

            selenium源码通读·3 | 从源码看引入webdriver包的原因

            Python 源码 测试 自动化测试 selenium

            软件测试丨ChatGPT的火爆对测试人员来说,是机遇还是挑战?

            测试人

            软件测试 ChatGPT

            首次公开!阿里巴巴内部Java 面试突击核心讲(1658 页),转载 40W+

            Java你猿哥

            Java 面试 ssm 面经 java核心知识

            从Spring的AOP看Synchronized锁失效和事务失效的情况

            Java你猿哥

            spring ssm synchronized Java工程师

            聊聊ChatGPT

            炜娓道来程序人生

            AI ChatGPT

            一个前端大佬的十年回顾 | 漫画前端的前世今生

            京东科技开发者

            JavaScript html 前端 京东云 企业号 4 月 PK 榜

            MySQL中,SQL 查询总是先执行SELECT语句吗?

            Java你猿哥

            Java MySQL sql ssm

            如何成为一名数据分析师(一)——面试准备

            Data 探险实验室

            数据分析 数据 数据可视化 数据分析师

            OpenHarmony标准系统开机时长优化

            OpenHarmony开发者

            OpenHarmony

            从0到1构建基于自身业务的前端工具库

            京东科技开发者

            前端 京东云 企业号 4 月 PK 榜

            期盼已久的“库权限”来了

            NineData

            数据库 安全 数据 开发 权限管理

            你知道什么是“XY Problem”吗?-【避坑指南】

            炜娓道来程序人生

            架构 职场 沟通 工作哲学 思维

            科学的演变:从笛卡尔到生成式人工智能

            Baihai IDP

            人工智能 AIGC 企业号 4 月 PK 榜

            玩转Github:三分钟教你如何用 Github 快速找到优秀的开源项目

            Java你猿哥

            Java GitHub 开源 源码 ssm

            开源7天Github斩获4.5万Stars!阿里2023版高并发设计实录鲨疯了

            Java你猿哥

            Java 面试 高并发 面经 春招

            Apache IoTDB v1.1.0 发布|增加多种分段方式与实用函数,引入 pipeline 执行引擎进一步提升查询速度

            Apache IoTDB

            极光笔记 | 如何在Shopify中使用EngageLab (下)

            极光GPTBots-极光推送

            市场营销 用户运营

            豆包视觉理解模型正式发布:一元处理近300张高清图片,低于行业价格85%_AI&大模型_褚杏娟_InfoQ精选文章