写点什么

中文大模型竞争从普通话扩展到方言了?电信、商汤先后出招 | 大模型一周大事

  • 2024-06-04
    北京
  • 本文字数:4656 字

    阅读完需:约 15 分钟

中文大模型竞争从普通话扩展到方言了?电信、商汤先后出招 | 大模型一周大事

大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

上周,大模型领域聚焦于方言技术,两大突破性进展备受瞩目。商汤科技推出了商量(SenseChat)粤语版大模型,这不仅代表了人工智能在方言领域的深入探索,也体现了对地区语言文化的重视。商汤宣布,将于 7 月 1 日向粤语用户开放粤语版网页及 APP,并承诺永久免费,这无疑将极大地方便粤语用户的日常交流和使用。

其次,中国电信人工智能研究院发布了星辰超多方言语音识别大模型,作为业内首个支持 30 种方言自由混说的模型,它打破了传统模型的局限,能够同时识别和理解包括粤语、上海话、四川话、温州话等在内的多种方言。这一创新为方言的语音识别领域树立了新的标杆。这些创新的推出,不仅推动了大模型技术在方言识别和处理方面的进步,也为地区文化的传承与保护提供了坚实的技术基础。

二、具体内容

大模型持续更新

开源领域

  1. 5 月 28 日,浪潮信息发布「源 2.0-M32」(MOE)开源大模型。“源 2.0-M32”在基于“源 2.0”系列大模型已有工作基础上,创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含 32 个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为 37 亿。

  2. 5 月 28 日,北京大学和 Colossal-AI 团队共同推出新一代开源视频生成模型「 Open-Sora-Plan v1.1」,它在视频生成的质量和时长方面有了显著提升,能够生成最长约为 21 秒的视频,并优化了 Causal Video VAE 架构以提高性能和推理效率,并展示了包括文生视频和视频编辑在内的多种功能。此外,Open-Sora-Plan v1.1.0 也已经支持使用国产 AI 计算系统(如华为昇腾)进行完整的训练和推理。

  3. 5 月 29 日,法国 AI 初创公司 Mistral AI 发布编程大模型 Codestral,支持 80 多种编程语言,包括 Python、Java、C、C++,JavaScript、Bash、Swift 等。

  4. 5 月 30 日,涂鸦智能在 2024 TUYA 全球开发者大会上,发布其首个 AI 大模型 Cube Al 以及三款 AI 开发工具(AI 开发者平台、AI 分析师工具、AI 应用终端)、AI 小程序开发底座。 Cube Al 凭借涂鸦生态的设备和开源大模型能力,可以为智慧场景提供 AI 技术价值,能实时分析能源消耗并生成最优节能策略,助力实现工业、商业及家庭的智慧节能。

多模态领域

  1. 5 月 25 日,中国电信人工智能研究院发布业内首个支持 30 种方言自由混说的语音识别大模型——星辰超多方言语音识别大模型,打破单一模型只能识别特定单一方言的困境,可同时识别理解粤语、上海话、四川话、温州话等 30 多种方言,是国内支持最多方言的语音识别大模型。

  2. 5 月 25 日,广联达在 2024 年中国数字建筑大会上发布了建筑行业 AI 大模型 AecGPT ,该模型基于海量行业数据和先进 AI 技术,拥有卓越的建筑行业分析能力,能广泛应用于建筑全生命周期的各个阶段,提升工作效率,为建筑行业数字化发展提供强大支持。

  3. 5 月 27 日,一款多语言手语模型 SignLLM 发布。该产品的主要功能在于通过文字描述生成手语视频,能够支持包括美国手语(ASL)、德国手语(GSL)在内的八种不同手语。SignLLM 的引入不仅为听力障碍者提供了一种新的沟通方式,使他们能够更直观地理解和表达信息,同时也推动了人工智能在语言理解和生成领域的研究。

  4. 5 月 29 日,基于 5.0 大模型,商汤科技推出了商量(SenseChat)粤语版大模型并正式对外。商汤在同日宣布旗下应用产品商量粤语版网页及 APP 将于 7 月 1 日向粤语用户开放并永久免费。商量粤语 API(应用程序编程接口)现已开放,最大支持 128K 窗口,根据模型输入和输出量计费,每 100 万 tokens 收费 30 港元。

  5. 5 月 29 日,一款开源的文本到语音(TTS)模型 ChatTTS 正式发布,该产品专为对话场景设计,主要功能包括将输入的文本转换为自然流畅的语音,支持中文和英文,并具备预测和控制细粒度韵律特征的能力,如笑声、停顿等。

  6. 5 月 29 日,一款全新的开源视觉大语言模型 Llama3-V 发布。该模型具备跨模态任务处理能力,能融合视觉与文本信息,实现高效执行。同时,Llama3-V 开源了所有相关资源,为开发者提供了创新空间。

  7. 5 月 30 日,快手自研文生图大模型「可图」已于近日正式对外开放。其目前支持文生图和图生图两类功能,可用于 AI 创作图像以及 AI 形象定制。用户可通过“可图”微信小程序和网页版使用,这也是快手首次将其自研的系列大模型对外开放。

应用探索

新产品新应用/功能

  1. 5 月 25 日,强大的 AI 音乐生成工具 Suno 3.5 发布。相较于 3.0 版本,此次发布的 3.5 版本支持长达 4 分钟的完整曲目创作,并具备智能优化音乐结构、个性化定制以及从声音到声音的转换能力。此外,它还特别为快节奏制作环境设计了快速生成短曲目的功能,是音乐创作者的得力助手。

  2. 5 月 27 日,Stability AI 推出一款功能全面的聊天机器人 Stable Assistant ,它融合了强大的文本和图像生成技术,如 Stable Diffusion3 和 Stable LM2 12B,能够根据用户的提示和需求生成高质量的图像和视频内容,为用户提供了从文字到图像、视频的全方位创作体验。同时,它还提供了灵活的订阅计划和便捷的服务,让用户能够根据自己的需求随时选择使用。

  3. 5 月 27 日,小度科技全新发布小度学习机 Z30,凭借其基于文心大模型的强大能力,不仅为孩子提供全面、有效的学习辅导,更是一位能够引导孩子学习的智能伙伴。同时,其护眼设计和高性能配置更是保证了孩子的健康与学习的顺畅进行,树立了学习机行业的新标杆。

  4. 5 月 28 日,衔远科技推出 MODI 摹小仙 AI 营销大脑,这是一款一站式的 AI Native 营销自动化底座模型,它结合通专融合技术,在营销洞察、创意策划、内容生产和营销转化方面展现出显著优势,适用于多种营销场景,为企业提供全链路营销智能创作,助力品牌企业实现高效、精准的营销效果。

  5. 5 月 29 日,优编程携手悉之智能发布了全球首个信息学编程教学 AI 模型——优香农大模型。该模型利用先进的大语言模型和多模态交互技术,旨在通过 AI 自动生成高质量教学内容、提供个性化学习指导和实时互动反馈,从而革新传统教育模式,有效解决信息学编程教育中的师资短缺、教学负担重等问题,推动 AI 技术在教育领域的应用和发展。

  6. 5 月 30 日,腾讯公司推出基于混元大模型的 AI 助手 App 腾讯元宝。该应用集成了 AI 搜索、AI 总结、AI 写作等强大功能,旨在通过先进的 AI 技术,为用户提供高效的工作效率和丰富多彩的日常生活体验。在用户体验方面提供了如口语陪练、创建个人智能体等特色功能,此外,腾讯元宝还具备处理复杂信息的能力,如一次性深度解析多个微信公众号链接、网址以及多种格式的文档,使得处理信息更为高效便捷。

  7. 5 月 30 日,百度文库在苏州的移动生态万象大会上宣布推出 AI 原生应用「橙篇」,这帮助用户实现对“超大量、超多格式、超长内容”的文件进行快速理解、总结与问答以及长文本的生成、深度编辑等自由创作。据百度文库透露,百度文库 AI 功能使用次数已超过 15 亿。

  8. 5 月 30 日,Topaz Labs 推出了新的 udio-130 音乐生成模型。该模型可生成长达两分钟的音频,为音乐创作提供了长期连贯性和结构性的支持。同时,新增了随机种子设置、剪辑开始时间控制等功能,让用户能更精准地定制和剪辑音轨。

智能体

  1. 5 月 25 日,在第七届数字中国建设峰会上,蚂蚁集团正式开源多智能体框架 agentUniverse,这是行业首个开源的金融领域多智能体技术框架,该框架核心提供了多智能体协作编排组件,允许开发者对多智能体协作模式进行开发定制,可帮助开发者加快大模型技术在金融场景的落地研发。

  2. 5 月 28 日,若愚科技推出精心开发的若愚·九天机器人大脑,其在无人厨房领域展现出卓越性能。这款大脑借助多模态大模型驱动的群体智能技术,实现了机器人间的高效协同与任务的自主规划与执行,不仅具备强大的泛化能力,还能精准执行复杂动作,为无人厨房带来了前所未有的智能化、高效化操作体验。

终端 AI

  1. 5 月 30 日,吉利汽车正式发布了联合星纪魅族共同打造的「银河 Flyme Auto」智能座舱系统。同时,吉利还联合 Flyme Sound Inside 发布了行业首个 AI 智能音响系统 ——“Flyme Sound 无界之声”。据悉,银河 Flyme Auto 与 Flyme Sound 都将在吉利银河全新产品上应用搭载,并根据不同车型需求作针对性开发定制。

其他

  1. 5 月 27 日,埃隆·马斯克旗下的人工智能初创公司 xAI 在其官方博客中宣布获得 60 亿美元 B 轮融资。马斯克在 X 平台上称,公司此轮融资投前估值已达 180 亿美元。此次融资由多家知名投资机构参与,如 Valor Equity Partners、Vy Capital 和 Andreessen Horowitz 等。这笔资金将用于推动其首批产品上市、构建先进的基础设施,并加速未来技术的研发。

  2. 5 月 28 日,AIGC 科技企业 爱设计 宣布完成 B1 轮融资。本轮融资由 A 股上市公司视觉中国领投,星连资本和 36 氪跟投,这是爱设计在短短 4 年内获得的第四轮融资。此次融资资金将主要用于人工智能技术、内容版权供应体系、国内外用户增长和核心人才的引入等方面。

  3. 5 月 29 日,中央网信办、市场监管总局、工业和信息化部近日联合印发《信息化标准建设行动计划(2024—2027 年)》。计划提出要完善人工智能标准,强化通用性、基础性、伦理、安全、隐私等标准研制。加快推进大模型、生成式人工智能标准研制。

  4. 5 月 29 日,联想集团宣布已获得沙特公司 Alat 的 20 亿美元战略投资。此次投资将加速联想在中东和非洲市场的扩张,推动其全球业务增长,同时也有助于联想增强财务实力,进一步巩固其作为全球领先的科技公司的地位。

  5. 5 月 29 日,OpenAI 宣布成立安全与安保委员会。这是 OpenAI 在近期面临了一系列的人事变动后做出的调整,这一系列人事变动包括联合创始人兼首席科学家 Ilya Sutskever 的离职以及“超级对齐”团队的解散。这一新成立的委员会将加强公司在 AI 技术开发与应用中的安全性和道德责任,由公司内部的关键成员领导,并计划引入外部专家提供咨询和支持。


报告推荐

Sora 来袭,国内发展文生视频模型的土壤如何?各公司用脚投票开闭源路线的当下,开源在大模型市场进程中的价值正在被重新定义吗?人型机器人重回视野,大模型是否助力其刷新能力上限?Devin 和智能编码助手是同一条赛道上的不同节点?多家企业宣布 All in AI,对市场意味着什么?答案尽在 InfoQ 研究中心近期发布的《2024 年第 1 季度大模型监测报告》,关注「AI 前线」公众号,回复「季度报告」免费下载,一睹为快吧~



报告预告

金融行业是否找到了 AGI 应用的最佳路径?取得了哪些具体应用成果? 又存在哪些难以逾越的挑战与桎梏?金融机构一定要做 AGI 建设吗?如何考量金融 AGI 应用产品的效果?欢迎大家持续关注 InfoQ 研究中心即将发布的《AGI 在金融领域的应用实践洞察》



活动推荐

本届 ArchSummit 会议上,重点聚焦 AI 大模型技术在各行业的落地实践, 顺丰集团、众安银行、天弘基金、鸿海科技集团、宁德核电、广发证券、微众银行介绍大模型技术的应用效果 。会议上还设置了大模型应用、架构升级、智算平台、AI 编程、成本优化等专题和话题内容。如您感兴趣,可点击「阅读原文」查看更多详情。购买票数越多,享受的优惠也就越丰厚,可以联系票务经理 17310043226 , 锁定最新优惠。



2024-06-04 12:145067

评论

发布
暂无评论
发现更多内容

leetcode 46. Permutations 全排列(中等)

okokabcd

LeetCode 搜索 数据结构与算法

C#入门系列(四) -- 常量和变量

陈言必行

C# 6月月更

数据库每日一题---第1天:超过经理收入的员工

知心宝贝

数据库 算法 前端 后端 6月月更

在线HTML转JADE工具

入门小站

工具

Fabric.js 缩放画布 🍬

德育处主任

canvas Fabric.js 6月月更

Flink 源码:广播流状态源码解析

JasonLee实时计算

flink 源码

阻塞队列实现原理

急需上岸的小谢

6月月更

Vue框架学习笔记 每天学习----五

恒山其若陋兮

6月月更

如何利用 Django 进行API 开发

宇宙之一粟

django API 6月月更

sap.ui.core.IAsyncContentCreation 这个标记接口在 SAP UI5 框架中的应用

汪子熙

前端开发 前端框架 Fiori SAP UI5 6月月更

【愚公系列】2022年06月 二十三种设计模式(二十一)-策略模式(Stragety Pattern)

愚公搬代码

6月月更

在线人民币数字金额转成美元金额大写工具

入门小站

工具

Git 如何从特定的提交中创建一个新的分支

HoneyMoose

日本动画发展史简述——动画及日本动画起源

头顶胖次

6月月更

React Native 资源更新增量包的优化实践

Shopee技术团队

前端 React Native

聊聊 Sharding-Jdbc 使用原理之分库分表下的分页方案

Nick

MySQL 分库分表 中间件 ShardingJDBC 6月月更

每日一题 | LeetCode 454 四数相加Ⅱ

武师叔

哈希表 Leet Code 6月月更

vue-cli3项目目录结构介绍

小恺

6月月更

架构实战营 - 模块七 - 作业

michael

#架构实战营 「架构实战营」

【高并发】高并发环境下如何优化Tomcat性能?看完我懂了!

冰河

并发编程 多线程 高并发 异步编程 6月月更

linux之yum下载rpm包离线安装

入门小站

Linux

【Spring 学习笔记(二)】Spring Bean 配置方式 与Spring Bean实例化

倔强的牛角

6月月更

centos系统下php完全离线安装

乌龟哥哥

6月月更

Web Service进阶(二)如何用Apache TCPMon来截获SOAP消息

No Silver Bullet

6月月更 Apache TCPMon

通过知识图谱看端午节

清林情报分析师

数据分析 数据可视化 端午节 数据分析师 知识图谱

【Python共建】Python 列表推导式

梦想橡皮擦

6月月更

RTP与RTCP协议简述

穿过生命散发芬芳

rtp/rtcp 6月月更

5款 React 实时消息提示通知(Message/Notification)组件推荐与测评

蒋川

JavaScript 低代码 React 组件 消息提示通知

ES6集合引用类型Map与WeakMap

大熊G

JavaScript 前端 6月月更

JS原型、原型链深入理解

源字节1号

前端开发 后端开发

实战Redis序列化性能测试(Kryo和字符串)

程序员欣宸

Java redis 序列化 6月月更

中文大模型竞争从普通话扩展到方言了?电信、商汤先后出招 | 大模型一周大事_AI&大模型_InfoQ研究中心_InfoQ精选文章