大厂Data+Agent 秘籍:腾讯/阿里/字节解析如何提升数据分析智能。 了解详情
写点什么

小模型时代来了?微软推出其最小参数 AI 模型,性能逼近 GPT-3.5

  • 2024-04-23
    北京
  • 本文字数:964 字

    阅读完需:约 3 分钟

大小:152.66K时长:00:52
小模型时代来了?微软推出其最小参数AI模型,性能逼近GPT-3.5

当地时间 4 月 23 日,微软宣布推出其轻量级人工智能模型 Phi-3 Mini 的下一版本,这是该公司计划发布的三个小型模型中的第一个。 


Phi-3 Mini 可测量参数仅为 38 亿,并在相对于 GPT-4 等大型语言模型更小的数据集上进行训练。现已在 Azure、Hugging Face 和 Ollama 上可使用。另外,微软还计划发布 Phi-3 Small(7B 参数)和 Phi-3 Medium(14B 参数)两个版本。


微软在去年 12 月时发布了 Phi-2,其性能与 Llama 2 等更大的型号不相上下。微软表示,Phi-3 的性能比前一版本更好,其响应速度接近比它大 10 倍的模型


微软 Azure 人工智能平台公司副总裁埃里克· 博伊德(Eric Boyd)介绍说,Phi-3 Mini 的性能与 GPT-3.5 等 LLM 不相上下,"只是外形尺寸更小而已"。


与大型人工智能模型相比,小型人工智能模型通常运行成本更低,并且在手机和笔记本电脑等个人设备上表现更好。据外媒《The Information》今年早些时候报道称,微软正在组建一个专门专注于轻量级人工智能模型的团队。与 Phi 一起,该公司还构建了 Orca-Math,一个专注于解决数学问题的模型。


微软的竞争对手也在研发自己的小模型,其中大多数针对更简单的任务,例如文档摘要或编码辅助。其中最典型的就是 Google 的 Gemma 2B 和 7B,这两款模型更适合简单的聊天机器人和语言相关的工作。


此外,Anthropic 的 Claude 3 Haiku 可以阅读带有图表的密集研究论文并快速总结它们,而 Meta 最近发布的 Llama 3 8B 可以用于一些聊天机器人和编码辅助。


Boyd 表示,开发人员通过“课程”对 Phi-3 进行了训练。他们的灵感来自于孩子们如何从睡前故事、单词更简单的书籍以及谈论更大主题的句子结构中学习。


“市面上没有足够的儿童读物,因此我们列出了 3000 多个单词的清单,并要求大语言模型制作‘儿童读物’来教授 Phi,”Boyd 说。 


他补充说,Phi-3 只是建立在之前迭代所学到的知识之上。 Phi-1 专注于编程,Phi-2 开始学习推理,而 Phi-3 更擅长编程和推理。虽然 Phi-3 系列模型能够了解一些常识,但它无法在更大范围的应用场景中击败 GPT-4 或其他大语言模型。


Boyd 表示,公司经常发现像 Phi-3 这样的较小模型更适合他们的定制应用程序,因为对于许多公司来说,他们的内部数据集规模都比较小,而这些使用较少算力的小模型更具性价比。


参考链接:


https://www.theverge.com/2024/4/23/24137534/microsoft-phi-3-launch-small-ai-language-model


2024-04-23 18:205894
用户头像
李冬梅 加V:busulishang4668

发布了 1121 篇内容, 共 739.8 次阅读, 收获喜欢 1268 次。

关注

评论

发布
暂无评论
发现更多内容

Forsage系统开发(模式分析)

系统开发咨询1357O98O718

Forsage系统开发案例介绍

北京天源迪科与重庆邮电大学移通学院成功签约

DT极客

区块链钱包系统开发方案丨多币种钱包系统开发详情

系统开发咨询1357O98O718

区块链钱包开发

三金本体挖矿模式系统开发丨三金本体平台源码设计

系统开发咨询1357O98O718

三金本体挖矿模式源码

ETH场外交易系统开发流程丨ETH场外交易开发源码案例

系统开发咨询1357O98O718

ETH场外交易系统开发

如何降低微服务测试成本?我的经验之谈

阿里巴巴中间件

产品推荐 | 还在自研?快来解锁拍乐云互动白板

拍乐云Pano

音视频 在线教育 RTC 互动白板

COMP矿池矿机系统开发案例分析

系统开发咨询1357O98O718

COMP矿池矿机系统开发介绍

《微信小程序开发入门与实践》.pdf

田维常

Gemini双子新约交易所系统软件APP开发

系统开发

架构师训练营 12 周作业

郎哲158

5分钟完成业务实时监控系统搭建,是一种什么样的体验?

阿里巴巴中间件

体验 监控

年终盘点 | 七年零故障支撑双11的消息中间件 RocketMQ,怎么做到的?

阿里巴巴中间件

消息中间件 双十一

投行工作的本质 | 读《投行职业进阶指南:从新手到合伙人》

邓瑞恒Ryan

读书笔记 投资 金融 投行 职业第二曲线

区块链应用落地,物流供应链平台搭建

t13823115967

区块链应用

vivo 全球商城:从 0 到 1 代销业务的融合之路

vivo互联网技术

架构 分布式 商城项目 商城

BMEX交易所系统软件开发|BMEX交易所APP开发

系统开发

有道逻辑英语-时态新发现笔记

Leo

学习 大前端 笔记 时态

Java并发编程:多线程并发内存模型

李尚智

Java并发

公安大数据分析系统开发,情报研判系统搭建

t13823115967

智慧公安

喜讯 | 拍乐云荣登2020「年度最具投资价值创新企业TOP20」榜单

拍乐云Pano

音视频 拍乐云

构建一张音视频全球大网究竟需要多少个节点?Pano Backbone技术探秘

拍乐云Pano

音视频 RTC 拍乐云

OKO疯矿链系统开发案例(源码)

系统开发咨询1357O98O718

OKO疯矿链系统开发

第12周总结

饭桶

TRONex波场智能合约系统开发详解丨TRONex波场链系统开发(源码)

系统开发咨询1357O98O718

系统开发 TRONex波场智能合约 APP开发

【涂鸦物联网足迹】物联网常见通信协议

IoT云工坊

物联网 HTTP 通信协议 mqtt coap

第12周作业

饭桶

深入浅出理解视频编解码技术

拍乐云Pano

音视频 RTC 拍乐云 视频编解码 视频算法

看到Mybatis源码就感到烦躁,怎么办?

田维常

mybatis

使用Angular8和百度地图api开发《旅游清单》

徐小夕

Java angular.js 大前端 angular

LeetCode题解:433. 最小基因变化,BFS,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

小模型时代来了?微软推出其最小参数AI模型,性能逼近GPT-3.5_生成式 AI_李冬梅_InfoQ精选文章