大咖直播-鸿蒙原生开发与智能提效实战!>>> 了解详情
写点什么

小模型时代来了?微软推出其最小参数 AI 模型,性能逼近 GPT-3.5

  • 2024-04-23
    北京
  • 本文字数:964 字

    阅读完需:约 3 分钟

大小:152.66K时长:00:52
小模型时代来了?微软推出其最小参数AI模型,性能逼近GPT-3.5

当地时间 4 月 23 日,微软宣布推出其轻量级人工智能模型 Phi-3 Mini 的下一版本,这是该公司计划发布的三个小型模型中的第一个。 


Phi-3 Mini 可测量参数仅为 38 亿,并在相对于 GPT-4 等大型语言模型更小的数据集上进行训练。现已在 Azure、Hugging Face 和 Ollama 上可使用。另外,微软还计划发布 Phi-3 Small(7B 参数)和 Phi-3 Medium(14B 参数)两个版本。


微软在去年 12 月时发布了 Phi-2,其性能与 Llama 2 等更大的型号不相上下。微软表示,Phi-3 的性能比前一版本更好,其响应速度接近比它大 10 倍的模型


微软 Azure 人工智能平台公司副总裁埃里克· 博伊德(Eric Boyd)介绍说,Phi-3 Mini 的性能与 GPT-3.5 等 LLM 不相上下,"只是外形尺寸更小而已"。


与大型人工智能模型相比,小型人工智能模型通常运行成本更低,并且在手机和笔记本电脑等个人设备上表现更好。据外媒《The Information》今年早些时候报道称,微软正在组建一个专门专注于轻量级人工智能模型的团队。与 Phi 一起,该公司还构建了 Orca-Math,一个专注于解决数学问题的模型。


微软的竞争对手也在研发自己的小模型,其中大多数针对更简单的任务,例如文档摘要或编码辅助。其中最典型的就是 Google 的 Gemma 2B 和 7B,这两款模型更适合简单的聊天机器人和语言相关的工作。


此外,Anthropic 的 Claude 3 Haiku 可以阅读带有图表的密集研究论文并快速总结它们,而 Meta 最近发布的 Llama 3 8B 可以用于一些聊天机器人和编码辅助。


Boyd 表示,开发人员通过“课程”对 Phi-3 进行了训练。他们的灵感来自于孩子们如何从睡前故事、单词更简单的书籍以及谈论更大主题的句子结构中学习。


“市面上没有足够的儿童读物,因此我们列出了 3000 多个单词的清单,并要求大语言模型制作‘儿童读物’来教授 Phi,”Boyd 说。 


他补充说,Phi-3 只是建立在之前迭代所学到的知识之上。 Phi-1 专注于编程,Phi-2 开始学习推理,而 Phi-3 更擅长编程和推理。虽然 Phi-3 系列模型能够了解一些常识,但它无法在更大范围的应用场景中击败 GPT-4 或其他大语言模型。


Boyd 表示,公司经常发现像 Phi-3 这样的较小模型更适合他们的定制应用程序,因为对于许多公司来说,他们的内部数据集规模都比较小,而这些使用较少算力的小模型更具性价比。


参考链接:


https://www.theverge.com/2024/4/23/24137534/microsoft-phi-3-launch-small-ai-language-model


2024-04-23 18:206065
用户头像
李冬梅 加V:busulishang4668

发布了 1202 篇内容, 共 826.0 次阅读, 收获喜欢 1312 次。

关注

评论

发布
暂无评论
发现更多内容

亚信科技研发智能化实践之路

阿里云云效

阿里云 云原生 通义灵码

苹果鼠标有望加入 AI 语音控制功能;Accent Oracl :准确识别你口音的 AI 丨 RTE 开发者日报

声网

云服务器Flexus X实例|Ubuntu+docker部署.NET项目

YG科技

深入解析华为云X实例保障云上业务安全的关键策略

YG科技

《计算机组成及汇编语言原理》阅读笔记:p177-p177

codists

计算机组成及汇编语言原理

基于Flexus云服务器X实例的应用场景-拥有一款自己的ssl监控工具

YG科技

华为云Flexus云服务器X实例之openEuler系统下部署emlog轻量级博客平台

YG科技

FORCE 大会开发者论坛演讲实录|吴一帆:边缘智能在 Agent 上的探索与实践

火山引擎边缘云

智能IoT边缘服务 AI 大底座 大模型、 边缘智能

2024年12月文章一览

codists

文章一览

2025加密风云:行业变革与未来趋势全景透视

chainwiseweb3

加密货币 crypto dapp开发 区块链开发DAPP开发 链游开发公链开发

阿里拿38K出来的大佬良心分享,熬夜整理10 万字详细Java面试笔记!

Summer

Java 程序员 面试 架构师 大厂

LeetCode题解:2625. 扁平化嵌套数组,递归

Lee Chen

华为云Flexus X实例docker部署ERPnext构建属于自己的企业资源规划系统

YG科技

亚信科技研发智能化实践之路

阿里巴巴云原生

阿里云 云原生

天润融通工单系统:一键催单功能提升客户满意度

天润融通

Elasticsearch VS Easysearch 性能测试

极限实验室

elasticsearch ES easysearch

华为Flexus云服务器快速上手实例安装“运维搭子“

YG科技

华为云Flexus X实例docker部署Rocket.Chat构建属于自己的团队通讯协作平台

YG科技

docker 部署kafka及ui搭建

YG科技

EulerOS+Nginx+MySQL部署GLPI资产管理系统

YG科技

全面指南:使用华为云Flexus X部署私人图床

YG科技

Java面试突击手册,一周刷完这300道面试题,你也可以当架构师!

Summer

Java 程序员 面试 架构师 大厂

华为Flexus云服务器X实例实测-零信任访问方案Next Terminal

YG科技

工欲善其事必先利其器:华为云Flexus X实例 一键部署宝塔面板

YG科技

华为云Flexus X实例:一键助力中小企业,快速部署个性化网站!

YG科技

华为云Flexus X实例评测使用体验——Anaconda环境安装

YG科技

华为云Flexus云服务器X实例部署Trilium Notes知识库工具

YG科技

华为云Flexus云服务器X实例之openEuler系统下部署WordPress网站

YG科技

利用华为云Flexus X实例解决家里公网80和443端口不开放问题

YG科技

云服务器Flexus X实例,镜像切换与服务器压力测试

YG科技

使用Flexus云服务器X实例部署Kubernetes图形化管理平台

YG科技

小模型时代来了?微软推出其最小参数AI模型,性能逼近GPT-3.5_生成式 AI_李冬梅_InfoQ精选文章