2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

小模型时代来了?微软推出其最小参数 AI 模型,性能逼近 GPT-3.5

  • 2024-04-23
    北京
  • 本文字数:964 字

    阅读完需:约 3 分钟

大小:152.66K时长:00:52
小模型时代来了?微软推出其最小参数AI模型,性能逼近GPT-3.5

当地时间 4 月 23 日,微软宣布推出其轻量级人工智能模型 Phi-3 Mini 的下一版本,这是该公司计划发布的三个小型模型中的第一个。 


Phi-3 Mini 可测量参数仅为 38 亿,并在相对于 GPT-4 等大型语言模型更小的数据集上进行训练。现已在 Azure、Hugging Face 和 Ollama 上可使用。另外,微软还计划发布 Phi-3 Small(7B 参数)和 Phi-3 Medium(14B 参数)两个版本。


微软在去年 12 月时发布了 Phi-2,其性能与 Llama 2 等更大的型号不相上下。微软表示,Phi-3 的性能比前一版本更好,其响应速度接近比它大 10 倍的模型


微软 Azure 人工智能平台公司副总裁埃里克· 博伊德(Eric Boyd)介绍说,Phi-3 Mini 的性能与 GPT-3.5 等 LLM 不相上下,"只是外形尺寸更小而已"。


与大型人工智能模型相比,小型人工智能模型通常运行成本更低,并且在手机和笔记本电脑等个人设备上表现更好。据外媒《The Information》今年早些时候报道称,微软正在组建一个专门专注于轻量级人工智能模型的团队。与 Phi 一起,该公司还构建了 Orca-Math,一个专注于解决数学问题的模型。


微软的竞争对手也在研发自己的小模型,其中大多数针对更简单的任务,例如文档摘要或编码辅助。其中最典型的就是 Google 的 Gemma 2B 和 7B,这两款模型更适合简单的聊天机器人和语言相关的工作。


此外,Anthropic 的 Claude 3 Haiku 可以阅读带有图表的密集研究论文并快速总结它们,而 Meta 最近发布的 Llama 3 8B 可以用于一些聊天机器人和编码辅助。


Boyd 表示,开发人员通过“课程”对 Phi-3 进行了训练。他们的灵感来自于孩子们如何从睡前故事、单词更简单的书籍以及谈论更大主题的句子结构中学习。


“市面上没有足够的儿童读物,因此我们列出了 3000 多个单词的清单,并要求大语言模型制作‘儿童读物’来教授 Phi,”Boyd 说。 


他补充说,Phi-3 只是建立在之前迭代所学到的知识之上。 Phi-1 专注于编程,Phi-2 开始学习推理,而 Phi-3 更擅长编程和推理。虽然 Phi-3 系列模型能够了解一些常识,但它无法在更大范围的应用场景中击败 GPT-4 或其他大语言模型。


Boyd 表示,公司经常发现像 Phi-3 这样的较小模型更适合他们的定制应用程序,因为对于许多公司来说,他们的内部数据集规模都比较小,而这些使用较少算力的小模型更具性价比。


参考链接:


https://www.theverge.com/2024/4/23/24137534/microsoft-phi-3-launch-small-ai-language-model


2024-04-23 18:206093
用户头像
李冬梅 加V:busulishang4668

发布了 1220 篇内容, 共 836.0 次阅读, 收获喜欢 1315 次。

关注

评论

发布
暂无评论
发现更多内容

Java基础03 Java的运算符,阿里巴巴java性能调优

Java 程序员 后端

java学习-数据类型和运算符,Java爬虫爬取视频

Java 程序员 后端

Java实现AES加密算法,2021最新百度、头条等公司Java面试题目

Java 程序员 后端

Java已死,有事烧纸!,java工程师面试宝典下载

Java 程序员 后端

Java大牛带你4小时开发一个SpringBoot+vue前后端分离博客项目

Java 程序员 后端

Java实现单链表、栈、队列三种数据结构,linux内核编程入门篇

Java 程序员 后端

Java岗大厂面试百日冲刺【Day42】,两年java开发面试题

Java 程序员 后端

Java并发(五),大厂程序员35岁后的职业出路在哪

Java 程序员 后端

Java实现堆及其功能,mybatis的原理实现过程

Java 程序员 后端

Java实现数据结构中的八种排序方法,深入讲解Java

Java 程序员 后端

Java岗大厂面试百日冲刺 - 日积月累,每日三题【Day2,mysql数据库教程实验二答案

Java 程序员 后端

Java市场饱和了吗?现在转行学习Java会不会太晚了?,linux操作系统基础

Java 程序员 后端

Java基础复习(DayEleven),应届生面试java开发工程师的题

Java 程序员 后端

模块三:如何保证设计出合理的架构? -- 学习总结

小鹿

Java多态实现原理,招银网络科技java面试

Java 程序员 后端

Java多线程笔记,java自学视频免费

Java 程序员 后端

Java开发两年备战金三银四:多线程+IO,zookeeper面试题总结

Java 程序员 后端

Java基础知识总结(绝对经典),java项目实战视频旅行社管理系统

Java 程序员 后端

Java学习路线图(如何快速学Java),java数据结构与算法面试题

Java 程序员 后端

Java并发包源码学习系列:LBD双端阻塞队列源码解析,linux内核架构与底层原理

Java 程序员 后端

Java应用日志如何与Jaeger的trace关联,腾讯、字节跳动面经已发

Java 程序员 后端

Java如何在运行时识别类型信息?,java发展史百度百科

Java 程序员 后端

Java实现各种内部排序算法,mysql排它锁之行锁

Java 程序员 后端

Java岗大厂面试百日冲刺【Day45】,java开发实战经典第二版pdf

Java 程序员 后端

Java并发(三),java程序设计教程雍俊海第三版答案

Java 程序员 后端

Java实现人脸检测,oppojava后端面试几面

Java 程序员 后端

Java岗大厂面试百日冲刺 - 日积月累,每日三题【Day4,kafkastreams实战

Java 程序员 后端

Java并发关键字-final,36套java架构师百度云

Java 程序员 后端

Java并发工具AbstractQueuedSynchronizer实现详解,如何保证高可用

Java 程序员 后端

Java岗大厂面试百日冲刺 - 日积月累,每日三题【Day5,docker教程学习

Java 程序员 后端

Java并发(二),redis深度笔记

Java 程序员 后端

小模型时代来了?微软推出其最小参数AI模型,性能逼近GPT-3.5_生成式 AI_李冬梅_InfoQ精选文章