50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

小模型时代来了?微软推出其最小参数 AI 模型,性能逼近 GPT-3.5

  • 2024-04-23
    北京
  • 本文字数:964 字

    阅读完需:约 3 分钟

大小:152.66K时长:00:52
小模型时代来了?微软推出其最小参数AI模型,性能逼近GPT-3.5

当地时间 4 月 23 日,微软宣布推出其轻量级人工智能模型 Phi-3 Mini 的下一版本,这是该公司计划发布的三个小型模型中的第一个。 


Phi-3 Mini 可测量参数仅为 38 亿,并在相对于 GPT-4 等大型语言模型更小的数据集上进行训练。现已在 Azure、Hugging Face 和 Ollama 上可使用。另外,微软还计划发布 Phi-3 Small(7B 参数)和 Phi-3 Medium(14B 参数)两个版本。


微软在去年 12 月时发布了 Phi-2,其性能与 Llama 2 等更大的型号不相上下。微软表示,Phi-3 的性能比前一版本更好,其响应速度接近比它大 10 倍的模型


微软 Azure 人工智能平台公司副总裁埃里克· 博伊德(Eric Boyd)介绍说,Phi-3 Mini 的性能与 GPT-3.5 等 LLM 不相上下,"只是外形尺寸更小而已"。


与大型人工智能模型相比,小型人工智能模型通常运行成本更低,并且在手机和笔记本电脑等个人设备上表现更好。据外媒《The Information》今年早些时候报道称,微软正在组建一个专门专注于轻量级人工智能模型的团队。与 Phi 一起,该公司还构建了 Orca-Math,一个专注于解决数学问题的模型。


微软的竞争对手也在研发自己的小模型,其中大多数针对更简单的任务,例如文档摘要或编码辅助。其中最典型的就是 Google 的 Gemma 2B 和 7B,这两款模型更适合简单的聊天机器人和语言相关的工作。


此外,Anthropic 的 Claude 3 Haiku 可以阅读带有图表的密集研究论文并快速总结它们,而 Meta 最近发布的 Llama 3 8B 可以用于一些聊天机器人和编码辅助。


Boyd 表示,开发人员通过“课程”对 Phi-3 进行了训练。他们的灵感来自于孩子们如何从睡前故事、单词更简单的书籍以及谈论更大主题的句子结构中学习。


“市面上没有足够的儿童读物,因此我们列出了 3000 多个单词的清单,并要求大语言模型制作‘儿童读物’来教授 Phi,”Boyd 说。 


他补充说,Phi-3 只是建立在之前迭代所学到的知识之上。 Phi-1 专注于编程,Phi-2 开始学习推理,而 Phi-3 更擅长编程和推理。虽然 Phi-3 系列模型能够了解一些常识,但它无法在更大范围的应用场景中击败 GPT-4 或其他大语言模型。


Boyd 表示,公司经常发现像 Phi-3 这样的较小模型更适合他们的定制应用程序,因为对于许多公司来说,他们的内部数据集规模都比较小,而这些使用较少算力的小模型更具性价比。


参考链接:


https://www.theverge.com/2024/4/23/24137534/microsoft-phi-3-launch-small-ai-language-model


2024-04-23 18:206056
用户头像
李冬梅 加V:busulishang4668

发布了 1196 篇内容, 共 820.3 次阅读, 收获喜欢 1307 次。

关注

评论

发布
暂无评论
发现更多内容

【Spring 持久层】Spring 与 Mybatis 整合,spring教程极客学院

Java 程序员 后端

【SpringMVC 笔记】Json 交互处理,顺丰java社招面试

Java 程序员 后端

Kafka 3.0 重磅发布,来看下值得关注的新功能

大数据技术指南

kafka 11月日更

【MyBatis-plus】条件构造器详解,mysql索引原理及btree

Java 程序员 后端

【Spring Boot 25】JdbcTemplate配置类 ,设计模式面试题java

Java 程序员 后端

【Spring Cloud 8】熔断与限流Sentinel,java现在的主流技术

Java 程序员 后端

【Spring 基础注解】对象创建相关注解,java开发实战经典答案百度云

Java 程序员 后端

【Spring 工厂】反转控制与依赖注入,spring集成mybatis原理面试题

Java 程序员 后端

【Spring Boot 23】MyBatis事务管理,java基础知识点思维导图

Java 程序员 后端

就这?彻底搞懂单例模式

蝉沐风

Java 面试 设计模式 单例模式

【SpringMVC笔记】拦截器 ,java设计模式及实践百度云

Java 程序员 后端

前端组件化工程实践

循环智能

AI 组件化 智能化

【Spring Boot 25】JdbcTemplate配置类 (1),鬼知道我经历了啥

Java 程序员 后端

前端Node.js面试题

CRMEB

【Redis实战】集合类型,unixlinux编程实践教程

Java 程序员 后端

【Spring Boot实战与进阶】Controller的使用及获取请求参数的示例

Java 程序员 后端

【SpringMVC 笔记】Json 交互处理(1),面试官都被搞懵了

Java 程序员 后端

彻底说透简单工厂那些你没有关注过的细节

Tom弹架构

Java 架构 设计模式

【Spring Boot实战与进阶】AOP的两种动态代理,java注解的实现原理

Java 程序员 后端

【SpringBoot系列】配置多环境配置文件,hadoop环境搭建教程

Java 程序员 后端

深入理解 TCP 拥塞控制

拍乐云Pano

TCP 音视频 RTC TCP通信

恒源云(GPUSHARE)_云GPU服务器如何使用Conda?

恒源云

深度学习

【Quarkus 技术系列】,Java高级工程师面试答案大全

Java 程序员 后端

【Spring Boot 6】自定义starter,花了6个月肝完阿里技术官的笔记

Java 程序员 后端

【SpringMVC笔记】Ajax 入门,linux编程基础李养群课后答案

Java 程序员 后端

以闭包方式实现一个Controller层打印日志的切面

LSJ

aop 闭包 切面

等保测评机构每年都需要年审吗?年审时候需提供哪些资料?

行云管家

网络安全 等级保护 等保测评 等保办

【Spring Cloud 2】注册中心Eureka,java架构面试题spring原理

Java 程序员 后端

【云计算】云的七大分类定义说明

行云管家

云计算 公有云 私有云 云资源

重磅|Apache ShardingSphere 5.0.0 即将正式发布

SphereEx

数据库 ShardingSphere Meetup Apache ShardingSphere DateBase

腾讯AI专家整理最全Python学习体系(视频+源码+案例+路线)

小Q

Python AI 面试 爬虫

小模型时代来了?微软推出其最小参数AI模型,性能逼近GPT-3.5_生成式 AI_李冬梅_InfoQ精选文章