【AICon】硅谷视野+中国实践,汇聚全球顶尖技术的 AI 科技盛会 >>> 了解详情
写点什么

小模型时代来了?微软推出其最小参数 AI 模型,性能逼近 GPT-3.5

  • 2024-04-23
    北京
  • 本文字数:964 字

    阅读完需:约 3 分钟

大小:152.66K时长:00:52
小模型时代来了?微软推出其最小参数AI模型,性能逼近GPT-3.5

当地时间 4 月 23 日,微软宣布推出其轻量级人工智能模型 Phi-3 Mini 的下一版本,这是该公司计划发布的三个小型模型中的第一个。 


Phi-3 Mini 可测量参数仅为 38 亿,并在相对于 GPT-4 等大型语言模型更小的数据集上进行训练。现已在 Azure、Hugging Face 和 Ollama 上可使用。另外,微软还计划发布 Phi-3 Small(7B 参数)和 Phi-3 Medium(14B 参数)两个版本。


微软在去年 12 月时发布了 Phi-2,其性能与 Llama 2 等更大的型号不相上下。微软表示,Phi-3 的性能比前一版本更好,其响应速度接近比它大 10 倍的模型


微软 Azure 人工智能平台公司副总裁埃里克· 博伊德(Eric Boyd)介绍说,Phi-3 Mini 的性能与 GPT-3.5 等 LLM 不相上下,"只是外形尺寸更小而已"。


与大型人工智能模型相比,小型人工智能模型通常运行成本更低,并且在手机和笔记本电脑等个人设备上表现更好。据外媒《The Information》今年早些时候报道称,微软正在组建一个专门专注于轻量级人工智能模型的团队。与 Phi 一起,该公司还构建了 Orca-Math,一个专注于解决数学问题的模型。


微软的竞争对手也在研发自己的小模型,其中大多数针对更简单的任务,例如文档摘要或编码辅助。其中最典型的就是 Google 的 Gemma 2B 和 7B,这两款模型更适合简单的聊天机器人和语言相关的工作。


此外,Anthropic 的 Claude 3 Haiku 可以阅读带有图表的密集研究论文并快速总结它们,而 Meta 最近发布的 Llama 3 8B 可以用于一些聊天机器人和编码辅助。


Boyd 表示,开发人员通过“课程”对 Phi-3 进行了训练。他们的灵感来自于孩子们如何从睡前故事、单词更简单的书籍以及谈论更大主题的句子结构中学习。


“市面上没有足够的儿童读物,因此我们列出了 3000 多个单词的清单,并要求大语言模型制作‘儿童读物’来教授 Phi,”Boyd 说。 


他补充说,Phi-3 只是建立在之前迭代所学到的知识之上。 Phi-1 专注于编程,Phi-2 开始学习推理,而 Phi-3 更擅长编程和推理。虽然 Phi-3 系列模型能够了解一些常识,但它无法在更大范围的应用场景中击败 GPT-4 或其他大语言模型。


Boyd 表示,公司经常发现像 Phi-3 这样的较小模型更适合他们的定制应用程序,因为对于许多公司来说,他们的内部数据集规模都比较小,而这些使用较少算力的小模型更具性价比。


参考链接:


https://www.theverge.com/2024/4/23/24137534/microsoft-phi-3-launch-small-ai-language-model


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2024-04-23 18:205162
用户头像
李冬梅 加V:busulishang4668

发布了 823 篇内容, 共 392.5 次阅读, 收获喜欢 1010 次。

关注

评论

发布
暂无评论

PingCode Wiki 权限设计之ACL

阿杰

权限系统 权限控制 acl 权限设计

一文详解Kafka API

华为云开发者联盟

kafka API 拦截器 Consumer API Producer API

百度智能云开物再收“一个奖状”

百度大脑

加入科学计算SIG,挑战最前沿的AI+Science研发与创新

百度大脑

等保级别最高为几级?市面上常见吗?

行云管家

网络安全 等保 等级保护 过等保

聚焦业务价值:分众传媒在 Serverless 上的探索和实践

Serverless Devs

阿里云 Serverless 运维管理 分众传媒 2月月更

天数智芯携手龙蜥社区,以高性能算力助力开源发展

OpenAnolis小助手

Linux 开源 芯片

开源最佳实践

LinuxSuRen

开源 最佳实践

netty系列之:channel,ServerChannel和netty中的实现

程序那些事

Java Netty nio 程序那些事 2月月更

SENSORO基于TDengine助力基层政府打造数字化应用标杆

TDengine

数据库 tdengine 开源 物联网

前端培训:3 个可能有用JavaScript 类

@零度

JavaScript 前端开发

阿里云服务器搭建halo博客从0到1

乌龟哥哥

阿里云 2月月更 halo博客

Hango Rider:网易数帆开源 Envoy 企业级自定义扩展框架

网易数帆

开源 云原生 envoy Hango Rider

Linux中Shell重定向

入门小站

Linux

你会写java脚本吗?-JShell

蜜糖的代码注释

Java 后端开发 2月月更

设计模式【14】-- 从智能音箱中学习命令模式

秦怀杂货店

Java 设计模式

语义级代码克隆检测数据集的评估与改进

华为云开发者联盟

软件工程 代码克隆检测 代码克隆 语义代码克隆 BigCloneBench

美景本天成,妙笔偶得之——“妙笔”是怎样炼成的?

百度大脑

上市商业银行推进智慧银行建设,全方位赋能零售业务数字化转型

易观分析

商业银行 智慧银行

Worktile 权限设计

阿杰

权限控制 rbac 权限设计

[JAVA冷知识]什么是逆变(contravariant)与协变(covariant)?数组支持协变&逆变吗?泛型呢?

山河已无恙

Java 2月月更

在线脑图思维导图生成工具

入门小站

工具

大数据培训:Hadoop HDFS 实现原理

@零度

hadoop 大数据开发

这个Dubbo注册中心扩展,有点意思

捉虫大师

dubbo 注册中心

在阿里,我们如何管理测试环境

阿里云云效

阿里云 DevOps 云原生 敏捷开发 研发提效

程序员必知的8个Java开源IDE工具

编程江湖

ide

Springboot中,如何读取配置文件中的属性

华为云开发者联盟

数据库 springboot 映射 配置文件

巧用这几种文本检索工具,节省80%的时间!

优麒麟

Linux 操作系统 grep 检索 优麒麟

做好云管理一定要云管平台吗?云管理平台应具备什么功能?

行云管家

云服务 云管平台 云资源 云管理

Client-go源码分析之SharedInformer及实战| 社区征文

雪雷

Kubernetes Informer 新春征文

一文让你彻底搞懂Python中__str__和__repr__

宇宙之一粟

Python 2月月更

小模型时代来了?微软推出其最小参数AI模型,性能逼近GPT-3.5_生成式 AI_李冬梅_InfoQ精选文章