写点什么

国产开源大模型阵营又添新成员!商汤科技发布新一代大语言模型书生·浦语 2.0,支持 200K 超长上下文

  • 2024-01-18
    北京
  • 本文字数:1019 字

    阅读完需:约 3 分钟

大小:356.42K时长:02:01
国产开源大模型阵营又添新成员!商汤科技发布新一代大语言模型书生·浦语2.0,支持200K超长上下文

1 月 17 日,商汤科技与上海 AI 实验室联合香港中文大学和复旦大学正式发布新一代大语言模型书生·浦语 2.0(InternLM2)。

 

InternLM2 是在 2.6 万亿 token 的高质量语料上训练得到的。沿袭第一代书生·浦语(InternLM)设定,InternLM2 包含 7B 及 20B 两种参数规格及基座、对话等版本,满足不同复杂应用场景需求,

 

沿袭第一代书生·浦语(InternLM)的设定,InternLM2 包含 7B 及 20B 两种参数规格及基座、对话等版本,满足不同复杂应用场景需求,分别是:

 

  • Internlm2-base: 高质量和具有很强可塑性的模型基座,是模型进行深度领域适配的高质量起点;

  • Internlm2: 在 internlm2-base 基础上,在多个能力方向进行了强化,在评测中成绩优异,同时保持了很好的通用语言能力;

  • Internlm2-sft:在 Base 基础上,进行有监督的人类对齐训练;

  • Internlm2-chat:在 internlm2-sft 基础上,经过 RLHF,面向对话交互进行了优化,具有很好的指令遵循、共情聊天和调用工具等的能力。


InternLM2 的基础模型具备以下的技术特点:

 

  • 有效支持 20 万 tokens 的超长上下文:能够一次性接受并处理约 30 万汉字(约五六百页的文档)的输入内容。

  • 综合性能全面提升:各能力维度相比上一代模型全面进步,在推理、数学、代码等方面的能力提升显著。

 

值得一提的是,书生·浦语 2.0 版本将继续开源,提供免费商用授权。

 

Github 地址:

https://github.com/InternLM/InternLM

 

模型相关链接:

目前,书⽣·浦语 2.0(InternLM2)系列模型现已在魔搭 ModelScope 社区开源,包括:

 

书生·浦语 2-7B:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-7b/summary

书生·浦语 2-对话-7B:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-chat-7b/summary

书生·浦语 2-基座-7B:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-base-7b/summary

书生·浦语 2-对话-7B-SFT:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-chat-7b-sft/summary

书生·浦语 2-基座-20B:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-base-20b/summary

书生·浦语 2-20B:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-20b/summary

书生·浦语 2-对话-20B:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-chat-20b/summary

书生·浦语 2-对话-20B-SFT:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-chat-20b-sft/summary

2024-01-18 17:587626
用户头像
李冬梅 加V:busulishang4668

发布了 1137 篇内容, 共 758.9 次阅读, 收获喜欢 1278 次。

关注

评论

发布
暂无评论
发现更多内容

谷歌架构师分享gRPC与云原生应用开发Go和Java为例文档

程序知音

Java 架构 云原生 编程语言 后端

媒体赞誉丨九科信息入选“第一新声”2022高成长新锐企业榜、RPA高成长企业榜,并受邀参加“2022年高科技高成长年度峰会”

九科Ninetech

场景重塑:乐播投屏搭载无影架构,打造“超级投屏空间”

云布道师

无影

我眼中的优秀PM

BY林子

团队管理 项目管理

HummerRisk 使用教程:资源态势

HummerCloud

一站式管理多平台小程序的办法

Onegun

微信小程序 小程序管理平台 小程序管理

架构实战营第10期毕业设计-秒杀系统

Geek_4db2d5

机器学习算法(一): 基于逻辑回归的分类预测

汀丶人工智能

数据挖掘 机器学习 数据分析 逻辑回归

得物社区计数系统设计与实现

得物技术

性能优化 重构 稳定性

Docker等容器技术应用到移动开发的探索

Onegun

容器 docker build 小程序容器

HummerRisk 使用教程:k8s检测

HummerCloud

"我眼中的ChatGPT"征文获奖作品合集

InfoQ写作社区官方

技术专题合集 热门活动 ChatGPT

SVN管理工具:Cornerstone 4 激活版

真大的脸盆

svn Mac Mac 软件 SVN客户端

面试处处碰壁?不慌,Java核心面试文档.PDF助你披荆斩棘

三十而立

尚硅谷Java真题详解教程发布

小谷哥

论文分享丨Holistic Evaluation of Language Models

华为云开发者联盟

人工智能 华为云 论文 华为云开发者联盟 企业号 3 月 PK 榜

开发和测试融合,到底该怎么做?

BY林子

敏捷开发 敏捷测试

9 个可以快速掌握的 Java 性能调优技巧,必须掌握

三十而立

Java

硬核!阿里出品2023版Java架构师面试指南,涵盖Java所有核心技能

三十而立

Java java面试

户外广告屏为什么会坏?

Dylan

LED 户外LED显示屏

【程序员日记】---当“微服务”遇到了“电饼铛“

京东科技开发者

架构 微服务 系统架构 开发 企业号 3 月 PK 榜

如何构建内部开发者门户:企业参考指南

SEAL安全

企业号 3 月 PK 榜 开发者体验 内部开发者门户

低代码开发平台如何推动企业数字化转型

力软低代码开发平台

三月征文活动结果已出炉,快来看看有没有你

InfoQ写作社区官方

热门活动 ChatGPT

综合系统清理优化工具:MacCleaner PRO中文激活版

真大的脸盆

Mac Mac 软件 mac系统清理优化软件 清理工具 清理优化

Java程序员涨薪必备的性能调优知识点,收好了

三十而立

Java

4种API性能恶化根因分析

华为云开发者联盟

开发 API 华为云 华为云开发者联盟 企业号 3 月 PK 榜

延伸测试边界,银行测试团队转型建议

BY林子

软件测试 敏捷测试 测试转型

如何防止AD域环境遭受恶意攻击?

嘉为蓝鲸

AD #运维

国产开源大模型阵营又添新成员!商汤科技发布新一代大语言模型书生·浦语2.0,支持200K超长上下文_生成式 AI_李冬梅_InfoQ精选文章