写点什么

国产开源大模型阵营又添新成员!商汤科技发布新一代大语言模型书生·浦语 2.0,支持 200K 超长上下文

  • 2024-01-18
    北京
  • 本文字数:1019 字

    阅读完需:约 3 分钟

大小:356.42K时长:02:01
国产开源大模型阵营又添新成员!商汤科技发布新一代大语言模型书生·浦语2.0,支持200K超长上下文

1 月 17 日,商汤科技与上海 AI 实验室联合香港中文大学和复旦大学正式发布新一代大语言模型书生·浦语 2.0(InternLM2)。

 

InternLM2 是在 2.6 万亿 token 的高质量语料上训练得到的。沿袭第一代书生·浦语(InternLM)设定,InternLM2 包含 7B 及 20B 两种参数规格及基座、对话等版本,满足不同复杂应用场景需求,

 

沿袭第一代书生·浦语(InternLM)的设定,InternLM2 包含 7B 及 20B 两种参数规格及基座、对话等版本,满足不同复杂应用场景需求,分别是:

 

  • Internlm2-base: 高质量和具有很强可塑性的模型基座,是模型进行深度领域适配的高质量起点;

  • Internlm2: 在 internlm2-base 基础上,在多个能力方向进行了强化,在评测中成绩优异,同时保持了很好的通用语言能力;

  • Internlm2-sft:在 Base 基础上,进行有监督的人类对齐训练;

  • Internlm2-chat:在 internlm2-sft 基础上,经过 RLHF,面向对话交互进行了优化,具有很好的指令遵循、共情聊天和调用工具等的能力。


InternLM2 的基础模型具备以下的技术特点:

 

  • 有效支持 20 万 tokens 的超长上下文:能够一次性接受并处理约 30 万汉字(约五六百页的文档)的输入内容。

  • 综合性能全面提升:各能力维度相比上一代模型全面进步,在推理、数学、代码等方面的能力提升显著。

 

值得一提的是,书生·浦语 2.0 版本将继续开源,提供免费商用授权。

 

Github 地址:

https://github.com/InternLM/InternLM

 

模型相关链接:

目前,书⽣·浦语 2.0(InternLM2)系列模型现已在魔搭 ModelScope 社区开源,包括:

 

书生·浦语 2-7B:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-7b/summary

书生·浦语 2-对话-7B:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-chat-7b/summary

书生·浦语 2-基座-7B:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-base-7b/summary

书生·浦语 2-对话-7B-SFT:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-chat-7b-sft/summary

书生·浦语 2-基座-20B:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-base-20b/summary

书生·浦语 2-20B:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-20b/summary

书生·浦语 2-对话-20B:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-chat-20b/summary

书生·浦语 2-对话-20B-SFT:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-chat-20b-sft/summary

2024-01-18 17:587848
用户头像
李冬梅 加V:busulishang4668

发布了 1229 篇内容, 共 846.8 次阅读, 收获喜欢 1323 次。

关注

评论

发布
暂无评论
发现更多内容

Spark 窗口函数 I

马小宝

spark 窗口函数 spark window functions

全栈新星 -- Dart

金刚狼

flutter dart 全栈 aqueduct

AI与劳模的交点:拼多多农研大赛释放的产业能量

脑极体

【总结】性能优化2

小胖子

Java有效面试题

老大哥

面试

ARTS 打卡(2020.07.13-2020.07.19)

小王同学

ARTS Week9

时之虫

ARTS 打卡计划

架构师课程第八周 作业

杉松壁

架构师训练营第八周课后题

Cloud.

JVM系列之:String.intern和stringTable

程序那些事

Java JVM GC 常量池 字符串

ARTS 打卡第 4 周

Scotty

Android | xml和view的那些事

哈利迪

android

首个区块链金融应用规范出炉,标准先行避免“先污染后治理”

CECBC

技术规范 应用评估规则 话语权 政府积极推进

java并发系列 :实战篇,微服务日志的伤痛,一并帮你解决掉

南方有乔木兮

ARTS-WEEK8

一周思进

ARTS 打卡计划

登门槛效应 - 请求帮忙,从小事开始。

石云升

登门槛效应 得寸进尺效应

周末在家加班开发代扣支付网关!

诸葛小猿

加班

从零开始写一个迷你版的Tomcat

简爱W

第八周学习总结

qihuajun

8week

一叶知秋

产业区块链一周新动态

CECBC

多项扶持政策 产业研究高涨 学会协会成立 应用频繁落地

【架构师训练营 - 作业 -8】

小动物

两个单向链表是否存在合并元素

周冬辉

“链”上普洱,云南省区块链中心走进大美普洱

CECBC

区块链+ “链”上普洱 数字云南 分布式产业

设计数据库

左洪斌

数据结构和算法-链表

jason

安全系列之——手写JAVA加密、解密

诸葛小猿

对称加密 加密解密 非对称加密 rsa AES

一个成都程序猿眼中的成都和天府软件园,先从蚂蚁金服说起…

why技术

程序员 成都 蚂蚁金服

第八周作业

qihuajun

关于架构的几件小事:架构决策

北风

架构 架构设计 架构师 架构设计原则

Java面试胜经001| 阿里Java面试题118道

BUZHIDAO

面试

国产开源大模型阵营又添新成员!商汤科技发布新一代大语言模型书生·浦语2.0,支持200K超长上下文_生成式 AI_李冬梅_InfoQ精选文章