写点什么

国产开源大模型阵营又添新成员!商汤科技发布新一代大语言模型书生·浦语 2.0,支持 200K 超长上下文

  • 2024-01-18
    北京
  • 本文字数:1019 字

    阅读完需:约 3 分钟

大小:356.42K时长:02:01
国产开源大模型阵营又添新成员!商汤科技发布新一代大语言模型书生·浦语2.0,支持200K超长上下文

1 月 17 日,商汤科技与上海 AI 实验室联合香港中文大学和复旦大学正式发布新一代大语言模型书生·浦语 2.0(InternLM2)。

 

InternLM2 是在 2.6 万亿 token 的高质量语料上训练得到的。沿袭第一代书生·浦语(InternLM)设定,InternLM2 包含 7B 及 20B 两种参数规格及基座、对话等版本,满足不同复杂应用场景需求,

 

沿袭第一代书生·浦语(InternLM)的设定,InternLM2 包含 7B 及 20B 两种参数规格及基座、对话等版本,满足不同复杂应用场景需求,分别是:

 

  • Internlm2-base: 高质量和具有很强可塑性的模型基座,是模型进行深度领域适配的高质量起点;

  • Internlm2: 在 internlm2-base 基础上,在多个能力方向进行了强化,在评测中成绩优异,同时保持了很好的通用语言能力;

  • Internlm2-sft:在 Base 基础上,进行有监督的人类对齐训练;

  • Internlm2-chat:在 internlm2-sft 基础上,经过 RLHF,面向对话交互进行了优化,具有很好的指令遵循、共情聊天和调用工具等的能力。


InternLM2 的基础模型具备以下的技术特点:

 

  • 有效支持 20 万 tokens 的超长上下文:能够一次性接受并处理约 30 万汉字(约五六百页的文档)的输入内容。

  • 综合性能全面提升:各能力维度相比上一代模型全面进步,在推理、数学、代码等方面的能力提升显著。

 

值得一提的是,书生·浦语 2.0 版本将继续开源,提供免费商用授权。

 

Github 地址:

https://github.com/InternLM/InternLM

 

模型相关链接:

目前,书⽣·浦语 2.0(InternLM2)系列模型现已在魔搭 ModelScope 社区开源,包括:

 

书生·浦语 2-7B:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-7b/summary

书生·浦语 2-对话-7B:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-chat-7b/summary

书生·浦语 2-基座-7B:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-base-7b/summary

书生·浦语 2-对话-7B-SFT:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-chat-7b-sft/summary

书生·浦语 2-基座-20B:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-base-20b/summary

书生·浦语 2-20B:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-20b/summary

书生·浦语 2-对话-20B:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-chat-20b/summary

书生·浦语 2-对话-20B-SFT:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-chat-20b-sft/summary

2024-01-18 17:587500
用户头像
李冬梅 加V:busulishang4668

发布了 1093 篇内容, 共 708.2 次阅读, 收获喜欢 1243 次。

关注

评论

发布
暂无评论
发现更多内容

同城快递系统架构

Jacky.Chen

Java并发编程实战(2)- Java内存模型

技术修行者

Java 并发编程 happens-before 多线程

大作业(二)

橘子皮嚼着不脆

HDFS SHELL详解(2)

罗小龙

hadoop 28天写作 hdfs shell

大作业(一)

橘子皮嚼着不脆

即时通讯的原理和历史

v16629866266

惊艳!四份SpringSecurity笔记带你玩转金三银四的面试题集!

996小迁

Java 架构 面试 springsecurity 笔记

京东T7团队技术4面:线程池+索引+Spring +分布式锁+Mysql+项目等

Java架构之路

Java 程序员 架构 面试 编程语言

MySQL慢查询(中):正确的处理姿势,你get到了吗?

架构精进之路

MySQL MySQL优化 MySQL架构 28天写作

智慧城市发力,区块链助力土木建设数据存储

CECBC

土木建设

面试大揭秘!从技术面被“虐”到征服CTO,全凭这份强到离谱的pdf

Java架构之路

Java 程序员 架构 面试 编程语言

极客时间架构 1 期:大作业二 学习大总结

Null

太过完美!滴滴全球首发Spring5+SpringMVC5+Mybatis3.X全彩小册

Java架构追梦

Java 源码 架构 滴滴 ssm

去中心化DAPP系统APP开发|去中心化DAPP软件开发

系统开发

DeFi去中心化DAPP系统开发的知识科普

W13902449729

去中心化金融 DeFi去中心化系统开发

独角兽余额宝(Java现场面试48题):性能调优+索引+Mysql+缓存+HashMap+GC

Java架构之路

Java 程序员 架构 面试 编程语言

有技术和落地,区块链才能创造价值

CECBC

区块链

【JS】函数实参与形参

德育处主任

JavaScript 大前端 js 28天写作

强!腾讯老兵亲荐“从零开始学架构”教你如何成为出色的架构师?(整整2000页的笔记)

比伯

Java 编程 架构 面试 程序人生

APICloud AVM多端开发 | 企业app开发解析:案例展示、加盟申请功能源码

YonBuilder低代码开发平台

大前端 小程序flutter, 跨平台 APICloud

重学JS | 聊聊闭包

梁龙先森

大前端 编程语言 28天写作

别小看 Log 日志,它难住了我们组的架构师

Java架构师迁哥

搭建自己的MinDoc文档库

后台技术汇

28天写作

[0/28]软件质量的那点事(1)———引言

L3C老司机

软件测试 软件质量

价值 - 风险管理(二)

石云升

读书笔记 风险管理 28天写作 价值

架构师训练营 1 期:大作业(二)

piercebn

架构师训练营第 1 期

极客时间架构 1 期:大作业一 根据业务编写指定输出系统概要设计

Null

金三银四将至!我肝了万字的Java垃圾回收,看完你还敢说不会?

编程 面试 JVM

高频量化交易机器人系统开发技术

薇電13242772558

区块链 策略模式

智能合约DAPP软件APP开发|智能合约DAPP系统开发

系统开发

最新区块链科普图书《区块链进化史》上市

CECBC

区块链 科普

国产开源大模型阵营又添新成员!商汤科技发布新一代大语言模型书生·浦语2.0,支持200K超长上下文_生成式 AI_李冬梅_InfoQ精选文章