大模型实战营-L1-01-书生大模型全链路开源体系

所有tag为书生大模型的文档，连同本文档在内，为书生大模型实战营训练内容，文档中的内容并不局限于实战营本身，但算力平台均首选上海AI实验室开发的云端集成开发环境InternStudio，开发手册和InternStudio算力平台的相关内容可以点击链接跳转。

书生·浦语(lnternLM)大语言模型由上海人工智能实验室联合多家机构共同推出的，并且经过近两年的发展，几乎是肉眼可见的不断变强。

2023.07.06 InternLM-7B开源，发布了全链条开源工具体系。

2023.09.20 InternLM-20B开源，开源工具链全线升级。

2024.01.17 InternLM 2开源，性能优异。

2024.07.04 InternLM 2.5开源。

众所周知，现在国内外的大模型都在不断地提高性能表现，书生大模型也在不停的迭代。现在的InternLM2.5，推理能力优异，支持100万上下文，作为国产的开源模型的确非常的优秀。

模型：书生浦语开源模型谱系。

数据：书生万卷（精细处理的开源多模态语料库）

预训练：InternEvo（性能超过国际主流训练框架DeepSpeed）

微调：XTuner（多种微调和偏好对其算法，支持千亿参数+百万上下文）

部署：LMDeploy（性能超过国际主流推理框架vllm）

测评：OpenCompass（全面的开源评测体系）

应用：MindSearch（思索式开源搜索应用）/Lagent（首个支持代码解释器的智能体框架）/MinerU（高效文档解析工具）/HuixiangDou（基于专业知识库的群聊助手）

以上种种，除了那个102B的闭源模型以外，全部都是开源的。

开源的，就是最强的。

个人主要使用过MinerU，的确是市面上识别率最高的OCR解析工具之一（以后也会争取在本站写一篇关于MinerU的文章）。

从数据到应用到完整开发生态，真的非常了不起！

评论