所有tag为书生大模型的文档,连同本文档在内,为书生大模型实战营训练内容,文档中的内容并不局限于实战营本身,但算力平台均首选上海AI实验室开发的云端集成开发环境InternStudio开发手册InternStudio算力平台的相关内容可以点击链接跳转。

1.InternStudio的发展

书生·浦语(lnternLM)大语言模型由上海人工智能实验室联合多家机构共同推出的,并且经过近两年的发展,几乎是肉眼可见的不断变强。

2023.07.06 InternLM-7B开源,发布了全链条开源工具体系。

2023.09.20 InternLM-20B开源,开源工具链全线升级。

2024.01.17 InternLM 2开源,性能优异。

2024.07.04 InternLM 2.5开源。

众所周知,现在国内外的大模型都在不断地提高性能表现,书生大模型也在不停的迭代。现在的InternLM2.5,推理能力优异,支持100万上下文,作为国产的开源模型的确非常的优秀。

image
image

2.全链路开源

模型:书生浦语开源模型谱系。

image
image

数据:书生万卷(精细处理的开源多模态语料库)

预训练:InternEvo(性能超过国际主流训练框架DeepSpeed)

微调:XTuner(多种微调和偏好对其算法,支持千亿参数+百万上下文)

部署:LMDeploy(性能超过国际主流推理框架vllm)

测评:OpenCompass(全面的开源评测体系)

应用:MindSearch(思索式开源搜索应用)/Lagent(首个支持代码解释器的智能体框架)/MinerU(高效文档解析工具)/HuixiangDou(基于专业知识库的群聊助手)

以上种种,除了那个102B的闭源模型以外,全部都是开源的。

开源的,就是最强的。

个人主要使用过MinerU,的确是市面上识别率最高的OCR解析工具之一(以后也会争取在本站写一篇关于MinerU的文章)。

从数据到应用到完整开发生态,真的非常了不起!