所有tag为书生大模型的文档,连同本文档在内,为书生大模型实战营训练内容,文档中的内容并不局限于实战营本身,但算力平台均首选上海AI实验室开发的云端集成开发环境InternStudio,开发手册和InternStudio算力平台的相关内容可以点击链接跳转。
1.InternStudio的发展
书生·浦语(lnternLM)大语言模型由上海人工智能实验室联合多家机构共同推出的,并且经过近两年的发展,几乎是肉眼可见的不断变强。
2023.07.06 InternLM-7B开源,发布了全链条开源工具体系。
2023.09.20 InternLM-20B开源,开源工具链全线升级。
2024.01.17 InternLM 2开源,性能优异。
2024.07.04 InternLM 2.5开源。
众所周知,现在国内外的大模型都在不断地提高性能表现,书生大模型也在不停的迭代。现在的InternLM2.5,推理能力优异,支持100万上下文,作为国产的开源模型的确非常的优秀。

2.全链路开源
模型:书生浦语开源模型谱系。

数据:书生万卷(精细处理的开源多模态语料库)
预训练:InternEvo(性能超过国际主流训练框架DeepSpeed)
微调:XTuner(多种微调和偏好对其算法,支持千亿参数+百万上下文)
部署:LMDeploy(性能超过国际主流推理框架vllm)
测评:OpenCompass(全面的开源评测体系)
应用:MindSearch(思索式开源搜索应用)/Lagent(首个支持代码解释器的智能体框架)/MinerU(高效文档解析工具)/HuixiangDou(基于专业知识库的群聊助手)
以上种种,除了那个102B的闭源模型以外,全部都是开源的。
开源的,就是最强的。
个人主要使用过MinerU,的确是市面上识别率最高的OCR解析工具之一(以后也会争取在本站写一篇关于MinerU的文章)。
从数据到应用到完整开发生态,真的非常了不起!
Comments
评论
Loading comments...
登录后可以评论。 Login