近日,上海超级计算中心成功部署由上海人工智能实验室OpenDataLab团队构建的智能数据提取工具MinerU并上线上海市人工智能公共算力服务平台,为人工智能语料数据构建提供有力基座。
MinerU具备多类型转换、多语言识别、多元素解析、高质量提取功能,用于满足大模型对大规模高质量训练数据的需求。由MinerU参与提取的数据,率先应用于书生·浦语、书生·万象等大模型训练中,助力模型取得了优异的性能。MinerU上线五个月,GitHub星标数已接近2.5万,被开发者誉为“大模型时代的文档提取、转换神器”。
上海市人工智能公共算力服务平台是贯彻落实国家战略,加快实施“东数西算”工程,深化发展数字经济的一项重大举措,由上海超级计算中心负责建设和运营,致力于为科研机构和广大中小企业提供具有公信力的普惠算力。平台使用国产昇腾架构人工智能算力,计算峰值能力100PFLOPS(FP16)。此次在上海昇腾创新中心的技术支持下,成功打通MinerU在Atlas 900 Pod上的适配部署,进一步提升了平台的多样化服务水平。今后,用户将获得便捷可靠的使用通道,支持多种方式一键接入MinerU能力,助力用户深度挖掘其潜力,打造个性化AI解决方案,加速人工智能在各行业的应用落地。无论是大模型训练中的数据预处理,还是智能辅助医疗、智能制造等领域对文档数据的高效利用,MinerU都将发挥关键作用,为行业发展注入新动力。