如何利用MNBVC超大规模中文语料库训练你的AI模型完整指南【免费下载链接】MNBVCMNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。项目地址: https://gitcode.com/gh_mirrors/mn/MNBVC想要训练出真正懂中文的AI模型吗MNBVCMassive Never-ending BT Vast Chinese corpus超大规模中文语料库为你提供了前所未有的中文数据资源这个开源项目已经积累了超过60TB的中文文本数据目标是达到253TB为中文自然语言处理研究和AI模型训练提供了坚实的数据基础。无论你是AI研究人员、开发者还是学生MNBVC都能为你的项目提供丰富的语料支持。 项目概览中文AI的数据宝库MNBVC是一个持续更新的中文语料库项目它不仅包含主流文化内容还涵盖了各种小众文化甚至火星文数据。这个数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。上图展示了MNBVC项目创建的初衷——强调中文大语言模型训练对高质量语料数据的迫切需求 核心数据特点超大规模目前已达60732GB目标253TB进度24%格式多样包含TXT、JSON、JSONL和Parquet多模态专用格式来源广泛数据均来源于互联网收集覆盖各类中文文本持续更新数据按日期组织从2022年12月持续更新至今 快速上手三种数据获取方式方式一微力同步推荐使用P2P微力同步工具可以自动接收更新保持数据最新微力密钥part1: B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ 微力密钥part2: B4FQSD525XQQDY6XNO7JZ6BM2EIKAUTVPLLVX6N52HIWBZ7G72R7EQ注意建议关闭TCP穿透和UDP传输设置否则可能堵塞路由器。方式二百度网盘下载如果你只需要特定时间段的数据可以通过百度网盘选择性下载。项目提供了详细的下载列表每个压缩包都标注了压缩后大小和原始大小方便你规划存储空间。方式三克隆代码仓库如果你想获取数据处理工具和项目代码git clone https://gitcode.com/gh_mirrors/mn/MNBVC重要提示压缩包密码统一为253874️ 数据处理工具套件MNBVC项目组开发了一系列专门针对大规模中文语料处理的工具这些工具在现有开源软件基础上进行了优化中文大语料清洗工具charset_mnbvc- 更快速且准确的中文编码检测工具deduplication_mnbvc- 将TXT批量转成JSONL并识别段落重复文件scan_copy_files_mnbvc- 从多层目录中按关键词采样文件并保留目录结构DataCheck_MNBVC- MNBVC语料格式统一检查工具DataClean-MNBVC- 数据清洗示例及工具集代码仓库爬虫工具为避免重复劳动MNBVC提供了经过大规模验证的代码仓库爬虫代码publicRepos_mnbvc- 爬取GitHub代码仓库meta信息github_downloader_mnbvc- 爬取GitHub代码仓库最新版本代码notabug_download_mnbvc- 爬取notabug代码仓库bitbucket_crawl_mnbvc- 爬取bitbucket代码仓库githubcode_extractor_mnbvc- 将代码转为语料多模态处理工具随着多模态AI模型的发展MNBVC也提供了相应的处理工具pdf_meta_data_mnbvc- PDF元信息抽取工具mmdp_mnbvc- PDF解析规则工具Arxiv_mllm_mnbvc- Arxiv文档解析工具docling_parse_mnbvc- 将PDF文件转换为JSON和Markdown格式的工具 实际应用场景中文大语言模型训练MNBVC语料库为中文大语言模型训练提供了前所未有的数据规模和质量。数据已经过初步处理数据脱敏去掉大于等于8位的数字串进行隐私保护格式转换HTML/XML转TXT、CSV/TSV转JSON等粗加工来源追踪每个数据包都包含来源信息链接自然语言处理研究对于NLP研究人员MNBVC提供了丰富的语料资源语言模型预训练基于大规模无监督语料文本分类任务利用多样化的文本类型机器翻译训练包含多种文体和领域文本生成研究丰富的创作性文本资源 数据格式与组织压缩包结构每个压缩包都采用统一的组织方式压缩包根目录/ ├── links.txt # 数据来源URL信息 ├── 子文件夹1/ │ ├── data.txt/json/jsonl/parquet │ └── screenshot.png # 数据来源网页截图 ├── 子文件夹2/ │ ├── data.txt/json/jsonl/parquet │ └── screenshot.png └── ...数据格式说明TXT格式原始文本数据保持原始格式JSON格式结构化数据存储便于程序化访问JSONL格式流式数据处理适合大规模数据处理管道Parquet格式多模态专用格式支持高效列式存储 社区协作与参与方式项目工作组MNBVC项目设立了多个专业工作组欢迎社区成员参与工作组当前人数需求人数主要任务OCR转码小组5人缺5人文字-图片多模态语料处理问答语料小组3人缺4人问答项对齐与检查语料增强小组3人缺2人文本质量检测与补全代码语料小组待定缺人代码语料处理平行语料小组待定缺人平行语料对齐如何参与即使没有开发经验也可以通过语料元气弹项目上传语料文档参与建设。对于技术贡献者基本要求熟悉Python编程技术指导有经验丰富的开发者提供指导时间投入能够投入足够时间参与开发工作⚠️ 重要注意事项版权与使用规范项目对版权问题采取了审慎态度我们没有能力对数据来源进行版权审核。虽然本数据集包括了数据来源信息但为了长而持久的提供数据集的更新和下载为了尽量避免版权争议本数据集不提供压缩包内数据的索引和分类。使用建议主要用于学术研究和非商业用途避免讨论具体压缩包内容关注大数据量语料本身的应用价值数据质量保障为确保数据质量MNBVC项目实施了多层质量控制自动化检查格式验证、编码检测人工抽样定期抽样检查数据质量社区反馈建立问题反馈机制持续改进根据使用反馈优化处理流程 技术优势与特色数据多样性MNBVC数据集的最大特色是其惊人的多样性文化覆盖全面从主流文化到小众文化甚至火星文文本类型丰富涵盖几乎所有形式的中文文本时间跨度完整从2022年12月开始持续更新工具生态系统项目提供了完整的工具链从数据采集到清洗处理再到格式转换形成了一站式解决方案。社区驱动作为一个开源项目MNBVC的发展完全依赖于社区贡献。这种模式确保了项目的持续更新和优化。 最佳实践建议对于初学者从百度网盘开始选择少量数据包进行实验使用现有工具充分利用项目提供的清洗工具参与社区讨论在遇到问题时寻求社区帮助对于研究人员建立本地处理管道使用微力同步获取完整数据集定制化处理根据研究需求调整数据处理流程贡献代码将你的改进反馈给社区对于企业用户部署完整基础设施建立专门的数据处理团队质量监控建立数据质量监控机制合规使用确保数据使用符合相关法律法规 未来发展方向根据项目规划MNBVC将持续推进以下方向数据规模扩展从60TB向253TB目标推进数据质量提升完善清洗和验证流程工具生态完善开发更多数据处理工具多模态支持加强图文等多模态数据处理能力社区协作深化吸引更多开发者和研究者参与 引用规范使用MNBVC数据集进行研究时请遵循以下引用规范misc{mnbvc, author {{MOP-LIWU Community} and {MNBVC Team}}, title {MNBVC: Massive Never-ending BT Vast Chinese corpus}, year {2023}, publisher {GitHub}, journal {GitHub repository}, howpublished {\url{https://github.com/esbatmop/MNBVC}}, } 结语MNBVC中文语料库为中文AI研究提供了前所未有的数据资源。无论你是想训练自己的中文语言模型还是进行自然语言处理研究这个项目都能为你提供强大的数据支持。记住开源的力量在于社区协作。加入MNBVC社区不仅可以使用这些宝贵的数据资源还可以为中文AI的发展贡献自己的力量。让我们一起推动中文自然语言处理技术的进步温馨提示请媒体朋友们不要报道我们让我们有更长久的时间可以收集整理数据。我们最怕捧杀了您让我们保持低调就是对中文算法圈做了大的贡献【免费下载链接】MNBVCMNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。项目地址: https://gitcode.com/gh_mirrors/mn/MNBVC创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考