上一篇
ViTPose是什么?一文让你看懂ViTPose的技术原理、主要功能、应用场景Nemotron-CC是什么?一文让你看懂Nemotron-CC的技术原理、主要功能、应用场景
Nemotron-CC概述简介
Nemotron-CC是NVIDIA团队推出的大型预训练数据集,能将Common Crawl数据转化为适用于长序列预训练的高质量语料。Nemotron-CC数据集结合分类器集成、合成数据重述和减少启发式过滤器依赖等方法,实现数据量和质量的更好平衡。Nemotron-CC包含6.3万亿个tokens,其中4.4万亿为全球去重的原始tokens,1.9万亿为合成生成的tokens。Nemotron-CC在短期(1T tokens)和长期(15T tokens)训练中均展现出优越性,特别是在MMLU等任务上,相比DCLM和Llama 3.1模型,Nemotron-CC显著提高了模型的准确性。Nemotron-CC数据集的开发为大型语言大模型的训练提供了更丰富、更多样的数据资源。
Nemotron-CC的功能特色
提供高质量的预训练数据集:Nemotron-CC为大型语言大模型(LLMs)提供高质量、大规模的预训练数据集,特别适用于长序列训练,如15T tokens的训练需求。
平衡数据量和质量:在不显著牺牲数据质量的前提下,大幅增加数据集的规模,包含更多的独特真实tokens,提高模型在长序列训练中的性能。
支持模型性能提升:实验表明,Nemotron-CC训练的模型在多个基准测试任务中表现出色,特别是在MMLU等任务上,相比其他现有数据集,能显著提高模型的准确性。
Nemotron-CC的技术原理
优化文本提取:选用Justext作为HTML-to-text提取器,因其在提取高质量tokens方面表现更佳,有效提升数据集的初始质量。
基于模型的质量标记:
分类器集成:构建三个不同的质量分类器,每个分类器有不同的高质量偏好。基于集成三个分类器,为所有文档打分,根据质量得分将爬取的语料库划分为不同的质量级别。
质量标签分配:进一步将细粒度的质量得分聚类为5个下游任务质量类别,基于连续预训练和任务性能评估,为每个类别分配更符合实际性能的质量标签。
合成数据生成:
低质量数据重述:对于低质量文档,基于重述减少噪声和错误,同时保留有用信息。用Wikipedia风格的提示(prompt)重述低质量文档,有效减少错误和冗余,提高格式化水平。
高质量数据扩展:对于高质量文档,基于生成多样化的问答对、提炼、提取知识和知识列表等方式,获取更多独特的tokens,丰富数据集的内容和多样性。
数据集整合:
大规模数据合成:用Mistral NeMo 12B模型生成超过1.8万亿个合成tokens,其中包括从低质量文档生成的3363亿tokens和从高质量文档生成的1.5万亿tokens。
数据集构建:将上述技术和方法应用于Common Crawl的99个快照(CC-MAIN-2013-20至CC-MAIN-2024-30),构建6.3万亿tokens的数据集,其中4.4万亿为全球去重的原始tokens,1.9万亿为合成生成的tokens。
Nemotron-CC项目介绍
项目官网:https://developer.nvidia.com/blog/announcing-nemotron-cc
arXiv技术论文:https://arxiv.org/pdf/2412.02595
Nemotron-CC能做什么?
预训练大型语言大模型:适用于长序列训练,如15T tokens,提升模型在复杂任务中的性能。
微调和特定任务适应:便于模型在多任务学习和特定领域任务中快速适应,提高任务表现。
文本生成任务:用于生成高质量文本,如新闻、故事,及提升对话系统的自然度。
研究与开发:助力探索模型架构和训练方法的改进,提供基准测试资源。
教育与培训:生成教育资源,辅助语言学习,提升教育内容的丰富性。
-
CHANGER是什么?一文让你看懂CHANGER的技术原理、主要功能、应用场景2025-04-05
-
Kiroku是什么?一文让你看懂Kiroku的技术原理、主要功能、应用场景2025-04-05
-
Vision Search Assistant是什么?一文让你看懂Vision Search Assistant的技术原理、主要功能、应用场景2025-04-05
-
MVDrag3D是什么?一文让你看懂MVDrag3D的技术原理、主要功能、应用场景2025-04-05
-
Chonkie是什么?一文让你看懂Chonkie的技术原理、主要功能、应用场景2025-04-05
-
MSQA是什么?一文让你看懂MSQA的技术原理、主要功能、应用场景2025-04-05

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。







