当前位置:首页>手游攻略> 英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC

英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC

本站 1 月 13 日消息,据英伟达官方博客,英伟达宣布推出一款名为 Nemotron-CC 的大型英文AI训练数据库,总计包含 6 3 万亿个 Token,其中 1 9 万亿为合成数据。英伟达声称该

更新时间:2025-01-14 10:20:10

  • 文章详情

本站 1 月 13 日消息,据英伟达官方博客,英伟达宣布推出一款名为 Nemotron-CC 的大型英文AI训练数据库,总计包含 6.3 万亿个 Token,其中 1.9 万亿为合成数据。英伟达声称该训练数据库可以帮助为学术界和企业界进一步推动大语言模型的训练过程。

目前,业界各类AI模型的具体性能主要取决于相应模型的训练数据。然而现有公开数据库在规模和质量上往往存在局限性,英伟达称Nemotron-CC 的出现正是为了解决这一瓶颈,该训练数据库 6.3 万亿 Token 的规模内含大量经过验证的高质量数据,号称是“训练大型语言模型的理想素材”。

数据来源方面,Nemotron-CC 基于 Common Crawl 网站数据构建,并在经过严格的数据处理流程后,提取而成高质量子集 Nemotron-CC-HQ。

在性能方面,英伟达称与目前业界领先的公开英文训练数据库 DCLM(Deep Common Crawl Language Model)相比,使用 Nemotron-CC-HQ 训练的模型在 MMLU(Massive Multitask Language Understanding)基准测试中的分数提高了 5.6 分。

进一步测试显示,使用 Nemotron-CC 训练的 80 亿参数模型在 MMLU 基准测试中分数提升 5 分,在 ARC-Challenge 基准测试中提升 3.1 分,并在10项不同任务的平均表现中提高 0.5 分,超越了基于 Llama 3 训练数据集开发的 Llama 3.1 8B 模型。

英伟达官方表示,Nemotron-CC 的开发过程中使用了模型分类器、合成数据重述(Rephrasing)等技术,最大限度地保证了数据的高质量和多样性。同时他们还针对特定高质量数据降低了传统的启发式过滤器处理权重,从而进一步提高了数据库高质量 Token 的数量,并避免对模型精确度造成损害。

本站注意到,英伟达已将 Nemotron-CC 训练数据库已在 Common Crawl 网站上公开(点此访问),英伟达称相关文档文件将在稍晚时候于该公司的 GitHub 页中公布。

禁漫天堂

游戏下载/9.9MB

查看
查看
禁漫天堂app安卓版有超多免费漫画用户们可以阅读,各种不同类型漫画应有尽有,用户们可以搜索到自己喜欢的漫画下载阅读。禁漫天堂2023最新版手机下载v1 6 0,软件界面设计整洁,用户们可以轻松找到自己
tiktok18+破解版

游戏下载/96MB

查看
查看
tiktok18+破解版是一款看短视频的娱乐工具。在这里每个人都可以拍出属于自己的创意影片,跟着音乐的节奏,你可以尽情拍摄多种影片内容,个人才艺、生活纪录、表演、舞蹈等等。感兴趣的玩家快来体验tikt
jmcomic2最新安装包1 7 0这是专属于你的漫画天堂,这里有着超多精彩好看的漫画资源可以让用户自由选择畅看,当下最新,最热的漫画应有尽有一应俱全,自己喜欢的,感兴趣的漫画都可以看到,细致的漫画分
ehviewer绿色版

游戏下载/9.99 MB

查看
查看
ehviewer绿色版是一款资源丰富的图片漫画社区软件,是e站的手机客户端。读者可以通过游客的形式访问漫画、美图、COS图片等内容,在实现注册之后还能进入里站,观看更多有趣作品。用户可轻松浏览和下载各
HANIME1.ME漫画

游戏下载/9.9MB

查看
查看
HANIME1 ME漫画是一个充满创意与想象力的平台,它汇聚了众多独具特色的原创漫画作品。这些作品不仅画风各异,故事内容也极富新颖性,从奇幻冒险到现代都市情感,每一部漫画都带给读者全新的视觉与情感体验
应用介绍 jmcomicron mic2 0最新版是一款非常好用的免费追漫画阅读类软件,软件汇聚海量漫画资源,各种不同类型和题材的漫画资源一应俱全,没有广告的打扰,更
热门手游攻略 更多>>
最新手游攻略 更多>>