本文作者:访客

中文互联网基础语料库3.0发布,数据量达120GB重磅更新!

访客 2025-09-18 15:19:19 9 抢沙发
中文互联网基础语料库3.0发布,包含大量文本数据,数据量高达120GB,该语料库为自然语言处理、机器学习等领域的科研人员提供了丰富的中文语言数据资源,有助于推动相关领域的研究进展和技术创新,摘要字数控制在约100-200字左右。
9月18日消息,今日上午,在昆明召开的2025年国家网络安全宣传周人工智能安全治理分论坛上,中文互联网基础语料3.0正式向社会发布。
在中央网信办相关部门指导下,中国网络空间安全协会会同国家互联网应急中心等单位,在前期发布中文互联网基础语料1.0和2.0的基础上,持续发挥企业、高校和科研单位协同优势,依托网安协会人工智能安全治理专委会建立的语料共建共享机制,汇聚一批新的高质量可信数据,经过信源筛选、内容过滤、数据去重等一系列严格细致的数据加工处理措施,形成并对社会发布中文互联网基础语料3.0。本批语料扩大了优质中文网站信源范围,加强了违法不良信息过滤,数据量为120GB,可为大模型训练和人工智能发展提供可信数据支持。用户登录中国网络空间安全协会网站(https://www.cybersac.cn/newhome),点击“中文互联网语料资源平台”链接,通过注册、认证等程序,即可下载相关语料。网安协会负责人表示,中文互联网基础语料3.0是各界协同共建高质量中文语料的又一重要成果,进一步丰富了高质量中文语料的供给。下一步,网安协会将会同国家互联网应急中心等单位,协同各行业领域,持续加强中文互联网基础语料建设,为人工智能技术创新和产业发展提供有力支撑和保障。
文章版权及转载声明

作者:访客本文地址:https://shucuo.cn/post/1197.html发布于 2025-09-18 15:19:19
文章转载或复制请以超链接形式并注明出处数错网

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享

发表评论

快捷回复:

验证码

评论列表 (暂无评论,9人围观)参与讨论

还没有评论,来说两句吧...