全国首个主流文化语料库上线

山东数字文化集团与人民网共建,推动数字文化产业高质量发展

齐鲁晚报     2025年08月26日
  记者 夏侯凤超 济南报道

  8月25日,人民网与大众报业集团、山东数字文化集团共建主流价值语料库(山东)、主流文化语料库合作签约暨项目推进会在济南举行。山东数字文化集团与人民网正式签约,共建主流文化语料库。
  随着生成式人工智能技术的迅猛发展,高质量、安全可信的语料库作为其关键支撑资源,对行业大模型训练和应用具有至关重要的作用。2023年12月31日,国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》明确指出,“完善数据资源体系,在科研、文化、交通运输等领域,推动科研机构、龙头企业等开展行业共性数据资源库建设,打造高质量人工智能大模型训练数据集。”2025年1月,国务院办公厅印发的《关于推动文化高质量发展的若干经济政策》提出,“建设文化领域人工智能高质量数据集,支持文化领域大模型建设”;2025年6月,《山东省支持文化和科技深度融合协同创新的政策措施》明确,“支持文化大模型开源利用类融合创新项目,集聚版本资源、文献资源和算力资源等,建设文化领域人工智能高质量数据集和语料库,形成一批文化大模型产品和服务。”
  主流文化语料库是由山东数字文化集团依托人民网、大众报业集团等党报党端党网长期建设发展形成的新闻、理论、评论、政策等权威媒体资源,以及省内文化单位、高校多年来积累的优质私域文化资源,经数据采集、清洗、预标注、标注、增强、审校等环节,以“AI+人工”的方式,精心打磨而成。该语料库具有标准统一、结构完整、权威准确、开放共享等特色,可有效解决当下AI大模型普遍存在的敏感领域语料欠缺、重要文化领域语料不足、核心语料质量不高等问题。
  作为全国首个主流文化语料库,一期重点聚焦山东优秀文化,目前已上线问答语料5万对、基础语料2000万篇,正在打造孔子学术研究、孔子画像等多个高质量数据集,后续计划分期分批建设覆盖广泛、内容丰富的主流文化数据集,推动文化大模型的性能跃迁与我省数字文化产业高质量发展。
  主流文化语料库建设离不开文化数据的智能标注,集团自主研发的山东文化数据标注平台,提供数据采集、清洗、预标注、标注、增强、审核等一站式全链路服务,支持问答、图片、视频、音频、文件、图谱等多类型数据标注,标注后的语料支持一键发布到大模型或智能体中,实现数据从采集到使用的全流程闭环。
  山东文化数据标注平台将面向全社会免费开放,助力各文化单位、高校、企业打造自己的高质量数据集,共建主流文化语料库。下一步,山东数字文化集团还将推出山东文化数据交易平台,提供文化数据集交易服务,推动数据要素流通利用与数据资产变现,全力打造全国文化和科技融合的新高地,为文化强省、数字强省建设贡献力量。



上一篇 下一篇