当前,人工智能应用已经广泛影响着社会各个领域,随着人工智能技术的迅猛发展,数据作为其核心驱动力,重要性日益凸显。其中,承载着价值导向的文化数据,更被视为人工智能的“灵魂”。近日,针对中华文化数据标注的战略意义、现实短板及未来发展,记者采访了全国人大代表、民进河南省委会原副主委、开封书画院院长陈国桢。
中国艺术报:今年两会上,您提出了关于中华文化数据标注的一系列建议,引起了广泛关注。能否请您谈谈,为什么在人工智能飞速发展的今天,要特别强调“中华文化数据标注”的战略意义?
陈国桢:人工智能的基础是高质量的数据支撑,其功能的强大取决于数据资源状况。而行业数据只能强化人工智能功能,系统的文化数据则具有普适性,是整个人工智能的基础与灵魂。所以,充分发掘中华优秀文化资源的数据要素,加快推进中华文化数据标注,不仅是构建人工智能技术伦理体系,抢占文化数据主权制高点的必备条件,而且通过标注构建全球文化知识图谱,使中华文化从“模糊的东方印象”蜕变为可参与、可理解、可消费的全球公共知识产品,对于弘扬社会主义核心价值观和确保文化自主、自立和安全,推进中华文化由民族语言向世界通用语言转化,逐步确立中华文化国际地位、破解近代以来西方文化主导下的人类发展困局,具有极为重大的战略意义。
中国艺术报:目前我们在文化数据方面,存在哪些具体的短板和问题?
陈国桢:人工智能所需的文化数据是网络化的结构性数据。而我们的薄弱环节恰恰就在这里。据阿里研究院2024年发布的《大模型训练数据白皮书》显示,互联网上中文语料与英文语料占比存在显著差异:英文高达59.8%,而中文仅占1.3%。尤其是文言文、传统文化内容、本土主流媒体文本等反映中式价值观的语料严重匮乏。这类语料无法通过机器翻译弥补,其短缺可能成为制约中国大模型本土化发展的核心短板。
为了给人工智能提供信息支撑,2024年国家发展改革委等四部门联合印发《关于促进数据标注产业高质量发展的实施意见》,数据标注产业得到迅速发展。遗憾的是,无论7个国家级数据标注基地的设立,还是要推动的重点领域,都集中在工业、金融、医疗、交通、教育等行业,具有公共价值的中华文化系统性标注则付之阙如。
中国艺术报:面对这个庞大的系统工程,您认为应从哪些方面构建支持体系,来推动其快速发展?
陈国桢:中华文化数据标注是一项庞大的系统工程,需要国家在政策、技术、资金、人才等多维度构建系统性支持体系,推进其健康顺利发展。在政策层面,应制定国家级发展战略,将其纳入《国家文化数字化战略》重大专项。明确数据标注规范、技术路线与开放共享机制,解决文化机构数据孤岛问题;创建交易平台,探索数据资产化路径。要制定《文化数据标注伦理准则》,建立文化数据安全审查制度,设置标注红线。积极争取联合国教科文组织文化数字化标注国际标准制定主导权。推动知识产权保护创新,探索“标注贡献度确权”机制,对标注者给予知识产权分成。技术支撑上,应建设国家级文化数据标注中心,配备超算资源处理高精度文物扫描数据;搭建分布式标注平台,支持远程协作标注。设立国家文化标注工程实验室,开发专用标注工具;构建“文化知识图谱引擎”,实现自动关联标注。资金支持方面,应设立文化标注专项基金;落实国家已有优惠政策。鼓励有条件的地方加大支持力度。鼓励各类产业基金、专业投资机构加大投资力度,引导社会资本有序参与。
中国艺术报:中华文化体量庞大、构成复杂,推进这项工作必须讲究方法。您对于如何具体实施,有什么样的建议?
陈国桢:第一,根据轻重缓急,分类实施。当前要优先利用现有古籍整理成果,诸如古典诗词、二十四史、诸子百家等已有成果优先推进,尽快实现中华文化数据标注主题化、体系化、网络化、规模化。对地域文化、少数民族文化,要优先采集与标注,丰富中华文化内涵,巩固民族团结。第二,坚持全要素标注,充分发挥数据标注的综合效益。把中华文化数据标注作为系统工程,既要完成其对人工智能的数据支撑,还要打造精要化、主题化、体系化资源供给平台,实现一次标注,多方使用,推动中华文化更深入地传承和更广泛地传播。



