|
最终,这些节点将被组织为一个统一的体系,形成自主可控、安全合规、标准统一的国家级中文语料库。“目标是从根本上改变中文语料的弱势地位,为国产AI构建稳定的数据基座。”施其明说。
围绕这一目标,他将实现路径拆解为三个层面。
在制度层面,他强调标准体系建设的先行性。“当前最大的问题,是缺乏统一标准,导致语料质量无法衡量,数据也难以流通。”他建议由国家层面牵头,联合科研机构与行业主体,制定覆盖采集、清洗、标注与共享的全流程标准。“有了标准,产业才能从分散走向协同。”
在技术层面,他指出工程化能力的缺口。“从学术研究到规模化生产之间,仍存在明显断层。”他建议加强产学研协同,重点突破知识型语料加工的关键技术,构建可规模复制的加工体系。
在流通层面,他认为激励机制是关键所在。“数据确权、收益分配与安全流通机制不完善,会直接影响高价值数据的供给意愿。”他建议依托可信数据空间等基础设施,探索语料确权与交易机制,“让语料资源在安全合规的轨道上高效流动,而不是继续沉睡在各自的孤岛里”。
“语料体系建设,是一项长期工程,它既关系当下竞争,也决定未来格局。”施其明说。人工智能的竞争,正在从技术能力的比拼,转向基础资源与体系能力的较量。
“铸实基座,方能始通新途。”他说,“基座不牢,走得再快,也难以走远。”
|