别只卷算力了!他说:“出版业才是AI大模型的‘隐形粮仓’”

  算力军备竞赛的硝烟尚未散尽,一场更深层的战略焦虑正在AI产业圈蔓延——支撑下一代大模型训练的高质量中文语料,严重告急。

  在2026中国网络媒体论坛“善用善治:AI内容规范发展”主题论坛案例分享环节,长期从事AI语料体系研究的专家施其明,围绕中文语料供给问题做出系统阐述。与以往不同的是,这一次,他不仅给出判断,也带来了一套经过实践验证的整体性框架。

  “语料问题,本质上不是技术问题,而是战略问题。”施其明说。

  在他的研究体系中,算法、算力与语料构成AI发展的三大核心变量。前两者已在政策与产业层面获得高度重视,而语料,尤其是高质量中文语料,却长期游离于战略视野之外。

  “语料承载价值导向,也塑造模型的理解方式。”他说,“如果模型主要依赖英文数据成长,它对世界的认知框架、表达习惯乃至价值判断,都会不可避免地产生偏移。”

  他判断,这种结构性忽视,正在产生代价。

失衡:1.3%意味着什么
  “59.8%对1.3%。”

  这是英文与中文在全球互联网语料中各自占比的份额。在施其明看来,这种差距并不会停留在统计层面,而会在模型能力上不断放大,并最终反馈到产业应用之中。

  尤其在垂直领域,这一问题表现得更为突出。当前,医疗、法律、制造等专业场景对大模型的需求快速增长,但能够支撑垂类模型训练的高质量中文语料却极为稀缺。

  “有需求,没数据,这是很多团队正在面对的现实。”他说。

  在长期研究基础上,施其明将中文语料供给的结构性问题归纳为四个方面:一是全球语料结构失衡,导致中文语境被边缘化;二是垂直领域专业语料匮乏,制约行业模型发展;三是语料标注标准不统一,高水平标注能力不足;四是高价值数据分散,形成“数据孤岛”,流通机制缺失。

  “这不是单点问题,而是供给体系层面的失灵。”他说。

  更紧迫的是,时间窗口正在收窄。随着大模型训练成本不断攀升,公开数据资源逐步被消耗殆尽,行业竞争正从“谁能用数据”,转向“谁能获取高质量私域数据”。

  “下一阶段,比拼的是数据质量与组织能力。”施其明判断,“这个窗口期不会太长。”

  在他的分析中,语料已成为继算力之后,决定AI竞争格局的关键变量。“算力可以通过投入获得,技术可以通过研发突破,但语料,尤其是承载本土知识体系与文化结构的高质量中文语料,没有现成路径,只能系统建设。”他说。

破局:一个超预期的答案
  面对这一结构性缺口,施其明并未直接给出宏观解法,而是选择从具体场景入手,验证语料供给体系的可行路径。

  2025年,他与团队将目光投向出版业,将其作为第一个实验性切口。这一选择,源于他对“高质量语料应具备何种特征”的反向推导。

  “一个理想的语料来源,应同时具备三个条件:内容经过严格筛选,结构具备系统性,生产过程具备可控性。”施其明说,“沿着这个标准去看,出版体系具备典型特征。”

  在他看来,出版流程本身就是一套成熟的质量控制机制。从选题论证到专家评审,再到“三审三校”,内容在进入市场之前已完成多轮筛选与校验,相较于互联网数据,具备更高的可靠性与更低的噪声水平。

  同时,书籍在文本结构上的优势,也与大模型训练需求形成高度契合。系统化的知识组织、完整的论证链条、稳定的语义结构,使其成为训练长文本理解与复杂推理能力的重要数据来源。

  “当前模型在处理复杂长文本任务时的不稳定表现,很大程度上源于训练数据结构的缺失。”施其明说,“出版内容所提供的,是一种‘能力型语料’。”

  在实践过程中,他进一步将关注点从内容延伸至生产主体。施其明注意到,编辑群体在长期工作中形成的内容判断能力与规范执行能力,与语料加工需求存在高度契合。

  “编辑的工作,本质上是对语义进行精细加工与标准化处理。”他说,“很多编辑在一个专业方向深耕十年、二十年,他们做的语义判断,是任何自动化工具都替代不了的。”

  在这一逻辑下,出版体系不仅是内容来源,也构成语料加工的重要节点。目前,部分出版机构已参与相关实践,完成了从语料测评、加工到流通的全流程验证。

  “我们更关心的是路径是否成立。”施其明说,“从结果来看,这种以专业内容体系为基础、以人工能力为支撑的语料供给方式,是可以跑通的。”

  在他的整体框架中,出版业的意义,并不在于其行业属性本身,而在于提供了一种可复制的方法——即如何将既有的知识生产体系,转化为面向人工智能的高质量数据供给体系。

蓝图:面向“十五五”的系统工程
  在施其明的构想中,出版业只是起点,而非终点。

  “出版体系承载的是存量知识,而AI的应用还涉及动态决策与前沿探索。”他说,“真正的语料体系,必须覆盖更广泛的知识生产网络。”

  基于这一判断,他将语料供给体系的扩展路径指向基础教育、高等教育、科研机构与智库体系等多个知识生产节点。“所有具备系统化知识生产能力的机构,都可以成为语料供给节点。”他说。

下一页