专栏观察

田埂下的 “数据基座”:育中国好种,端中国饭碗

作者 | 曾响铃

文 | 响铃说

毫无疑问,在充裕的粮食自给率面前,中国老百姓早已经不用担心“饿肚子”问题。几个月前,加拿大数字媒体公司发布了一份权威的粮食自给率数据榜单,拥有14亿人口的中国已经高居全球第三。

但是,我们看到的可能只是一种食物的“结果”,在整个农业产业链条中,这种“结果”之前的育种环节,我们所面临的挑战实际上并不小。2025年,中央一号文件提出继续推进生物育种产业化,这也是“生物育种”连续第五年走进中央一号文件,其背后是育种产业的重要性和发展的紧迫性。

农安天下,种为基石,种子是农业的“芯片”,是现代农业的基石,更是确保国家粮食安全的源头,关系着国计民生。

而过去许多年,国际种业巨头在我国市场来势凶猛,包括全球种业前十强在内的70多家国际种企进入中国,我们的田间地头已经种下了一大批洋种子,粮食自给自足的背后是种子严重依赖国外。

虽然这些年在国家大力扶持以及相关主体的积极努力下,我国种业也在快速发展并取得了一些突破,研发能力逐步增强,市场占有率也稳步提升,但不得不承认的是,中国种业与发达国家存在代差。

端稳中国饭碗,还必须培育中国种子。

好消息是,已经有人在行动。作为国家重要的农业实验室,崖州湾国家实验室主要从事种业研究,与华为携手,正在积极通过AI提升育种的效率和效果,实现农业智能化与可持续发展。

AI普惠带来的育种革命,但撞上了“数据墙”

崖州湾国家实验室相关专家在一次活动上分享育种AI实践时,曾回顾了全球育种行业过去的发展。与很多传统行业一样,这个领域过去长期依赖经验,虽然经过多个阶段的进化,但从技术来说一直是一个概率事件:

第一代的驯化育种直接从大自然挑好种子;

第二代杂交育种带有极强的随机性,需要长期蹲守,期待、等待好的结果;

到了第三代分子水平育种,有分子标记但也只是进行了提前的筛选,本质上是提高了第二代杂交育种获得成果的概率;

到了第四代,也就是全基因组学习阶段,分子标记变成基因识别和标记,概率、效率近一步提升。

可以看出,只要是不能真正预测育种行为结果的,都无法摆脱被动“拼概率”的命运。

这造成了一个来自时间的壁垒——那些起步早的西方国家,靠着长期依赖不断试错、博概率的积累,在育种方面积累了中国很难短期内同样用概率追赶的优势(从杂交组合到性状筛选,往往需要数年甚至数十年的周期),尤其是我们的育种技术还存在代差,获得成果的“概率值”还比不上西方时。

怎么办?

如果能有一种方法,突破“拼概率”,在田间育种进行前就能提前预测到结果,毫无疑问育种就能实现弯道超车。

这也正是第五代育种——智能品种设计阶段带给中国的机遇。

中国的AI普惠如火如荼,正在众多领域推进效率升级甚至是模式革命,它不仅是“工具的革命”,更是“革命的工具”。在育种领域,AI for Science新的研究范式,让育种可以通过 AI 模型快速分析基因与表型之间的关联,预测作物的产量、抗逆性等关键性状,大幅缩短研究周期,帮助我国育种产业实现赶超。

然而,当崖州湾国家实验室拥抱AI、积极投身智能品种设计时,却遭遇了严峻的数据挑战。

众所周知,当下AI已经从拼模型的时代进入到数据的时代,数据的质量很大程度上决定了模型效果,西方国家发布的AI战略已经把科学数据定为国家战略资产。但是,我国农业领域能够用于育种的数据却很难支撑AI育种的需要——在数量和分布上,我国农业数据分散在全国各地且共享困难;在质量上,农业数据的标准也很难统一,“数据格式、质量标准混乱”。

这时候,建立一个底层数据体系,统一数据规范、数据标准,为AI应用奠定数据基础,就成为崖州湾国家实验室的当务之急。

高质量数据集的汇聚、共享和流动,奏响育种数据交响乐

在数据挑战面前,崖州湾国家实验室选择联合华为,构建面向下一代生物育种技术的AI数据湖基座。

要解决问题,先要更充分地认识问题。

打造数据基座,首先必须对什么才是“好的数据”也即高质量的数据集有统一的认识。在崖州湾国家实验室与华为的合作中,双方对数据构建的目标进行了五级划分,从符合FAIR原则(即可查找、可访问、可互操作、可复用),到满足通用模型,再到强化推理支撑,再到针对科学问题的数据集建立,最后到即插即用的统一数据集,一个数据基座的目标体系或者说质量控制体系就此构建起来。

在这样的“行动纲领”引导下,基于OceanStor Pacific全闪分布式存储,华为与崖州湾国家实验室共同打造起AI数据湖基座,汇集了过去分散在全国各地的农业科研数据、国外公开数据、企业托管数据、学校自采集数据等,通过数据分类共享机制(分为对外公开、受限开放、内部机密等级并设置安全策略)实现了数据的有序共享和流通,做到了全局文件系统的统一调度。

当然,数据基座不仅仅是一个既有数据融通共享与利用的体系,在数据质量源头方面,双方还制定了统一的农业数据采集标准,让分散在各地的育种数据有了“通用语言”,不管是来自实验室还是田间,各种数据都能无缝纳入AI 数据湖。

在这样的数据基座支撑下,农业数据“散、乱、差”的痛点得到解决,全国育种数据可视、可管和有序共享,面向育种的高质量语料库建立起来,原本难以共享的数据资源也能够成为可复用、可流转的“国家战略资产”。

最终,在智能融合、数据全域流通下,农业数据分散式、数据割裂难利用的情况被彻底改变,实现全局数据统一目录,EB级数据秒级检索,随时随地按需共享等。崖州湾国家实验室智慧育种成功打造了国家级精准育种技术体系,支撑起一个总部+5个基地+N个分支、超1000科学家的育种体系。

从试验田到数据基座,将育种革命进行到底

一旦数据基座建立,AI育种的工作也开始加速推进。

例如崖州湾国家实验室还打造了基于Nexent的农业AI工具社区,智能体系统和数据系统打通,实现数据自动推荐和智能体自主交互。

AI数据湖高效支撑各类育种AI工具的运行,科研工作者不再像过去那样必须费劲找到“指定数据”才能开展工作。在崖州湾国家实验室的期望中,未来与华为深入合作,要构建起一个基于多智能体的AI科学家系统或AI育种系统,去服务农业科学家群体以及企业群体。

从这个意义上看,当AI数据基座建设起来,数据问题的解决只是一个开端,更重要的是传统育种工作模式的改变。

本质上,华为AI数据湖并非孤立的技术产品,它与农业智能体系统、育种工具平台深度融合,做到了“数据采集-分析-决策-执行”的闭环。

过去,提到育种,很多人脑海第一印象可能是田间地头的“泥腿子”奔波。但当下及以后的育种工作,更可以是完全现代化的工作范式——科研人员通过 VR 眼镜、无人机等前端设备获取田间信息,数据实时传入 AI 数据湖,经过 AI 分析后生成的育种决策,能直接下发给机器狗、智能农机执行,让传统“靠天吃饭、凭眼判断”的育种模式升级为精准可控的智慧育种。

由此可见,华为AI数据湖与生物育种的结合,看似是技术层面的创新,实则是AI普惠、科技服务国计民生的一次深入实践。它用数据打通了科技与农业的“最后一公里”,让AI不再是实验室里的“高精尖”,而是扎根田野、服务民生的“好帮手”。

未来,随着这一数据基座的不断完善,有理由相信,中国育种行业将加速突破代差,培育出更多适应环境、高产优质的农业品种。

*本文图片均来源于网络

正在生成海报, 请稍候
田埂下的 “数据基座”:育中国好种,端中国饭碗
2025-11-29 18:09:32
AI普惠带来的育种革命,但撞上了“数据墙”
长按识别二维码
Techsir.com
希望看到您的想法,请您发表评论x