丰登种业大语言模型-拓展了大模型助力生物育种的探索路径

2024/7/11 15:26:03 4171 
 

基于书生·浦语2.0强大的基座模型能力,丰登通过注入我国种业相关的科研文献、科技书籍、种企报告等数据,使大模型获得了理解和分析育种相关专业问题的能力,拓展了大模型助力生物育种的探索路径。

生物育种技术是第一产业里的关键核心技术。而我国当前的育种信息通常散布在众多育种科研文献、技术书籍和网络资源中。由于缺乏统一的数据和知识平台,数据的孤岛性、分散性导致育种工作人员不得不跨越多个文献源、书籍,甚至需要编写代码进行数据访问,限制了生物育种中的工作效率。同时,育种技术的学习有着显著的行业和知识壁垒,这也限制了青年人从事育种行业的选择。

习书记指示“加快推进生物育种研发应用”。相较于国内外其他大语言模型,丰登作为交叉学科的科研创新重点关注生物育种。丰登可以有效地总结历史数据和专家经验,旨在支持用户在品种选育、农艺性状、栽培技术和推广区域四大核心领域提供解释和回答,助力育种知识的在国内的传承和推广。具体特点如下:

• 丰登深度挖掘并结构化我国在育种领域积累的包括学术文献、书籍、田间日志和政府公示在内的广泛知识。将文本信息中提炼出的知识通过大模型的技术手段汇聚到模型权重中,将分散在不同文献中的同一知识点整合归纳。

• 跨领域知识融合。丰登通过书生·浦语2.0大语言模型基座,除了作物学、农学和遗传学等种业相关学科,还整合了生物学、遗传学、气象学、土壤学等相关领域的多学科知识。通过提示词的合理运用,丰登可以被用来发掘这些领域之间的新联系。

• 提高信息获取效率。丰登通过自然语言对话接口降低了应用门槛,用户可以直接提出问题并迅速获得易于理解的信息。相较于文献数据库查询和网络搜索,多轮对话的方式确保了信息的实时性和高效获取,极大提高了信息获取效率。丰登未来还可以通过加入语音输入模块,完成语音和文字信息的实时转换,进一步提高工作效率。

• 知识共享与传播。丰登的长远目标是为政府机构提供种业相关的信息咨询和基于种业大数据的政策建议;为育种企业和科研院所提供专业的知识获取方式,并提供智能化的育种建议;为高等院校的相关师生提供教学辅助工具,为国家培养下一代人才;为农民提供生产流程中的智能助手,提高工作效率。

丰登可以提高获取种业信息的工作效率并降低了育种知识的学习门槛,对振兴国内种业,推广育种知识,促进科学研究有重要意义。大模型技术的运用不仅填补了我国在种业专业领域的大模型空白,同时也是对我国育种领域采纳新技术的一次大胆尝试。

以水稻为例,丰登计划实现2.5万个水稻审定品种的品种选育历史记录问答、农艺性状描述、栽培技术推荐及历史推广区域查询;针对4000个主要栽培品种的每一个基因变异鉴定;针对250份核心品种的农艺性状和表型问答,包括但不限于多光谱、核磁共振、CT等等;以及针对水稻15个关键发育阶段的空间组学测序和单细胞组学测序数据。目前丰登已经收到了来自国内六十余家单位的合作和测试申请,包括中国种子集团、先正达集团中国、隆平高科、正大集团等种业公司,中国科学院、中国农业科学院、上海农业科学院、广东农业科学院等农业科研单位,中国农业大学、华中农业大学、南京农业大学、西北农林科技大学等高等院校。丰登的问世对中国种业大模型的发展起到了不可替代的促进作用。

相较于传统的言传身教和基于数据库的知识图谱技术,丰登是大语言模型技术在育种领域的首次尝试,对于国内育种技术升级换代具有里程碑意义。未来丰登还会通过调用人工智能模型的方式逐步融入图像分析功能,多组学分析功能和决策育种功能,进一步提升育种工作效率,实现智能育种。



 
上一篇   下一篇
 
返回顶部
  技术支持
  关于创泽
  隐私条款
咨询热线
 
销售咨询
4006-935-088 / 4006-937-088
 
客服热线
4008-128-728

版权所有 @ 创泽智能机器人集团股份有限公司
运营中心 / 北京市·清华科技园九号楼5层
生产中心 / 山东省日照市开发区太原路71