欢迎阅读《励学志》第五期,这是励学党支部精心打造的实用信息分享系列推送。励学党支部致力于将每一场精彩的讲座转化为干货满满的文字总结,如毕设、本基、就业分享会等。在这里,你将收获知识、技能和灵感,助你在学术和职业道路上一臂之力。让我们一起探索、学习、成长!
本期《励学志》聚焦于2025年5月10日举办的“虚实共生:AI 建模解锁生命科学‘第二实验室’”朋辈交流研讨会。
PART01主题分享
(一)为什么生物中需要建模
(1) 生物系统错综复杂,基因调控网络、代谢通路、信号转导……其内部逻辑往往超出人类直觉。面对这样的复杂性,仅靠传统实验手段,难以全面把握其动态行为,并且某些实验实现困难、繁杂、周期长。
(2) 建模作为“数学语言”,让实验前有预测、设计中有反馈、结果后可验证。
(3) 在 iGEM 比赛中,建模不仅是评委关注的核心评估维度之一,也是指导实验设计、节省试剂资源、提升工程循环效率的重要武器。我们通过模型,不只是“描述”实验,更是“预测”与“控制”实验。
(二)我们用建模实现了什么
建模不仅仅是“画个图”,而是直接参与了整个系统的设计与迭代:
(1)设计指导:帮助我们选择更优构建路径,减少试验次数与成本;
(2)参数优化:协助我们选取适合的启动子强度、调控元件浓度范围;
(3)动态模拟:模拟蛋白表达与代谢积累,预估表达峰值与启动时机。
(三)生物中如何进行建模
数学建模本质上是“转化”,先将我们目前拟解决的实际问题归类到某一类数学问题,之后结合具体情况从大类中选择合适的算法,再建模,最后进行求解。
A.从生物机制中提取核心变量与因果关系
(1)变量设定:如酶浓度、mRNA产量、蛋白表达强度等;
(2)关系建模:用微分方程描述动力学、用布尔逻辑模拟开关控制。
B.数学问题常见问题及算法
(1)评价类问题
目标:建立指标体系评估方案有效性(如基因编辑效率、药物安全性等);
步骤:选择合适的评价指标→确定各指标的权重→评价合成最终结果。
(2)预测类问题
目标:基于历史数据推断系统动态(如疾病传播趋势、细胞生长轨迹等);
方法:时间序列分析(ARIMA、LSTM)、回归模型(线性回归、随机森林),适用于中/小样本或大样本长期预测。
步骤:
(3) 优化类问题
目标:在约束条件下求解最优解(如实验资源分配、种植策略优化);
步骤:
案例:2024 年国赛 C 题 “农村有机种植优化”,通过遗传算法改进(“育种者遗传算法”)处理地块面积、轮作规则(豆类三年必种一次)等复杂约束,最大化收益。
C.算法学习方法
(1) 如何快速学习算法?
仅仅针对数学建模而言,最重要的是掌握每种算法的应用场景,条件限制,大概的输入和输出,以及使用方法。如果时间充足,再去学习算法的底层逻辑。
(2)示例——决策树算法学习
①使用场景:多分类问题(可以允许多个特征,然后有多个类别);
②条件限制:训练此模型的数据需要有准确的标注;
③输入:训练数据,包括各个特征的值,以及准确的分类标签;
④输出:构建好的一棵“决策树”;
⑤使用方法:向决策树输入新样本(只有各个特征的值,没有分类标签),可以输出样本的类别。
D.生物学研究中的建模工具
(1)数学建模平台
①MATLAB & SimBiology:常用于构建ODE模型,适合动力学分析;
②COPASI:图形化建模,支持多种建模方式(ODE、离散模拟);
③Tellurium & SBML:生物系统标准建模语言与模拟平台。
(2) 数据分析平台
①Python(NumPy, SciPy, Pandas):适合自定义建模和模拟;
②R(ggplot2, deSolve):多用于可视化和模型拟合;
③Jupyter Notebook:交互式建模 + 代码复现神器。
(3) AI与建模融合
①TensorFlow/PyTorch:用于构建神经网络,如蛋白质结构预测、图神经网络建模;
②AlphaFold、RoseTTAFold:深度学习在分子建模的标志性应用。
E.与实验互动
参数拟合→模型预测→实验验证→模型优化
(四)生物中的数学建模
(1) 生物实验中的经典模型
模型名称 |
生物应用场景 |
Michaelis-Menten |
酶促反应动力学分析,优化底物浓度配比(如工业酶制剂生产中底物添加策略)。 |
Logistic 增长模型 |
微生物培养优化,通过S型曲线确定对数生长期采样时间,评估培养周期(如发酵工程参数设定)。 |
常微分方程(ODE) |
信号通路动态模拟(如 MAPK 通路磷酸化级联反应),推导突变或药物扰动下的机制变化。 |
药代动力学(PK)模型 |
药物剂量设计,通过AUC(曲线下面积)计算靶向给药方案(如癌症化疗药物缓释系统开发)。 |
(2) AlphaFold:深度学习重构结构生物学
a.AlphaFold是什么?
由DeepMind开发的深度学习模型,它能根据氨基酸序列高精度地预测蛋白质的三维结构,在CASP比赛中达到实验级精度。
b. 它厉害在哪儿?
①无需昂贵实验,几小时内完成结构预测;
②覆盖整个人类蛋白质组(AlphaFold DB已开放2亿+结构);
③加速新药开发、功能预测、酶设计等一系列生命科学研究;
④就像显微镜让我们“看见细胞”,AlphaFold 让我们“看见构造生命的拼图”。
c. AlphaFold的底层逻辑
①利用 Transformer 架构,学习序列中的远程依赖关系;
②引入多序列比对(MSA)与图卷积网络(GNN),理解进化背景与空间约束;
③最终输出的是原子级的结构预测结果,甚至包含可信度评分(pLDDT)。
d. 深度学习还能做什么?
①预测蛋白-蛋白/蛋白-DNA 相互作用;
②识别功能位点与突变效应;
③模拟分子动力学过程,探索蛋白质折叠通路。
(3) 农村有机种植优化模型——国赛C题实战
a.阅读题意,问题拆解
①约束条件:地块类型(平旱地 / 梯田 / 山坡地 / 水浇地 / 大棚)、作物重茬限制(不可连续种植)、豆类种植周期(三年至少一次)、种植分散度约束;
②目标函数:收益最大化,考虑产量、价格、成本及滞销处理(正常销售 / 50% 降价)。
b.不断优化,算法创新
针对传统遗传算法生成可行解效率低的问题,提出“育种者遗传算法”:
①启发式初始化:按地块种植规则(如水浇地第二季限种大白菜等)固定无效解区域(直接设为 0),减少搜索空间;
②死解修复机制:交叉 / 变异后自动修正违反轮作、面积约束的个体,提升收敛速度。
PART02 总结与建议
无论是生物还是其他学科,都需要我们积极观察生活中的问题,提出自己的解决方案进行数学建模。人工智能与生命科学的交融正开辟科研新路径——数学建模构建逻辑框架,人工智能挖掘数据价值,生命科学提供探索空间。希望有越来越多的同学们投身其中,拓宽学术视野,以跨学科智慧攻克难题,书写科研新篇章。