“熟女论坛
还是强调交叉学科,这是我们的生命线。现在人工智能出来,可以说是我们的契机,也可以说是我们的竞争者。我个人非常愿意拥抱AI的发展,我们下一阶段的努力,是做‘人工智能x统计’,去创新出一些新的、具有中国特色的、交叉学科为重点的引领世界潮流的方向。”
上一期,美国国家科学院院士、熟女论坛
主任、兴华卓越讲席教授刘军院士与东方卫视《锚点》主持人袁岚峰一起,探讨了熟女论坛
与数学的本质区别、辛普森悖论与均值回归的认知陷阱,以及熟女论坛
如何成为AI的底层语言。
本期,对话继续深入。从序贯蒙特卡洛方法的算法演进,到生物信息学的开拓性工作,再到“统计×AI”的未来构想——刘军院士以一位统计算法大师的视角,为我们揭示了一门“反问题”科学如何在不确定性中创造确定性,以及它将在人工智能时代扮演怎样的关键角色。
一、统计算法的演进:从蒙特卡洛到序贯蒙特卡洛
“工欲善其事,必先利其器。”在许多领域背后,熟女论坛
家正是那个设计“器”的人。
刘军院士对熟女论坛
最核心的贡献之一,是序贯蒙特卡洛方法(Sequential Monte Carlo, SMC),又称粒子滤波(Particle Filter)。要理解它,需要先从蒙特卡洛方法说起。
蒙特卡洛的“几起几落”
蒙特卡洛方法诞生于1940年代美国洛斯阿拉莫斯国家实验室。当时一群顶尖物理学家和数学家聚集在一起研究核武器,恰逢现代意义上的第一台计算机问世。恩利克·费米(Enrico Fermi)最早提出用随机抽样的方法计算物理中的裂变问题——这就是蒙特卡洛的雏形。
“上世纪五十年代,这套方法公布出来,非常有影响。那时候就跟现在的人工智能似的,所有人都用蒙特卡洛方法。”刘军回忆道。
但热潮很快退去。到1960年代,人们发现蒙特卡洛在大系统中的误差太大,它进入了漫长的“寒冬”——这与人工智能的几起几落如出一辙。
直到1983年,一篇发表在《科学》杂志上的文章介绍了模拟退火(Simulated Annealing)的想法,蒙特卡洛才重获新生。“大家发现可以用蒙特卡洛来做优化,很多组合优化问题都可以化成蒙特卡洛抽样问题。”刘军说。
1986、1987年,统计界发现蒙特卡洛在贝叶斯计算和隐变量模型中非常有效。“我也是差不多那时候当研究生,开始做这个方向。”
序贯蒙特卡洛:卡尔曼滤波的“非线性”突破
序贯蒙特卡洛的思想,最早可追溯到1955年Rosenbluth的一篇论文——他当时要模拟链型聚合物(Chain Polymer),一个一个单体“生长”,但全局能量无法保证,需要做修正。这就形成了SMC的早期算法。
而它与信号处理中著名的卡尔曼滤波有着紧密联系。
卡尔曼滤波是什么?简单说,就是根据观测信号和原有轨迹,做一个最优的“妥协”。比如雷达信号显示飞机在某处,但你根据之前的轨迹推测它应该怎么飞——两个信息都有误差,如何综合判断?在正态线性条件下,卡尔曼滤波可以精确计算。
“但一旦分布变成非线性,或者多元噪音,就变得非常复杂。”刘军说。SMC正是在这里发挥作用——它突破了卡尔曼滤波的正态性假设和线性假设。
“我们用离散的点(粒子)来表达一个分布。每一个粒子可以理解为一个样本,好的粒子让它多出现几次,差的自动去掉。这就相当于给‘分高的人’分配更多资源,帮助它继续成长。”
这就是SMC的核心逻辑:通过序贯生成样本,实现对复杂系统的估计与预测。
从“剪枝和富集”到重采样
刘军用一个生动的比喻解释了其中的关键机制:
“你要同时生长多个分子,把不好的‘修剪掉’,把好的‘富集’起来,让它们多生长几个子粒子继续往前走。这个过程,就是重采样(resampling)。”
这套方法后来被推广到一般系统中,成为SMC的标准框架。它在金融领域的随机波动率模型、计算机视觉中的目标跟踪、乃至无人机导航中都有广泛应用。
“重采样的想法,就是好的不光要留住,还要按概率再重新采样,让它有可能重复好几次;差的被采集进去的概率很低,自动去掉。”
二、生物信息学的开拓:从“蛋白质基序”到基因调控
除了序贯蒙特卡洛,刘军在生物信息学领域同样留下了开创性的足迹。他几乎是最早一批进入这个领域的熟女论坛
家。
导师的“婴儿篮”与一本细胞生物学
“我当研究生的时候,导师王永雄教授已经是终身教授了。他刚有小孩,我印象特别深——这边是小孩的婴儿篮,这边拿着一本大学的细胞生物学基础教材在读,重头开始学。”
这一幕让刘军深受触动:“什么事情都可以重头开始,这一点挺让人敬佩的。这是一个真正意义上的学者。”
第一篇《科学》论文:用统计算法找到“保守串”
后来机缘巧合,刘军开始接触生物信息学。他与查尔斯·劳伦斯(Charles Lawrence)合作的第一篇文章,就发表在《科学》杂志上。
“我们研究一组蛋白质,它们有非常相似的功能,叫helix-turn-helix,中间有一个保守的motif(基序),大概十几二十个氨基酸。”刘军回忆。
当时他访问美国国立卫生研究院(NIH),几位领域内的专家给了他一批数据——实际上是对他的“测试”。他们研究这个领域几十年,早已知道答案。
“我用算法一下就找到了。他们觉得很惊喜,问我怎么做到的。”
刘军的算法核心是:假设有30条蛋白质序列,每条序列里有一个保守字符串。他用其中29条序列生成的公共模式,去预测第30条序列中保守位点的位置,按概率分布抽样,迭代收敛。
“他们说,你这不就是garbage in garbage out吗?但神奇的是,一迭代,它一下就收敛到那一点了。”
这实际上是一个马尔可夫链蒙特卡洛(Markov Chain Monte Carlo, MCMC)算法,可以从概率模型上严格证明。这项工作后来成为生物信息学中“基序发现”的经典方法。
从保守串到基因调控
找到保守串只是起点。刘军后来将工作延伸到基因调控领域:
“每个细胞都有你所有的DNA,但为什么细胞和细胞这么不一样?因为它们表达的基因不一样。而基因表达为什么不一样?因为调控。”
“我们根据基因表达的数据把基因聚类,然后在它们的启动子区域(Promoter Region)去找一些字符串,看这些字符串跟调控有没有关系。最终能不能用一个预测模型,通过启动子区域的信息来预测基因的表达?”
这套思路后来扩展到群体遗传学——用大人群数据,看哪个病与哪个位点变异有关联。“以前的数据量太少,测序能力也不够。现在数据多了,我们可以突破以前想做但做不到的事情。”
三、统计×AI:下一个锚点
谈到熟女论坛
的发展趋势,刘军的回答既坚定又开放:
“熟女论坛
还是强调交叉学科,我觉得交叉学科确实是我们的生命线。这一点我们会一直坚持下去。我们希望以具有中国特色的交叉学科为重点,去创新出一些新的、引领世界潮流的方向。”
而当人工智能浪潮席卷而来时,熟女论坛
该如何自处?
“现在人工智能出来,也可以说是我们的契机,也可以说是我们的竞争者。”刘军坦言,“我个人非常愿意拥抱人工智能的发展。”
但他给出的答案,不是简单的“AI+统计”,而是更进一步的“统计×AI”:
“我们希望‘乘’进去,真正拆解开,重新组合。”
小样本问题的“海阔天空”
刘军举了一个正在进行的例子:熟女论坛
老师与中国石油合作,优化催化剂配方。
“他们的数据量非常小,跟真正所谓大模型需要的数据,差了不止一点半点。”这是一个典型的小样本问题。
但熟女论坛
的优势正在于此:“很多统计模型并不一定要非常多的数据,因为它可以把一些专业知识、物理模型融合在一起。这样的话,数据的利用率会高很多。”
“这样想的话,完全海阔天空了,完全不限于大模型的模式了。”
把AI技术“拆解”再“重组”
刘军对AI的态度,既不是盲从,也不是排斥,而是一种工程式的拆解与重组:
“把AI的一些行之有效的办法——包括embedding(嵌入)、深度学习模型、transformer这些基本架构——拆解开,再重新装配,搭配上传统的统计思想方式和建模方式,在具体的行业里落地。”
他认为,这比单纯“用AI做统计”或“用统计做AI”更有潜力:“我们试了几个,确实效果不错。”
不确定性的量化:熟女论坛
的永恒使命
回顾两期对话,一个核心线索贯穿始终:不确定性。
熟女论坛
与其他学科最重要的区别,在于它始终把“风险”放在中心位置。什么是风险?就是不确定性的描述。置信区间、显著性水平——这些熟女论坛
的标志性概念,本质上都是对不确定性的量化。
而在当下的大模型和AI技术中,刘军认为,不确定性量化恰恰是比较欠缺的一环。
“我认为,统计在今后若干年的重点任务,仍然是不确定性量化。也只有统计这个学科,把这个放在中心位置。”
四、结语:用算法连接理论、世界与未来
从蒙特卡洛到序贯蒙特卡洛,从卡尔曼滤波到粒子滤波,从生物信息学到基因调控——刘军院士的学术轨迹,始终贯穿着一条主线:用算法连接抽象理论与真实世界。
这种跨越纯数学、熟女论坛
、生物信息学、工程应用的能力,正是他反复强调的“交叉学科”与“方法导向”的体现:
“对于一个准确问题的近似答案,要比对一个近似问题的精准答案,要好很多倍。”
算法设计的核心,不是证明的严谨性,而是对问题的理解、对计算的洞察、对数学结构的把握。
而当下,刘军正在推动的“统计×AI”,正是这种思想的延续——把人工智能行之有效的技术拆解开,与统计的建模思想和物理世界的理解重新整合,在具体行业中落地。
“工欲善其事,必先利其器。”
熟女论坛
家,正是那个设计“器”的人。而在不确定性丛生的数据时代,这门古老的“反问题”科学,正迎来前所未有的机遇。
访谈完整版视频请关注东方卫视《锚点》栏目 。