改造机器学习系统的三级阶梯(Seeing, Doing, Imaging)—— 《为什么》笔记下篇

from 专栏 推荐系统工作手册

话题:

机器学习, 因果推理, 推荐系统, Qiang-Chen, 推荐系统工作手册

正文:

bg-img

前言

关于《为什么》¹这本书,上篇文章说到《一样的数据不一样的结论》²,除此之外,同时值得一提的是书中开篇提到人类改造自然环境的三级阶梯:Seeing (观察过去)、Doing (执行现在 )和Imaging(想像未来)。细细想来,工程师改造机器学习系统(推荐系统、搜索系统、广告点击率预估系统等)也离不开这三级阶梯。我借这篇文章结合《为什么》作者的思路,总结一下自己对机器学习系统的思考,在帮助理清自己的思路同时,也希望对大家有所帮助。


人类改造自然环境的三级阶梯:Seeing (观察过去)、Doing (执行现在 )和Imaging(想像未来)

人类改造自然环境的认知能力三级阶梯,Seeing、Doing 和Imaging缺一不可。Seeing是最基本的能力,机器和动物都具有这种能力,感知周围的环境。Doing不同于条件反射式的动作,少部分动物,比如说能够使用工具的黑猩猩,尝试用火来烤食物的智人,具有Doing的能力。

Imaging的能力是人类区分于动物的最大特征,人类可能想象出很多不存在的事物,比如通过鸟联想到飞机,并对鸟的飞行过程的空气动力学进行理解研究,通过Doing创造出能够像飞上天空的飞机。工程师改造机器学习系统和人类改造自然一样需要这三级阶梯的能力。

Seeing(观察过去)


Seeing是认知阶梯当中的第一级,也是基础的一级。

Seeing是认知阶梯当中的第一级,也是基础的一级。人类、动物和机器有不同程度Seeing的能力。书籍、广播媒体、搜索引擎等大大提升了人类了解更多事物的能力,这是人类能够快速发展的原因之一。对于工程师而言,机器学习系统所记录用户行为越精确,越详细,意味着工程师观察系统的能力越强。

有趣的是,《为什么》的作者将利用机器学习算法挖掘出事物之间的相关性这一过程认为是Seeing这级最基础的认知能力,比如挖掘出的相关性,并不能直接推断出因果用来指导现在,预测未来。但是人类的大脑还是很容易将看到的相关度高等同于因果,这是需要引起警惕的。比如通过中药和新冠患者康复的相关性,推导出中药可以有效治疗新冠患者。

在全国10个省(除湖北省以外),66个定点医疗机构已纳入1263名确诊患者,治愈出院的1214例,占到96.12%。57例重症患者采用中西医结合治疗、服用清肺排毒汤的临床观察中,其中42例治愈出院,占到了73.7%,无一例转为危重症型。患者的肺部影像学对比显示,服用清肺排毒汤两个疗程(6天)后,53例(93%)患者的肺部病灶显示不同程度的缩小和吸收。
根据临床研究的数据,清肺排毒汤在阻止轻型、普通型转为重型、危重型方面发挥了积极的作用,阻断了病情的恶化,极大的降低了病亡率,减弱了疫情的危害程度。

上文是来自国务院新闻发布会的内容³,直接从相关度高推出因果是不可取的,它不能排除有可能是和中药同时使用的其它治疗方案帮助患者恢复健康。这里并不是告诉大家中药是否有用,而是说简单地利用过去发生的事情是没有办法直接预测未来的,我们需要科学的手段的来验证因果关系,来帮助预测未来。

Seeing这种能力,能够做的事情非常有限,只能看到中药和新冠患者康复的相关性而已,不能直接指导未来的任何行动。号称有人工智能聊天机器人本质上只有Seeing的认知能力。尽管Seeing的能力带来的实质性的帮助非常有限,Seeing的认知能力是我们改造自然必不可少的基础能力,很难想像看不到自然,如何改造自然。

Doing(执行现在)


认知能力的第二级阶梯是Doing,Doing是执行一个想法的能力,执行计划的能力,干预环境的能力。

认知能力的第二级阶梯是Doing,Doing是执行一个想法的能力,执行计划的能力,干预环境的能力。比如神农尝百草来找到有疗效的中药、爱迪生测试不同的灯丝材料找到耐用的灯丝。这个阶梯的认知能力,不要求我们明白背后的原理,只需要有验证想法的能力。比如不需要理解为什么这个草可以?为什么这种材料的灯丝用的时间长?,但是需要通过实验来验证这些假设的真实性。

我们经常称赞人执行能力强,本质上是说Doing的能力强,可以很快把一个想法变成现实并得到验证。这和Seeing不同,Seeing不能验证想法,只有通过Doing的能力执行想法,通过环境的反馈,才能验证。

对于改造机器学习系统,对应的则是随机对照试验(AB测试)的能力。随机对照试验也是整个人类社会进步的指南针,它也是测试药物的黄金法则,大量的科学试验都是以它为基础。大量的科技公司也用此来衡量一个软件特性是否提升了用户体验。对于机器学习系统的迭代,随机对照试验就像大海茫茫当中大船的指南针,来指引前进的方向。

Doing的能力对人类改造自然,发现验证有效的想法至关重要,对于机器学习而言也是如此,如果机器学习系统没有实验的能力,那么很遗憾在,这个系统得不到改造,就像只有观察能力的动物一样不能改造自然。

更多关于随机对照试验的内容,可以参照之前的专栏文章⁴ ⁵。

Imaging(想象未来)


认知能力阶梯的最上级是Imaging,也就是提出想法的能力,如果做了什么,会怎么样。

认知能力阶梯的最上级是Imaging,也就是提出想法的能力,如果做了什么,会怎么样。动物有Seeing的能力,某些动物有Doing的能力,但是Imaging的能力远不如人类,正因为人类的想像力,人类不断地发明新事物:飞机、高楼大厦、计算机等等。

为了提出可靠的想法,需要对事物有深入的理解和分析。Seeing和Doing的能力的提升都会对Imaging的能力有所帮助。

对于机器学习工程师,需要不断地深入思考,理解实验结果,发挥Imaging的能力,才能提出可能奏效下一个实验计划。而不能光利用Doing,像无头苍蝇一样随机地作各种尝试。

总结

以推荐系统为例,机器学习工程师的核心工作就是为广大用户提供更好的推荐结果,需要不断地提出新的方法改造现有的系统。为了达到这个目标:需要提升Seeing、Doing和Imaging的能力。

  • Seeing: 要求工程师为系统增加记录的能力,详细准确地记录,推荐系统的行为和用户的行为,提供工程师Seeing的认识能力,只有有能力看见现有的系统,才有能力改造现有的系统。
  • Doing:要求工程师对不同的改造系统的想法,有高效的代码实现的能力,要求系统支持随机对照试验来测验这个想法。
  • Imaging:要求工程师从失败成功的实验当中,深度理解用户行为,提出新的可能奏效想法。

在改造自然方面,Imaging是整个人类的核心竞争力之一。改造机器学习系统,Imaging的能力也非常重要。机器学习工程师在发展Seeing和Doing的能力同时,也需要加强对Imaging的能力的培养和运用。