This year’s Chinese new year (CNY) break is a little bit different for us. Because Beijing or the government in general discouraged people from returning home (due to COVID) and promoted “celebration in situ / 就地过年”, many people, including me, decided to postpone our home-returning plan.

I eventually put the…

This is also published at https://jiayu.substack.com/p/292

这两天正好是有报道的新冠疫情一周年,ModernaPfizer 的疫苗已经进入冲刺阶段,基本达到 90% 以上的有效性,在英美已经开始申请加急许可了。

我一直在听 Dithering,这个付费播客的两个主播 John GrubberBen Thompson 都是科技界的大佬。上一期他们讨论到一个话题,就是体育运动员(比如橄榄球队成员)能不能优先打疫苗。Ben 说这是一个 no brainer:肯定是的。

结果两天一更的节目,这一期他们就来解释澄清了,因为招致了很多反对的声音。

Ben 重申了一下他的理由:按照现在疫苗预计的生产规模和速度,和几个大型赛事参赛队伍的规模,生产后者所需要的疫苗也就是几分钟的事情,不会耽误太多医务工作者的时间;医务工作者的确是很重要的,没有说他们不应该优先,但是假想体育运动员接种了疫苗之后有什么好处:第一,大型体育赛事至少可以不带观众的恢复,很多人因此可以在家看比赛有事做,起到居家隔离的效果;第二,很多运动员带头打疫苗,对于那些对疫苗持怀疑态度的人也有一个鼓励的作用。John 笑了笑说你其实可以不用解释这么多,因为我对我们的听众有信心。

大家对这个有没有判断力我不知道,至少愿意付费听他们播客的人肯定是筛选过的,应该是愿意听完 Ben 这么一番说道。但是如果是别的情况,我猜可能就没有那么简单了:这个小小的话题背后,其实是一个很深刻的话题:我们应该追求公平,还是效率?

小到火车票买票(比如互联网买票),大到一个国家或者政党的宪法或者施政纲领,都体现了这个深刻的矛盾。很多时候这两者是没办法得兼的,而且甚至不同的人对于怎么做是公平的、怎么做有效率都会有争议 — — 你觉得公平的做法,我不一定觉得公平,而且可能真正有效率的方案,我们都看不到。

如果有一个有效率、最终可以让大家都获益的方案,只是需要短时间牺牲一部分人的利益,短时间内不那么公平,「让一部分人先富起来」,你愿意么?如果有一个主事的人或者团体出来说自己来实施这个方案,你能信任他们吗?如果中途变卦了怎么办?如果结果发现他们认为更有效率的方案其实失败了,或者预先就知道有风险,大家还愿意去冒险么?这个问题听上去抽象的话,想想气候变化和修建核电站的矛盾,就不难理解了。

我这里也不想展开谈自己的见解,因为这块阅读和思考的都还不够深刻,我想思考的是这个问题为什么这么难。

最近在学习强化学习(资料有 Sutton & Barto 的书Coursera 的课,以及 DeepMind 的课),其中一个很重要的概念是 discount factor γ,它指的大概是我们是如何在现在的 reward 和未来的预期 reward 之间获得取舍。(reward 这里的意思是对行为的回报,类似收益或者得分)。

别小看了这个 γ,比如很多强化学习处理的问题是 episodic game,比如围棋、走迷宫等等,有一个明确的起点和终点,结束了可以重来;但是很多现实的问题是没有终点的,我们需要在一个很长甚至无限的时间线上最大化收益(想起了有限与无限的游戏没有?)。处理这种无限时间的收益,必须有一个小于 1 的 discount factor,否则问题是不收敛的(当然另外一方面在 episodic game 里面可以把 γ 设成 1 就可以了)。如果 γ 越小,我们就越只顾眼前利益,我们的规划问题的算法就越「近视 myopic」;反之则看的越长远,但是相对来说收敛速度还有对计算资源的要求可能就会越高(因为要回顾的东西很多)。

但是这个 γ 很多时候是没有一个预设的值的,更多是一个「超参数」,也就是说需要经过多次实验,不断调整,才能找到一个合理高效的值。

a robot can choose left route or right route, with +1 or +2 rewards respectively
一个简单的例子,机器人需要在左边和右边的路上做决策,γ 小就会走左边(活在当下),反之就会走右边(延迟满足),你甚至可以计算出 γ 的临界点。

所以别说国家、社会和人了,就是一个这么小小的机器人,面对一个规则固定的假想游戏,在「现在」和「未来」的取舍上,都需要多次尝试。人的价值观可不那么容易改变,而且不同的人,同一个人现在的他和未来的他,都不一样;人生不能重来,很多重大决策没有回头路,我们该怎么更好怎么面对呢?

近期在公司做了两次分享,因为是内部分享,没有办法分享视频,所以我在这里把文字材料贴出来。

第一个是关于无人驾驶这个话题,主要是其中需要解决的问题和面临的挑战。

Notion 链接是 https://www.notion.so/jiayul/Autonomous-Driving-Quick-Tour-3caaac13aa64430fa82f9f29b0660bfa

第二个是在 Air Reading Group 做了前几年读的一本书的阅读分享,叫做「Crossing the Chasm」。

Slides 链接是 https://crossing-the-chasm.now.sh/

周五(7月31日)参与了一个同事组织的对外线上分享活动,同时也在 B 站有直播。

讨论的话题是「技术人的职业发展和个人成长」,但是主要是从 meta-thinking 的角度来阐释的,因为我本身并不认为一个人可以为另外一个人的成长和发展给特别正确的结论 — — 这个结论和决策是需要自己来亲力亲为的。

分享做的 Slides 我放到了 https://growth.jiayul.me ,以供之后参考用。

Jiayu Liu

Hi there! I’m Jiayu Liu, currently an engineering manager at Airbnb China, located in Beijing.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store