毫末DriveGPT大模型刷屏，有人问马斯克：你慌不慌？

自动驾驶圈又㕛叒叕“出”大事了！

今天一大早，在朋友圈和各种群里刷到这样一条新闻：DriveGPT来了！

(相关资料图)

DriveGPT到底是个啥？百度搜一下。

这才一天，已经爆了！百度搜索结果就冲到700万了。然后是谷歌和Bing：

然后注意到这家外媒（这是火出汉语圈了呀）

看热闹怎么能不去Twitter……这里竟然也有人在讨论DriveGPT

居然这位大叔圈了马斯克，说：

有人比你们更快啊！

言外之意，这不是挑事么？

当然，估计有网友也想看看马斯克同志能回个信~手动狗头

吃了半天瓜，还是要言归正传，简单回顾下这个事情。

首先，毫末是谁？

这家公司全名是毫末智行，是中国一家刚刚成立三年的自动驾驶独角兽公司，有乘用车辅助驾驶和末端物流自动配送车等业务。在短时间内，就做到了中国量产自动驾驶第一名的位置。

这家公司很努力，两年间就搞出了中国第一个自动驾驶数据智能体系，而且发展速度还特别快。

稍微关注这家公司的话，基本就是每三四个月迭代一次技术版本，交的作业还特别亮眼~

比如去年4月，毫末就在行业率先喊出了“重感知”的路线，其实就是特斯拉技术路线的中国版。不过，毫末的感知方案里还保留了“激光雷达”，搞一个双冗余。

里面大篇幅提到了“Transformer”、“BEV感知”，这些概念后面承包了整个自动驾驶行业的新闻稿。

那么，DriveGPT又是啥？

DriveGPT，按毫末官方的说法，就是一个自动驾驶认知大模型，具体的叫法就是“人驾自监督认知大模型”。

字每个都认识，连起来就不知道啥意思了吧。

简单来说，实现自动驾驶，分这么三步：

感知（看见东西）、认知（预测、决策、规划）、控制执行

以往行业的关注点都是在感知层面，因为感知这一块就已经够难搞了，认知层面其实是更加难搞。

很多自动驾驶公司谈到这块都会隐晦不言。

那不如看看毫末是怎么说的吧

当前自动驾驶认知主要是靠传统规则定义的算法来做决策规划。但是这一方法进入瓶颈期，难以取得图谱。特别是在马上到来的复杂城市场景。

所以，毫末就开始尝试使用人驾自监督大模型的方式来提升决策效果。

那么，毫末是怎么做的呢？——大致也分了三阶段：

第一个阶段，引入个别场景的端到端的模仿学习，直接拟合人驾行为；

第二个阶段，通过认知大模型，引入海量正常人驾数据，通过Prompt的方式实现认知决策的可控、可解释；

第三个阶段，也就是毫末认知决策算法现在处于的阶段，引入真实接管数据，并在大模型中开始使用RLHF（人类反馈强化学习）算法，让模型学习人驾接管数据。

为啥要开始采用RLHF算法呢？

毫末CEO顾维灏说，用大模型去拟合海量人驾数据，会导致训练出的模型倾向于拟合平均值，而非最优值，也就是练出一个普通司机的水平。

所以，第三阶段，引入这个和ChatGPT采用同样强化学习的RLHF技术，就是要去学习那些人类更好的驾驶策略，来优化自己的算法。

也就是说，当毫末认知决策算法通过拟合、学习人驾数据，具有一定的驾驶决策能力后，毫末构建了一个自动驾驶决策的奖励模型（reward model），从而在各种规划场景情况下做出最优的决策。

所以，毫末CEO顾维灏才会在今年1月AI DAY上，提到自家的认知大模型和ChatGPT思路不谋而合。现在想来，当时的判断确实是比较有前瞻性的！

事实上，毫末最早在行业就布局研究Transformer大模型，现在又提前将ChatGPT技术纳入自己的技术体系

所以，为啥是毫末搞出了DriveGPT！

其实就是天下武功，唯快不破！

那DriveGPT到底有多能打呢？恐怕还得期待今年4月份毫末的发布。

如果说，从毫末DriveGPT里学到点什么经验呢？

我们可以从这个图里找到答案！

每一次的技术飞跃，不就是一群技术狂人的孤注一掷吗？

如果说一次技术革命必然有一个确定的结果的话，那恐怕这个世界会非常的无聊。

但正是一些难以企及的目标和一些敢为人先的勇气，就会鞭策我们全力奔跑。

取乎其上，得乎其中……古人把生存的智慧早就写好了。