2020-06-19 18:39

车牌的秘密：如何只看车牌号就知道什么时候买车险？

青十五

本文来自微信公众号：青十五（ID：qingshiwu365），作者：青十五，题图来自：IC photo

今天我们聊一个小案例，看看一个业务问题是怎样被抽丝剥茧最后找到高效的解决策略。

在做B端业务时，我曾经接到过一个这样的任务：

客户来自保险行业，历史上有很多承保过车险的用户，因此累积了很多用户相关的车险数据，数据维度也很丰富，包括车险承保各信息：投保人、被保人、车牌号、车辆初次登记年月、车险起保时间、车架号、保险责任与保额等等。

同时，客户提供的一些其他在线车后服务（如违章查询、车主社区等）也有很多用户，但这些用户大部分是历史上从未在客户处承保车险的，因此数据维度比较匮乏，只有一个车牌号和可联系触达到用户的方式（如短信电话、APP Push等）。

客户希望针对这部分在线车后服务的用户销售车险，目前的营销方案可以说是没有方案，即对所有用户都去触达营销（随机基准策略），这一方案的结果是很容易引起用户反感与投诉。所以现在问题来了，有没有办法仅仅依靠这个车牌号，设计和优化车险的营销策略？即求解这一业务函数：

f（车牌号）=是否营销

从对业务的理解开始

说实话，刚接到这个任务时我整个人都是懵逼的，仅仅根据一个车牌号设计车险营销策略，这怎么可能？

说到这里就不得不提到策略的第二个重要来源，也是一个老生常谈的观点：对业务的深入理解是策略的源泉。

随着对车险业务的了解，我开始觉得这个事情，有戏！

首先，在车险业务中的一个常识是：用户可续保车险的时间是有时间范围的，绝大多数城市要在上一份车险到期前3个月内才能续保次年车险，并且从数据上看，大部分用户续保都是在临近到期前1个月完成的——这也很容易理解，毕竟拖延症是人类的通病。

所以如果是随机营销的策略，那么意味着先不论用户有没有续保意愿，首先平均而言有75%的用户压根就不在车险续保期内，这就难怪用户要投诉了；如果考虑到大部分人是临近车险到期1个月才续保，那么营销的转化率又要降低三分之二。假如我们能准确预测用户车险到期时间，哪怕是预测到月份，那么至少也能够把一些明显不在续保期的和不那么有续保意愿的用户排除在外，与随机基准策略相比就能够大幅提升营销准确率。

因此对于原来问题的业务函数，我们可以纵向拆解如下：

从而将核心问题从原来的根据车牌号设计营销策略，转化成了根据车牌号预测车险到期时间的问题：

f（车牌号）=车险到期时间

至于车险到期时间，由于大部分人都是从车辆购买注册上牌开始，车险一年一续，因此我们可以将车险到期时间往前倒推至车辆注册时间，也即将问题转化为求解车牌上牌时间，因为两者的月份都是相同的^[1]。

车牌发放规则

为了推算车牌号的上牌或发放时间，接下来让我们把目光投向车牌注册与发放规则这一块来。国内的车牌号^[2]一共7位，第一位为省市简称，第二位为各省市下地级市或区县代码，后五位由数字或字母组成：

车牌号的发放与管理是由各区县级车管所负责的，每个车管所发放规则不一，从车牌发放历史来看大致来说有以下几种：

1）最早的车牌都是数字车牌，从00000或00001开始按顺序发放；

2）随着汽车保有量的发展，发现按原有规则的话车牌很快就被发完了，因此开始发放一些带字母的车牌，并衍生出号段的概念。例如从A0000到A9999发放A号段车牌，然后是B号段车牌，以此类推；或者将某些号段专门保留出来预留给特殊用车，如政府用车、出租车等；也有在一段时间内按一定的规则固定某几位，剩下几位视为号段发放的策略，例如南京车管所实行的这一车牌号发放规则^[3]：

3）在少数经济发展较快的地区，汽车保有量的快速上升继续突破了大家对号牌资源的预期。随着原有号段车牌资源被耗尽，同时考虑到有车家庭对个性化自主选择车牌的需求，开始出现新的车牌发放规则——自编号牌或随机机选+自选号牌，例如京N、京Q等。

车牌发放时间预测模型

因此，如果要推算车牌号的发放时间，一个简单的方法是从保有量较大的城市开始，寻找尽可能多的车管所网站，将其公布的规则编制为车牌-发放时间映射表，用分段函数来实现——即之前我们介绍过的基于业务规则的基准策略。

但这样一来人工成本就比较高了，毕竟中国有约300个地级行政单位，约3000个县级行政单位，同时每个行政单位下的车管所可能历史上有多个车牌发放的规则；并且即便是从保有量较大的地区开始寻找，也不能确保每个车管所都将车牌发放规则对外公布到了网站上。

那有没有其他更好的解决方案？考虑到前面的车牌发放历史，我们最终用于车牌发放时间预测的，是一个非常简洁的基于汉明距离的变种KNN模型：即把一个车牌号的发放年月预测为距离该车牌号的汉明距离在K（一般取K=2）以内的所有同地市车牌里，相同年月出现次数最多的那个年月。

怎么解读这一模型呢？首先根据汉明距离的定义：汉明距离（Hamming distance）是指两个等长的字符串中所有对应位置下不同字符的数量，对于前面提到的车牌发放规则中常见的前两类，可预见的是发放时间接近的两个车牌其汉明距离也较小，一般都在2以内，例如（以下均以“车A”这一虚拟车牌号前缀举例）：

按顺序发放的车牌，如车牌“车A 12345”和“车A 12346”（汉明距离为1）、“车A 12345”和“车A 12354”（汉明距离为2）。
按号段发放的车牌，如车牌“车A 7D00K”和“车A 7D05K”（汉明距离为1）、“车A 7D00K”和“车A 7D55K”（汉明距离为2）。

其次，与目标车牌号汉明距离在2以内的所有车牌中，除了上面这些同一时段发放的车牌以外，也有一些其他时段发放的车牌，但都比较分散，并没有这些同时段发放的车牌的时间段那么集中。因此当数据密度达到一定程度时，同时段的车牌将在汉明距离为2以内的范围中占据更大的比重，如下图所示：

这意味着一个地区车的保有量越大，数据密度也就越大，该模型的效果也就越稳定，这对我们来说是个好消息，因为这同时也就恰好意味着该模型覆盖的用户量越大，模型对业务的帮助越大。

预测结果

最终的预测结果也和前面的假设一致，在车保有量较大的地区，对于按顺序发放的车牌（如京L等）和号段发放的车牌（如苏A等），模型对车牌发放年月的预测准确率达到了50%以上甚至更高，远远高于随机猜测月份的准确率1/12=8.3%；对于一些支持用户自编自选的车牌（如京N等），由于不存在上述规律，效果就没有那么好了，年月准确率低于10%，也在预期之中。

后续新数据的引入以及模型的进一步优化这里就不再展开了，从业务的角度而言，在并未消耗过多开发成本和人力成本的情况下，我们用一个简洁的基本模型，成功对客户服务的一些地区车险营销成功率实现了数倍的提升，也大幅降低了用户投诉率。

同时通过这一案例我们也看到，随着对业务的深入理解，我们能够将一个业务问题进行逐步拆解，也让策略设计从不可能变为了可能。

[1] 一般过户车辆的注册登记年月与车险起保年月会有差异，因此可以根据这一条线索将过户车辆从样本数据中剔除，仅保留未过户过的车辆数据

[2] 仅讨论家用客车车牌号，同时由于项目实施时新能源车牌较少，因此暂未考虑新能源车牌

[3] https://nkg.122.gov.cn/views/vehxhhdpub.html

本文来自微信公众号：青十五（ID：qingshiwu365），作者：青十五

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

频道：车与出行