扫码打开虎嗅APP
本文来自微信公众号: 极海品牌监测 ,作者:王龙,原文标题:《北京5000多个 “商圈” 分布在哪里?》
无论是人们常说商圈,还是极海定义的“集店圈”,本质上都是一个面
形成这个面的,通常是由商户构成的点
从点到面,是一个本质性的飞跃
搭建二者桥梁的,主要是缓冲、网格和聚类+凸包三个工具
虽然原理上大有不同,但本质上是一类工具
因为他们都基于同一个假设:点是没有方向,且均匀扩散的
这一假设损失了一些细节,但极大的提高了效率,方便了分析
所以在大多数情况下是够用的
但如果我们聚焦到更具体、更微观的的选址落地时
比如一家咖啡店的选址推荐,周边分析
也就是——
当我们开始重视一个人的步行半径的时候
这一假设常常带来误导
这个感觉,夸张的说
有点像从宏观物理来到微观物理,牛顿经典力学失效了一样
下面这张图,是以北京CBD为中心展示的商业网点分布情况

如果我们用100米这样一个并不算太大的距离去聚类和凸包
得到的结果是这样的

注:图中过滤掉了少于10个点的聚合面
很明显,这是一个糟糕的结果,因为他过分连接
像一团浆糊损失了太多的区分度
如果做20米,会不会更好呢?
可以,但又滑向了另一个极端,丢失掉大多数小型商业区、街边店

注:图中过滤掉了少于10个点的聚合面
如果我们不仅仅关注商场,这样的损失就不能忽视
问题似乎出在缓冲的阈值上
但纠结在上面是没有答案的
一个很自然的想法是——
设置一个弹性的阈值,在密度大的地方用小阈值,在密度小的地方用大阈值
这里我们先不谈是如何实现的,得到的结果是这样的

注:图中过滤掉了少于10个点的聚合面
已经好了很多,至少从视觉上来说区分度还不错
相较于20米,覆盖度也高了很多
但还是禁不住细看,集中在两个方面:
一是跨街合并的问题还是很多

二是对街边店的概括能力不足

一个过度合并,一个合并不足,看似两个截然不同的现象背后
本质上都是因为这些工具的无向性假设
忽略了道路对商圈的切割,单纯依赖没有方向的距离
对街边店的概括能力不足
是因为线性分布的商圈只有前后两个方向有点,不容易满足聚类阈值
但如果路的两侧都有点,增加了方向来源,就很容易跨区合并

所以我说纠结阈值是没有用的
方向错了,调参只会导致过拟合,进而损失普遍性
方向性聚类:区分度与聚合度兼得
极海解决方案是“方向性聚类”
让聚类能够基于路网识别方向
为同一方向的点匹配更大的阈值,不同方向的点匹配更小的阈值
在这一规则下,我们得到的聚类结果是这样的
我们先看细节图

然后再看大图
这些边界没有任何手绘,而是纯算法驱动生成的结果
这是国贸CBD

这是王府井

这是三里屯
这是胡同很多的簋街

这是地形复杂,布局诡异的十里河,这里有一个非常大的花鸟鱼虫市场

这一方法有两个明显的优势

在密集区域的区分度
在稀疏区域的覆盖度
刚刚那些图展示的都他的区分度,也就是将核心商圈进行区隔的能力
那为什么这个方法覆盖度会更好呢?
因为过去我们常常要在二者之间取一个平衡去适配大多数情况
但基于方向性聚类这一算法,不需要了,因为道路拥有更强的约束力
所以可以直接将距离放大到50米,100米
从原理上解决了传统方案覆盖度不足的问题
这张图中的每一个点都是一个商圈

10家店以上的有5600多个
20家店以上的有2800多个
50家以上的900多个
100家以上的有330多个
其中商户数量最多的是龙湖长楹天街,有1000多家店
所谓的死胡同,就是在一条错误的道路上不断精进
这篇文章也是我在北京城市规划院的年终学术交流研讨会中的一场分享
受限于篇幅和形式,删减了大量技术性细节,但总的逻辑仍然非常有建设性
我在研究过程中最大的感受是——
如果你发现一条路线走到最后怎么调都不对,往往是路线错了
比如在方向性聚类之前,我一直在聚类阈值上下功夫,但结果总是差强人意
这个时候就要退回去思考,是不是我们根本没有触及问题的本质,一直在外围打转
另外举个例子,在选址加密问题中,一个非常很难回答的问题是,一个商圈到底能开几家店?
以往我们都是围绕商圈里的人口,客流,商户等数据去分析,但我发现,
正确的问题不在于一个商圈能开几家店
而在于商圈画大了,我们应该划分出那些刚好能开一家店的商圈
希望我的分享对大家有所帮助