|
距离度量的几种方法之四:闵可夫斯基距离
原创 盘古大陆 盘古大陆 2025 年 07 月 23 日 15:17 北京
闵可夫斯基距离是 n 维空间中度量两个点之间距离的一种广义化距离度量方法,由德国数学家赫尔曼・闵可夫斯基(Hermann Minkowski)提出。它通过引入参数 p(p ≥1)来统一多种常见的距离度量,它是距离度量家族中一个非常基础和强大的通用框架,许多常用的距离(如曼哈顿距离、欧氏距离、切比雪夫距离)都是它的特例。
一、闵可夫斯基距离的定义
闵可夫斯基距离是在赋范向量空间(通常是欧几里得空间)中定义的一种距离度量,用于衡量该空间中两个点之间的差异程度。它本质上是曼哈顿距离(L1)和欧氏距离(L2)的推广形式,并通过一个参数 p 来控制距离计算的方式,进而影响其几何和统计特性。
直观理解: 想象在多维空间中,从点 A 到点 B 有无数条路径。闵可夫斯基距离并不是指某条特定路径的长度,而是通过一个参数 p 定义了一种计算“综合路径长度”的规则。不同的 p 值强调维度差异的不同聚合方式:
○ p=1 :只允许沿坐标轴方向移动(像在城市街区开车),距离是各维度绝对差之和(曼哈顿距离)。
○ p=2 :允许走直线(像鸟儿飞行),距离是欧氏距离。
○ p→∞ :只关心移动距离最大的那个维度(像国王走棋盘对角线),距离是切比雪夫距离(L∞)。
二、闵可夫斯基距离的计算公式
对于 n 维空间中的两个点 X =(x1, x2, ..., xn)和 Y =(y1, y2, ..., yn),闵可夫斯基距离的计算公式为:
其中,p 为距离阶数(正实数,p≥1),| xi - yi | 表示两点在第 i 维上的绝对差值。
三、闵可夫斯基距离性质
闵可夫斯基距离具有以下重要数学性质:
● 非负性:距离总是大于或等于零。
● 同一性:只有当两个点完全重合时,距离才为零。
● 对称性:从 X 到 Y 的距离等于从 Y 到 X 的距离。
● 三角不等式:对于任意三点 X, Y, Z ,从 X 经过 Y 到 Z 的距离不小于直接从 X 到 Z 的距离。
○ 注意: 当 0 < p < 1 时,闵可夫斯基距离公式在数学上虽然可以计算,但它不再满足三角不等式,因此严格意义上不能称为“距离度量”(Metric),而是一种“不相似性度量”(Dissimilarity)。实际应用中,p 通常取 ≥1 。
● Lp 范数的体现: 闵可夫斯基距离本质上就是向量差(X- Y)的 Lp 范数。
● 参数 p 控制聚合行为:
○ p 值越小,距离计算对多个维度上的小差异更敏感。当 p<1 时,甚至鼓励维度差异尽可能均匀分布(虽然不满足三角不等式)。
○ p 值越大,距离计算对单个维度上的大差异越敏感。极端情况 p→∞ 时,只关心最大的那个差异。
○ p=1 时对所有维度的差异线性加和,不放大任何差异。
○ p=2 时通过平方放大较大的差异。
● 几何形状:在以点为中心、以闵可夫斯基距离为半径定义的“单位球”形状随 p 变化:
○ p=1:菱形(Rotated Square)(2D),八面体(3D)- 曼哈顿距离球。
○ p=2:圆形(2D),球体(3D)- 欧氏距离球。
○ 1 < p < 2 或 2 < p < ∞:介于菱形和圆形之间的“圆角矩形”(2D),介于八面体和球体之间的形状(3D)。
○ p→∞:正方形(Axis-Aligned Square)(2D),立方体(3D)- 切比雪夫距离球。
● 尺度敏感性:和所有基于坐标差的距离一样,闵可夫斯基距离对特征的尺度(量纲)非常敏感。不同维度的数值范围差异大会导致距离被大范围维度主导。强烈建议在使用前进行特征标准化(如 Z-score 标准化或 Min-Max 归一化)。
● 对异常值的敏感性:随 p 增大而增加。p=1(曼哈顿)对异常值相对鲁棒(绝对值的线性求和)。p=2(欧氏)对异常值较敏感(平方放大了大偏差)。p 很大(接近 ∞)时对异常值极度敏感(单个大偏差主导距离)。
四、应用场景
闵可夫斯基距离的灵活性使其在众多领域有广泛应用,尤其是在需要比较向量或特征相似性的地方:
● 机器学习和数据挖掘:
○ 希望综合所有特征的小差异:用 p=1 或较小的 p(但注意 p<1 可能不满足三角不等式)。
○ 希望更关注整体差异,并对大差异敏感(如物理距离):用 p=2。
○ 希望最差特征起决定作用(如质量控制):用较大的 p 或 p→∞。
○ K-最近邻(K-NN): 最核心的应用之一。通过调整 p,可以定制相似性度量。例如:
○ K-均值(K-Means)/ K-中心点(K-Medoids)聚类: 计算样本点到簇中心(均值或中心点)的距离以分配簇。p 的选择影响簇的形状(p=2 产生球形簇,p=1 产生轴对齐的菱形簇)。
○ 支持向量机(SVM): 在非线性核技巧中,有时会用到基于闵可夫斯基距离的核函数(虽然不如RBF核常见)。
○ 降维评估: 评估降维算法(如PCA, t-SNE)是否保持了原始高维空间的局部或全局距离结构时,常使用闵可夫斯基距离(尤其是L2)来衡量。
● 图像处理和计算机视觉:
○ 图像相似性/检索: 将图像表示为特征向量(如颜色直方图、SIFT 、CNN 特征),用闵可夫斯基距离(特别是 L2 )计算相似度。
○ 模板匹配: 滑动窗口计算模板与图像局部区域的 L1 或 L2 距离。
● 信息检索和推荐系统:
○ 计算文档向量(如 TF-IDF 、词嵌入)或用户-物品评分向量之间的相似度/距离。L2最常用,但L1有时用于稀疏数据或需要鲁棒性时。
● 生物信息学:
○ 基因表达数据分析、序列比对中的距离计算。
● 空间数据分析和 GIS :
○ 计算地图上点(经度、纬度)之间的距离。在平面投影下,欧氏距离(L2)是常见近似;在网络路径受限时,曼哈顿距离(L1)可能更合适。
● 异常检测:
○ 计算新样本到正常样本簇中心(或 k 近邻)的闵可夫斯基距离,距离过大则可能为异常点。p 的选择影响对何种“差异模式”敏感。
● 模式识别: 特征匹配和分类任务。
五、局限性
● 参数 p 的选择:这是最大的挑战之一。没有绝对最优的 p 值,最佳选择高度依赖于具体问题、数据分布和领域知识。选择不当可能导致模型性能下降。通常需要交叉验证或经验法则(L2 最常用)。
● 特征尺度敏感性:如前所述,不同维度的量纲和数值范围差异会严重扭曲距离计算。必须进行特征标准化。这是闵可夫斯基距离及其所有特例(L1, L2, L∞)的共同缺点。
● “维数灾难”(Curse of Dimensionality):在高维空间中(特征维度 n 很大),所有点对之间的距离会趋同,使得基于距离的算法(如 KNN)区分度下降。闵可夫斯基距离也无法避免这个问题,且不同 p 值下趋同的速度和方式可能不同(L∞ 可能在高维下相对更早趋同)。
● 忽略特征相关性:闵可夫斯基距离将每个维度视为独立且同等重要。它没有考虑特征之间可能存在的相关性。例如,两个高度相关的特征发生同向变化时,其实际“影响”可能被闵可夫斯基距离重复计算(或过度惩罚)。马氏距离(Mahalanobis Distance) 通过引入协方差矩阵解决了这个问题,但计算更复杂且需要估计协方差。
● 计算成本:虽然对于单个点对计算成本不高(O(n)),但在大规模数据集上进行密集的距离计算(如 KNN 、K-Means)时,计算所有点对的距离矩阵成本很高(O(N^2))。p 值较大时,计算幂和开方比 p=1 略慢。
● 几何形状的适用性:闵可夫斯基距离定义的“球”形状(菱形、圆、方形)可能不符合数据内在的簇结构或相似性概念。例如,数据簇可能是任意形状或非凸的。
● p < 1 违反三角不等式:虽然数学上可定义,但 p < 1 破坏了距离度量的关键性质(三角不等式),可能导致算法(如 K-Means 的收敛性)或几何直觉出现问题,实际中较少使用 p < 1 。
六、总结
闵可夫斯基距离是一种灵活的广义距离度量,通过参数 p 统一了曼哈顿距离、欧氏距离和切比雪夫距离,广泛应用于聚类、分类、推荐等领域。其核心优势在于通用性,但需注意量纲敏感、维度权重忽略等局限,实际应用中需结合数据特性(如分布、量纲、相关性)选择合适的 p 值,并配合标准化或加权处理提升效果。
盘古大陆 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?注册
x
|