Select Language

AI社区

AI技术百科

DBSCAN模型

考虑数据集合,首先引入以下概念与数学记号:

1. ∈邻域(∈ neighborhood)

,称为 x 的∈邻域。显然,

2. 密度(density)

,称为 x 的密度。注意,这里的密度是一个整数值,且依赖于半径

3. 核心点(core point)

,若(核心点阈值 minimum numberof points required to form a cluster),则称 x 为 X 的核心点。记由 X 中所有核心点构成的集合为,并记表示由 X 中的所有非核心点构成的集合

4. 边界点(border point)

满足。即 x 的邻域中存在核心点,则称 x 为 X 的边界点。记由 X 中所有边界点构成的集合为

此外,边界点也可以这么定义,若,且 x 落在某个核心点的邻域内,则称 x 为 X 的一个边界点。一个边界点可能同时落入一个或多个核心点的∈邻域

5. 噪音点(noise point)

,则称 x 为噪音点

直观上来说,核心点对应稠密区域内部的点,边界点对应稠密区域边缘的点,而噪音点对应稀疏区域中的点。如下图所示:

需要注意的是,核心点位于簇的内部,它确定无误地属于某个特定的簇;噪音点是数据集中的干扰数据,它不属于任何一个簇;而边界点是一类特殊的点,它位于一个或几个簇的边缘地带,它可能属于一个簇,也可能属于另外一个簇,其簇归属并不明确

6. 直接密度可达(directly density-reachable)

,则称 y 是从 x 直接密度可达的

7. 密度可达(density-reachable)

,若它们满足直接密度可达的,,则称是从密度可达的

值得注意的是,当 m = 2时,密度可达即为直接密度可达。密度可达是直接密度可达的一种推广。事实上,密度可达是直接密度可达的传递闭包

8. 密度相连(density-connected)

,若 y 和 z 均是从 x 密度可达的,则称 y 和 z 是密度相连的。显然,密度相连具有对称性

9. 类(cluster)

称非空集合是 X 的一个类(cluster),如果它满足:对于

(1)Maximality:若,且 y 是从 x 密度可达的,则

(2)Connectivity:若,则 x,y 是密度相连的


我要发帖
聚类算法
2021-05-12 17:06:10加入圈子
  • 11

    条内容
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。
聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。
聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。