前馈神经网络：整个网络中的信息是朝着一个方向传播的，没有反向的信息传播。包括全连接前馈神经网络和卷积神经网络。
反馈神经网络：可以接收自己的反馈信号，其中的神经元具有记忆功能。包括循环神经网络和玻尔兹曼机。
图网络：定义在图结构数据上的神经网络。图中每个结点都由一个或者一组神经元组成。结点之前的连接可以是有向的，也可以是无向的。每个结点可以收到来自相邻结点或自身的信息。

提示

BP (back propagation) 神经网络是 1986 年由 Rumelhart 和 McClelland 为首的科学家提出的概念，是一种按照误差逆向传播算法训练的多层前馈神经网络，是应用最广泛的神经网络模型之一.

7.2 感知机

感知机由两层组成：

输入层：接收外界信号并将其传递给输出层输出层。

输出层：该层由一个 M-P 神经元组成，对输入层传递的信号进行计算，并根据计算结果对输入信号的性质进行判别。

8 卷积神经网络

8.1 概述

神经网络发展（三次兴起）：

第一次兴起（1958）：感知机，无法求解异或问题。
第二次兴起（1986）：BP 算法用于人工神经网络训练。
第三次兴起（2012）：深度卷积神经网络兴起，直到现在。

常用深度神经网络模型分类：

CNN：卷积神经网络
RNN：循环神经网络
GAN：生成式对抗网络
GNN：图神经网络

CNN 结构：

输入层、隐藏层、输出层构成。其中隐藏层又包括卷积层、池化层、全连接层。

8.2 CNN 各层介绍

8.2.1 卷积层

1. 优势

图像分类任务的瓶颈出现在特征提取上。

卷积的优势：

稀疏连接：每个神经元感受局部图像区域。
参数共享：卷积核充当共享感受野的角色。

2. 填充

卷积后矩阵越来越小，处理方法：填充（padding）。

无填充的缺点：

卷积后图像缩小
角落像素只于卷积核操作了一次

提示

使用填充后，卷积后大小不会丢失；卷积核边长（k）是奇数时，特征图与原图大小相等。

3. 步长

步长（stride）：卷积核在输入数据上滑动的步长大小。它决定了卷积核在每次滑动时移动的距离。

较大步长：可以减小输出特征图的尺寸，可能导致信息丢失。

较小步长：可以保持输出特征图的尺寸更接近输入数据的尺寸，保留更多的空间信息，但会增加计算量和内存消耗。

输入输出计算公式：

O = ( I - K + 2P ) / S + 1

提示

O：输出

I：输入

K：卷积核大小

P：填充

S：步长

4. 激活函数

对输入进行卷积运算得到特征图后，往往需要使用激活函数对特征图进行激活。

ReLU 激活函数优势：

反向传播时避免梯度消失
使部分神经元输出为 0，减少参数依存关系，缓解过拟合。
求导简单，整个过程计算量节省很多。

8.2.2 池化层

池化层（也称下采样层）旨在通过降低特征面的分辨率来获得具有尺度不变性的特征。池化层起到二次提取特征的作用，它的每个神经元对局部接受域进行池化操作。

分类：

最大池化
平均池化

作用：

减少参数量，提高计算效率
提高局部平移不变性
降低数据维度，避免过拟合
增强网络对输入图像的鲁棒性

8.2.3 全连接层

全连接层中的每个神经元与其前一层的所有神经元进行全连接。

全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。

为了提升 CNN 网络性能，全连接层每个神经元的激励函数一般采用 ReLU 函数。

最后一层全连接层的输出值被传递给一个输出层，可以采用 softmax 逻辑回归进行分类，该层也可称为 softmax 层。

8.3 CNN 各层作用

卷积层：局部特征提取。

池化层：降低数据维度，避免过拟合；增强局部感受野；提高平移不变性。

全连接层：特征加工，映射到输出类别。

激励层：引入非线性变换以增强网络的表达能力。

8.4 总结

8.4.1 特点

局部感知性：CNN 利用卷积层和池化层的操作，可以有效地捕捉输入数据的局部空间特征。
参数共享：在 CNN 中，卷积核的参数被共享，使得网络可以在不同位置上共享特征提取器，减少模型的参数数量。
平移不变性：通过卷积操作，即对于相同的特征，无论其出现在图像的哪个位置，都可以被识别出来。

8.4.2 训练和学习过程

初始化：随机初始化网络的权重和偏置。
前向传播：将输入数据通过网络的卷积层、池化层和全连接层进行前向传播，得到输出结果。
损失计算：比较输出结果和真实标签之间的差异，计算损失函数。
反向传播：根据损失函数，通过反向传播算法计算网络参数的梯度。
参数更新：使用优化算法（如梯度下降），根据参数的梯度更新网络的权重和偏置。
重复步骤 2-5，直到达到指定的停止条件（如达到最大迭代次数或损失函数收敛）。

8.4.3 优缺点

优点：

对于图像和视觉任务具有良好的表现力和特征提取能力。
能够自动学习和提取高级特征，避免手工设计特征。
具有参数共享和平移不变性的特性，使得模型更加高效和鲁棒。

缺点：

需要大量的训练数据和计算资源，尤其是在较复杂的任务和大型数据集上。
容易出现过拟合，需要适当的正则化方法和数据增强技术来提高模型的泛化能力。
对于输入尺寸的变化较敏感，可能需要额外的预处理步骤（如图像缩放或裁剪）来保持输入数据的一致性。

9 模型评估

9.1 常用术语

真正率（灵敏度 / 查全率）：TPR = TP / ( TP + FN )

假反率：FNR = FN / ( TP + FN )

假正率：FPR = FP / ( FP + TN )

真反率：TNR = TN / ( TN + FP )

9.2 评价指标

正确率：accuracy = （TP+TN）/(P+N)
错误率：error rate = (FP+FN)/(P+N)
灵敏度（真正率 / 查全率）：sensitive / TPR = TP / ( TP + FN )
特效度（真反率）：specificity / TNR = TN / ( TN + FP )
精度（查准率）：precision=TP / （ TP + FP ）
召回率：灵敏度

9.3 分类器性能评估方法

保持法：留出法
交叉验证法（K = M 留一法）

10 聚类分析

10.1 概述

目标：

聚类分析的目标就是形成多个数据簇，并且数据簇需要满足下面两个条件：同一个簇内的数据尽量相似；不同簇的数据尽量不相似。

应用：商务应用中对目标用户群体进行划分；万维网上对用户使用情况进行聚类，挖掘出社区。

分类：

基于划分的聚类算法
基于层次的聚类算法
基于密度的聚类算法
基于概率的聚类算法
基于图和网络的聚类方法

10.2 基于划分的聚类方法

典型划分方法有 k-means（k-均值）算法、k-medoids（k-中心的）算法。

10.2.1 K-means 聚类算法

算法流程：

初始化 K 值和聚类中心
计算样本到各个聚类中心的距离
比较距离，将样本划入相应簇中
计算新的均值向量
判断聚类中心是否变化，变换则重复 2-4 步，否则输出聚类结果

优点：

简单快速
处理大数据集相对高效

缺点：

不适合处理离散属性
事先指定 K，对初始值敏感
对噪声和孤立点敏感（影响均值）

应用：散货船代货运方面的航线繁忙度的分析，得出航线繁忙度分析结果的意义

10.2.2 K-medoids 聚类算法

K-means 方法对于离群点敏感，一个极端值可能扭曲数据分布。使用 K-medoids，采用最靠近中心的对象来代表簇，可以降低算法对离群点的敏感度。

更新聚类中心的流程：

假设原来的聚类中心是 A 和 B，即{A, C, D}，{B, E}

计算替换中心后的各个点的损失并求和。

损失低的中心作为新的中心。

优点：

对噪声、孤立点不敏感
聚类结果具有数据对象平移和正交变换不变性

缺点：迭代寻找最佳聚类中心，聚类过程缓慢，耗时高。

应用：暂住人口挖掘，发现不同特征的暂住人群。

10.3 基于密度的聚类方法

基于距离的聚类方法的缺点：只能发现球状的簇，难以发现任意形状的簇。

基于密度的聚类：只要临近区域的密度（对象或数据点的数目）超过某个临界值，就继续聚类。

常见聚类方法：DBSCAN（具有噪声的基于密度的聚类算法）。

概念：

核心对象：样本邻域至少包含 MinPts 个样本。
密度直达：样本在核心对象的邻域中。
密度可达：传递性密度直达。
密度相连：存在一个样本使得另外两个样本与该样本密度可达。称这两个样本密度相连。
核心点：邻域包含至少 MinPts 个样本。
边界点：不是核心点，但是其邻域内包含至少一个核心点。
噪声点：不是核心点，也不是边界点。

优点：

速度快
有效处理噪声
发现任意形状的空间聚类

缺点：

数据量大时开销大
密度不均匀时，聚类质量差
对初始参数（邻域半径和最小点数）敏感

11 文本检索技术

11.1 词频-文档的关联矩阵

对关联向量进行按位与操作（注意 NOT 对象求补）。

11.2 TF-IDF

TF（词频）表示词语在文本中出现的频率，计算公式如下：TF(t, d) = (词语 t 在文本 d 中出现的次数) / (文本 d 的总词数)

IDF（逆文档频率）表示词语在整个文档集合中的普遍程度，计算公式如下：IDF(t, D) = log((文档集合 D 的总文档数) / (包含词语 t 的文档数 + 1))

最后，TF-IDF 的计算公式为：TF-IDF(t, d, D) = TF(t, d) * IDF(t, D)

12 关联规则挖掘

12.1 基本概念

事务集、项集

支持度：项集 A 在事务数据库 D 中出现的次数占 D 中总事务的百分比叫做项集的支持度。

频繁项集（频集）：如果项集的支持度超过用户给定的最小支持度阈值，就称该项集是频繁项集（或频集）。

支持度：support(X⇒Y)=P(X∪Y)

信任度：confidence(X⇒Y)=P(Y|X)

提升度：

lift(X⇒Y)=confidence(X⇒Y) / support(Y)

两个定理：

强关联规则：支持度和信任度满足用户给定阈值的规则。

关联规则挖掘的步骤：

找出所有频繁项集。
由频繁项集生成满足最小信任度阈值的规则。

12.2 关联规则分类

基于规则中处理的变量的类别：例如：性别=“女”⇒职业=“秘书”，是布尔型关联规则；性别=“女”⇒收入=2300，涉及的收入是数值类型，所以是一个数值型关联规则。
基于规则中数据的抽象层次：A 打印机⇒B 打印机是单层关联规则；打印机⇒B 打印机是多层关联规则。
基于规则中涉及到的数据的维度：啤酒⇒尿布，这条规则只涉及到用户的购买的物品；性别=“女”⇒职业=“秘书”，这条规则就涉及到两个字段的信息，是两个维上的一条关联规则。