模型说明

图1:文本匹配的大体结构

图2:文本匹配的模型结构

双向长短时记忆循环神经网络的文本匹配模型(BLSTM-RNN) 文本匹配方法

模型训练:

  1. 对原始文档进行预处理,抽取关键词,作为输入1
  2. 对该类别数据进行特征选择,生成特征词典,作为输入2
  3. 训练数据的输出(标签)为1/0,1表示匹配,0表示不匹配

模型预测:

  1. 对预测文档进行预处理,抽取关键词,作为输入1
  2. 每一类别的特征词典做为输入2分别与输入1做为模型输入
  3. 根据匹配程度对类别进行排序,排名靠前的类别最有可能做为结果

模型结构:

  1. BLSTM-RNN文本匹配的大体结构,如图1
  2. BLSTM-RNN文本匹配的详细结构,如图2

实验结果:

训练集154645 测试集92804

测试集评价指标 Accuracy p@1 p@3 p@5 map
实验结果 85.2% 0.67 0.38 0.26 0.74

图3:匹配矩阵计算示例

卷积神经网络文本匹配模型

模型详细介绍:

  1. 构造匹配矩阵:
  2. 引入匹配矩阵M,wi和vj分别表示两个文本中第i和第j个位置的单词,Mij表示两个单词wi和vj之间的相似度.这样就获得一个矩阵M,它的每一个元素表征两个单词的相似度,就像图像中的像素点一样。实验中两单词之间相似度的计算方式采用余弦相似度。 匹配矩阵计算示例,如图3所示。

  3. 多个卷积层池化层和多层感知机
  4. 模型详细结构如图4所示

图4:CNN文本匹配模型结构


循环卷积神经网络文本多分类

模型详细介绍:

  1. Word Embedding:
  2. 当前词根据它本身、它的左边词、它的右边词进行表示。例如,句子片段“stroll along the South Bank”,”along”的向量表示根据“stroll”、“along”、“the”三个词的向量生成。然后使用线性转化和tanh激活函数来得到词的中间表示y(2)

  3. Text Representation Learning:
  4. 文档表示采用max-pooling层根据word representation y(2)生成Text Representation y(3).

  5. 全连接层:
  6. 网络的最后一层采用全连接层,全连接层的层数是罪的类别数。

  7. 模型的详细结果,如图5所示。

13类的多分类实验结果:

训练数据5200,测试数据1300

  1. 使用TFIDF抽取特征,测试集的accuracy是0.89
  2. 使用卡方抽取特征,测试集的accuracy是0.9

图5:文本多分类的模型结构


图6:多个二分类的模型结构

支持向量机、决策树、贝叶斯多分类——多个二分类

模型训练的步骤:

  1. 特征抽取和特征选择
  2. 对训练集、测试集的文档做向量表示,采用的向量表示方法是词带向量
  3. 使用LDA主题模型对词带向量降维处理
  4. 训练支持向量机、决策树、贝叶斯分类模型进行分类
  5. 模型的结构,如图6所示

"交通肇事罪"模型训练精度:

支持向量机accuracy 0.96
贝叶斯accuracy 0.96
决策树accuracy 0.93

其他模型精度:90%+