1.2 基于联合聚类深度学习模型的数据识别

现有深度学习模型能通过输入数据得到输出标签,例如,通过头像得到该人身份证号,或者通过语音得到该人身份证号。但在自顶向下的监督学习阶段必须要通过带标签数据的监督学习,例如,带有身份证号的头像,或者带有身份证号的语音。如果同时具备带有身份证号的头像和带有身份证号的语音,则可以将一个头像输入头像类对应的深度学习模型,从而得到输出的身份证号。将一个语音输入语音类对应的深度学习模型得到输出的身份证号,然后判断通过输入头像和输入语音分别得到的输出的身份证号是否相同。如果相同则判断一个头像与一个语音对应的是同一人,如果不同则判断一个头像与一个语音对应的不是同一人。

但是,由于深度学习模型的准确率无法达到100%[3,4],所以一个头像输入头像类对应的深度学习模型后输出的身份证号可能是另一个头像相似的人的身份证号,一个语音输入语音类对应的深度学习模型后输出的身份证号可能是另一个语音相似的人的身份证号,那么就会导致不属于同一个人的一个头像和一个语音被判定为对应同一个人,也会导致属于不同人的一个头像和一个语音被判定为对应同一个人。当判断出一个头像和一个语音对应不同人时,却无法计算出该头像和该语音可能对应同一个人的概率;或者当判断出一个头像和一个语音对应同一个人时,却无法计算出该头像和该语音可能对应不同人的概率或其他人的概率。

当通过语音、头像,甚至更多其他类型的数据来识别对象时,使用现有深度学习技术,无法综合利用相似度及多种深度学习的结果来计算出其他可能性输出及最优输出,从而无法进行进一步的精准识别和判断。

本技术方案研究并给出了一种新的基于联合聚类深度学习模型的数据识别方法,步骤如下:①获取N类数据样本集及对应的标签集并进行预处理,同时获取数据预设格式、标签预设格式;②对深度学习模型进行训练;③将每一类任一测试数据转化为该类数据预设格式后作为该类深度学习模型的输入,得到对应的测试输出标签;④根据测试输出标签所在标签集的元素个数及数据集之间相似度的计算,确定可能输出标签及最优输出标签;⑤计算各类输出标签一致和不一致的概率;⑥将可能、最优输出标签及步骤⑤中的概率输出。

本技术方案通过相似度计算弥补深度学习模型在输出标签数量多而输入样本量不足时输出准确性的不足,进而提高输出的准确性。

1.2.1 基于联合聚类深度学习模型的数据识别方法

1. 基于联合聚类深度学习模型的N类数据识别

基于联合聚类深度学习模型的数据识别方法,包括以下步骤。

(1)步骤S1,先获取N类数据样本集及每一类数据样本集对应的标签集,再获取N类数据样本集中每一类数据样本的数据预设格式,并获取标签预设格式,然后对N类数据样本集和标签集进行预处理;N≥1。其中,获取N类中每一类数据样本的数据预设格式,并获取标签预设格式,具体步骤为:

获取每一类数据样本集中每一个数据样本的数据格式,将该类中相同的数据格式进行合并得到s种数据格式,统计该类数据样本集中每一种数据格式Pi对应的数据样本数量Mi,将最大的Mi对应的数据格式Pi作为该类数据样本的数据预设格式;其中,s≥1,i≥1且is

获取每一类数据样本集对应的标签集中每一个标签的标签格式,将所有类中相同的标签格式进行合并得到至少t种标签格式,统计该类标签集中每一种标签格式Qj对应的标签数量Nj,将最大的Nj对应的标签格式Qj作为标签预设格式;其中,t≥1,j≥1且jt

N类数据样本集和标签集进行预处理,具体步骤如下。

步骤S1-1,判断每一类数据样本集中每一数据样本的数据格式是否与该类数据样本的数据预设格式一致,如果不一致,则将该类数据样本的数据格式转化为该类数据样本的数据预设格式;

步骤S1-2,判断每一类数据样本集中每一个数据样本对应的标签的数据格式是否与标签预设格式一致,如果不一致,则将该类数据样本对应的标签的数据格式转化为标签预设格式;

步骤S1-3,对N类数据样本集中的每类数据样本集进行聚类处理,获得J个聚类后的数据样本集及其对应的输出标签集;

步骤S1-4,对J个聚类后的输出标签集中每个类中相同的标签进行合并,得到更新后的J个输出标签集;

步骤S1-5,将更新后的J个输出标签集中具有相同标签的标签集及对应的数据样本集分别进行合并,得到预处理后的数据样本集及其对应的输出标签集。

(2)步骤S2,初始化N类数据样本集对应的N个深度学习模型。具体为:

步骤S2-1,将每一类数据样本的数据预设格式作为该类对应的深度学习模型的输入格式;

步骤S2-2,将标签预设格式作为每一类对应的深度学习模型的输出格式;

步骤S2-3,获取每一类对应的深度学习模型的配置信息,将其作为该类对应的深度学习模型的配置信息,然后对该类对应的深度学习模型进行配置。具体为:

①从深度学习模型配置知识库中获取输入格式、输出格式与每一类数据预设格式及标签预设格式最为匹配的深度学习模型对应的配置信息,将其作为该类对应的深度学习模型的预设配置信息。

其中,

输入格式、输出格式与每类数据预设格式及标签预设格式的匹配度

=输入格式与该类数据预设格式的匹配度×u%+

输出格式与标签预设格式的匹配度×(1-u%)

u的默认值为90。

②将每一类对应的深度学习模型的预设配置信息输出给用户。

③获取用户对每一类对应的深度学习模型的预设配置信息的修改。

④将修改后的每一类对应的深度学习模型的预设配置信息,作为该类对应的深度学习模型的预设配置信息。

(3)步骤S3,将步骤S1获取的每一类数据样本集作为输入,将其对应的标签集作为输出,对该类对应的深度学习模型进行训练,得到N个训练后的深度学习模型。具体为:

步骤S3-1,将每一类数据样本集中每一个数据样本作为该类对应的深度学习模型的输入,对该类对应的深度学习模型进行自下而上的无监督训练。

步骤S3-2,将每一类数据样本集中每一个数据样本作为该类对应的深度学习模型的输入,将该类数据样本集对应的标签集中该数据样本对应的标签作为输出,对该类对应的深度学习模型进行自顶向下的监督学习,得到N个训练后的深度学习模型。

(4)步骤S4,为每一类对应的深度学习模型获取一个测试数据,将每一类测试数据的数据格式转化为该类数据样本的数据预设格式,然后将该测试数据作为该类对应的深度学习模型的输入,通过该深度学习模型的计算得到该类对应的测试输出标签。

(5)步骤S5,在步骤S1预处理的标签集中查找每一类的测试输出标签所在的标签集,之后判断该标签集是否只有一个标签元素。如果每一类的测试输出标签所在的标签集只有一个标签元素,则将每一类的测试输出标签作为该类的最优输出标签;否则执行下一步。

(6)步骤S6,计算每一类的测试输出标签所对应的数据样本集与该类测试输出标签所在的标签集中每一标签元素对应的数据样本集的相似度,并根据该相似度计算并确定每一组可能输出标签;其中,每一组可能输出标签中包含了每一类的一个可能输出标签。具体为:

如果N=1,则计算测试输出标签所对应的数据样本集与测试输出标签所在的标签集中每一标签元素对应的数据样本集的相似度,将相似度大于第一预设值a的所有标签元素作为一组可能输出标签;

如果N>1,则获取第i类测试输出标签所对应的数据样本集Di;获取第i类测试输出标签所在的标签集中标签元素的个数mi;获取第i类测试输出标签所在的标签集中第j个标签元素对应的数据样本集Dij;计算DiDij的相似度Pij,其中,i取从1~N中的每一个自然数,j取从1~mi中的每一个自然数。

k1k2,…,kN的每一个取值,计算相似度第一综合值fP1k1P2k2,…,PNkN),如果fP1k1P2k2,…,PNkN)大于第二预设值b,则将第1类测试输出标签所在的标签集中第k1个标签元素,第2类测试输出标签所在的标签集中第k2个标签元素,……,第N类测试输出标签所在的标签集中第kN个标签元素,作为一组可能输出标签;其中,k1取从1~m1中的每一个自然数,k2取从1~m2中的每一个自然数,……,kN取从1~mN中的每一个自然数;fP1k1P2k2,…,PNkN)表示求(P1k1P2k2,…,PNkN)的乘积。

(7)步骤S7,计算每一组可能输出标签中每一类的可能输出标签对应的数据样本集与该类测试数据集的相似度,并根据该相似度计算并确定一组可能输出标签作为最优输出标签。具体为:

如果N=1,则计算每一组可能输出标签对应的数据样本集与该类测试数据集的相似度,获取最大相似度对应的一组可能输出标签作为最优输出标签;

如果N>1,则计算每一组可能输出标签中第i类可能输出标签对应的数据样本集与该类测试数据集的相似度Pi,之后计算相似度第二综合值gP1P2,…,PN),获取最大相似度第二综合值对应的一组可能输出标签作为最优输出标签;其中,gP1P2,…,PN)表示求(P1P2,…,PN)的乘积,i取1~N中的每一个自然数。

(8)步骤S8,计算可能输出标签中各类输出标签都一致及不一致的概率,作为各类输出标签一致及不一致的概率。具体为:

如果N=1,则只有一类输出标签,因此各类输出标签一致的概率为100%,不一致的概率为0;

如果N>1,则先判断每一组可能输出标签中各类可能输出标签是否一致;然后将判断结果为一致的各组可能输出标签对应的相似度第二综合值之和与所有可能输出标签对应的相似度第二综合值之和相除,得到各类输出标签一致的概率;最后以100%减去各类输出标签一致的概率得到各类输出标签不一致的概率。

(9)将可能输出标签、最优输出标签、各类输出标签一致及不一致的概率输出。

本技术方案与现有技术相比,其显著优点为:本技术方案将深度学习模型与相似度计算进行有机结合,丰富了输出的结果,提高了输出的准确率。本技术方案采用结合相似度计算的方法,取长补短,从而通过相似度计算来弥补深度学习模型在输出标签数量多而输入样本量不足时输出准确性的不足,进而提高输出的准确性。

以两类数据样本集及其对应的标签集为例。第一类数据样本集为{头像11,头像12,……,头像1m},对应的第一类输出标签的集合为{身份证号11,身份证号12,……,身份证号1m},其中,头像11与身份证号11对应,头像12与身份证号12对应,……,头像1m与身份证号1m对应。其中可能会存在相同的身份证号,例如身份证号13与身份证号16相同。第二类数据样本集为{语音21,语音22,……,语音2n},对应的第一类输出标签的集合为{身份证号21,身份证号22,……,身份证号2n},其中,语音21与身份证号21对应,语音22与身份证号22对应,……,语音2n与身份证号2n对应。其中可能会存在相同的身份证号,例如身份证号22与身份证号28相同。

2. 基于联合聚类深度学习模型的两类数据识别

下面以两类数据样本集为特例,结合图1-4进行说明。本技术方案基于联合聚类深度学习模型的数据识别方法,包括以下步骤。

(1)步骤S1,首先获取两类数据样本集及每类数据样本集对应的标签集,再获取两类数据样本集中每一类数据样本的数据预设格式,并获取标签预设格式。具体为:

获取每一类数据样本集中每一个数据样本的数据格式,将该类中相同的数据格式进行合并得到s种数据格式,统计该类数据样本集中每一种数据格式Pi对应的数据样本数量Mi,将最大的Mi对应的数据格式Pi作为该类数据样本的数据预设格式;其中,s≥1,i≥1且is。例如,第1类数据样本为图像样本,第2类数据样本为语音样本。以第1类数据样本为例,第1类数据样本集中480像素×640像素JPEG图片数据格式的数据样本有809个、480像素×640像素TIFF图片数据格式的数据样本有8367个、480像素×640像素BMP图片数据格式的数据样本有67个、2576像素×1932像素JPEG图片数据格式的数据样本有5362个、2576像素×1932像素TIFF图片数据格式的数据样本有32个、2576像素×1932像素BMP图片数据格式的数据样本有136个,其中数据样本数量最大的数据格式是480像素×640像素TIFF图片数据格式,所以将480像素×640像素TIFF图片数据格式作为第1类数据样本的数据预设格式。

获取每一类数据样本集对应的标签集中每一个标签的标签格式,将所有类中相同的标签格式进行合并得到至少t种标签格式,统计该类标签集中每一种标签格式Qj对应的标签数量Nj,将最大的Nj对应的标签格式Qj作为标签预设格式;其中,t≥1,j≥1且jt。例如,共有两类数据样本集对应的标签集,第1类数据样本集对应的标签集中,身份证号标签有5636个,姓名标签有5426个;第2类数据样本集对应的标签集中,身份证号标签有2654个,姓名标签有235个,则两类数据样本集对应的标签集中身份证号标签有8290个,姓名标签有5661个,所以将身份证号标签作为标签预设格式。

然后对输入的两类数据样本集和标签集进行预处理,结合图1-5,以第1类数据样本集和标签集为例,具体过程为:

图1-4 基于联合聚类深度学习模型的数据识别方法流程

图1-5 基于联合聚类深度学习模型的数据识别方法中对数据样本集和输出标签集预处理的流程

步骤S1-1,判断每一类数据样本集中每一数据样本的数据格式是否与该类数据样本的数据预设格式一致,如果不一致,则将该类数据样本的数据格式转化为该类数据样本的数据预设格式。例如,480像素×640像素TIFF图片数据格式是第一类数据样本的数据预设格式,如果第一类数据样本集中一个数据样本的数据格式也是480像素×640像素TIFF图片数据格式,与第一类数据样本的数据预设格式相同,则无须进行转化;如果第一类数据样本集中一个数据样本的数据格式是2576像素×1932像素JPEG图片数据格式,与第一类数据样本的数据预设格式不同,则须转化为480像素×640像素的TIFF图片数据格式。

步骤S1-2,判断每一类数据样本集中每一个数据样本对应的标签的数据格式是否与标签预设格式一致,如果不一致,则将该类数据样本对应的标签的数据格式转化为标签预设格式。例如,身份证号标签作为标签预设格式,如果第一类数据样本集中一个数据样本对应的标签的数据格式是身份证号格式,与标签预设格式相同,则无须进行转化;如果第一类数据样本集中一个数据样本对应的标签的数据格式是姓名格式,与标签预设格式不同,则须转化为身份证号格式。

步骤S1-3,对第1类数据样本集进行聚类处理,获得j个聚类后的数据样本集及其对应的输出标签集。具体为:

首先对第1类数据样本集{头像11,头像12,……,头像1m}进行聚类,聚类的规则是:将相似度大于头像相似度预设阈值(默认值为90%)的头像加入到同一个聚类(即将上述头像内部进行相似度计算,如果相似度大于90%,则将相应的头像加入一个聚类),使得一个聚类中任一头像都在该个聚类中存在另一头像与该个头像的相似度大于头像相似度预设阈值(默认值为90%),同时使得一个聚类中任一头像都在另一个聚类中不存在任一头像与该头像的相似度大于头像相似度预设阈值(默认值为90%);每一头像只属于一个聚类。根据该聚类规则,得到第一个聚类{头像111,头像112,……,头像11m1},第2个聚类{头像211,头像212,……,头像21m2},……,第j个聚类{头像j11,头像j12,……,头像j1mj}。

然后对第1类数据样本集对应的标签集进行聚类。第1类数据样本集的第1个聚类{头像111,头像112,……,头像11m1}对应的输出标签的集合为{身份证号111,身份证号112,……,身份证号11m1},作为第1类输出标签的第1个聚类;数据样本集的第2个聚类{头像211,头像212,……,头像21m2}对应的输出标签的集合为{身份证号211,身份证号212,……,身份证号21m2},作为第1类输出标签的第2个聚类;……;数据样本集的第j个聚类{头像j11,头像j12,……,头像j1mj}对应的输出标签的集合为{身份证号j11,身份证号j12,……,身份证号j1mj},作为第1类输出标签的第j个聚类。

步骤S1-4,对上述j个聚类后的输出标签集中每个类中相同的标签进行合并,得到更新后的j个输出标签集。

步骤S1-5,将更新后的j个输出标签集中具有相同标签的标签集及对应的数据样本集分别进行合并,得到预处理后的数据样本集及其对应的输出标签集。

例如,第1类数据样本集的第1个聚类{头像111,头像112,……,头像11m1}对应的输出标签的集合为{身份证号111,身份证号112,……,身份证号11m1};数据样本集的第2个聚类{头像211,头像212,……,头像21m2}对应的输出标签的集合为{身份证号211,身份证号212,……,身份证号21m2};如果第2个聚类对应的输出标签的集合中身份证号212与第1个聚类对应的输出标签的集合中身份证号116相同,则将第2个聚类对应的输出标签的集合与第1个聚类对应的输出标签的集合合并,同时将第2个聚类对应的数据样本集与第1个聚类对应的数据样本集合并。

(2)步骤S2,初始化N类数据样本集对应的N个深度学习模型。

(3)步骤S3,将步骤S1获取的每类数据样本集作为输入,将其对应的标签集作为输出,对该类对应的深度学习模型进行训练,得到两个训练后的神经网络。结合图1-6,具体为:

步骤S3-1,将每类数据样本集中每一个数据样本作为该类对应的深度学习模型的输入,对该类对应的深度学习模型进行自下而上的无监督训练。

图1-6 基于联合聚类深度学习模型的数据识别方法中深度学习模型训练的流程

步骤S3-2,将每类数据样本集中每一个数据样本作为该类对应的深度学习模型的输入,将对应的标签集中的对应标签作为输出,对该类对应的深度学习模型进行自顶向下的监督学习,得到两个训练后的深度学习模型。

步骤S3-3,为每一类对应的深度学习模型获取一个测试数据,将每一类测试数据的数据格式转化为该类数据的数据预设格式。例如,480像素×640像素TIFF图片数据格式是第1类数据样本的数据预设格式,如果第1类该测试数据的数据格式也是480像素×640像素TIFF图片数据格式,与第1类数据样本的数据预设格式相同,则无须进行转化;如果第1类该测试数据的数据格式是2576像素×1932像素JPEG图片数据格式,与第1类数据样本的数据预设格式不同,则须转化为480像素×640像素的TIFF图片数据格式。

然后将该测试数据作为该类对应的深度学习模型的输入,通过该深度学习模型的计算得到该类对应的测试输出标签。例如,输入第1类任一测试数据“头像1p”到第1类对应的深度学习模型,得到测试输出标签“张三身份证号”;输入第2类任一测试数据“语音2q”到第2类对应的深度学习模型,得到测试输出标签“李四身份证号”。

步骤S3-4,在步骤S1预处理的标签集中查找每一类的测试输出标签所在的标签集,之后判断该标签集是否只有一个标签元素;如果每一类的测试输出标签所在的标签集只有一个标签元素,则将每一类的测试输出标签作为该类的最优输出标签,即将步骤S1-4中“张三身份证号”“李四身份证号”分别作为第1类、第2类的最优输出标签;否则执行下一步。

步骤S3-5,计算每一类的测试输出标签所对应的数据样本集与该类测试输出标签所在的标签集中每一标签元素对应的数据样本集的相似度,并根据该相似度计算并确定每一组可能输出标签;其中,每一组可能输出标签中包含了每一类的一个可能输出标签。例如,步骤S1-4中“张三身份证号”所在第1类输出标签集为{朱一身份证号,郑二身份证号,张三身份证号,吴七身份证号},对应的数据样本集为{朱一头像集,郑二头像集,张三头像集,吴七头像集};“李四身份证号”所在第2类输出标签集为{田一身份证号,李四身份证号,吴七身份证号},对应的数据样本集为{田一语音集,李四语音集,吴七语音集}。假设有N类数据样本集及对应的标签集,具体过程分为以下两种情况。

第一种情况:当N=1时,只有一类数据样本集及对应的标签集。例如,仅存在上述第1类数据样本集及对应的标签集。

计算测试输出标签所对应的数据样本集{张三头像集}与测试输出标签所在的标签集中每一标签元素对应的数据样本集的相似度,则得到{张三头像集}与{朱一头像集}的相似度a1为80%,{张三头像集}与{郑二头像集}的相似度a2为90%,{张三头像集}与{张三头像集}的相似度a3为100%,{张三头像集}与{吴七头像集}的相似度a4为92%。其中a2a3a4均大于第一预设值80%,所以存在三组可能输出标签,分别为“郑二身份证号”“张三身份证号”“吴七身份证号”。

第二种情况:当N>1时,有多类数据样本集及对应的标签集。例如N=2,包括上述第1类数据样本集及对应的标签集、第2类数据样本集及对应的标签集。

首先计算第1类测试输出标签所对应的数据样本集{张三头像集}与测试输出标签所在的标签集中每一标签元素对应的数据样本集的相似度。相似度计算结果同上述N=1的情况。

然后计算第2类测试输出标签所对应的数据样本集{李四语音集}与测试输出标签所在的标签集中每一标签元素对应的数据样本集的相似度。则得到{李四语音集}与{田一语音集}的相似度b1为95%,{李四语音集}与{李四语音集}的相似度b2为100%,{李四语音集}与{吴七语音集}的相似度b3为85%。

最后计算所有可能输出标签组各自的相似度第一综合值,输出标签组c1{朱一身份证号,田一身份证号}的相似度第一综合值f1为80%×95%=76%,输出标签组c2{朱一身份证号,李四身份证号}的相似度第一综合值f2为80%×100%=80%,输出标签组c3{朱一身份证号,吴七身份证号}的相似度第一综合值f3为80%×85%=68%,输出标签组c4{郑二身份证号,田一身份证号}的相似度第一综合值f4为90%×95%=85.5%,输出标签组c5{郑二身份证号,李四身份证号}的相似度第一综合值f5为90%×100%=90%,输出标签组c6{郑二身份证号,吴七身份证号}的相似度第一综合值f6为90%×85%=76.5%,输出标签组c7{张三身份证号,田一身份证号}的相似度第一综合值f7为100%×95%=95%,输出标签组c8{张三身份证号,李四身份证号}的相似度第一综合值f8为100%×100%=100%,输出标签组c9{张三身份证号,吴七身份证号}的相似度第一综合值f9为100%×85%=85%,输出标签组c10{吴七身份证号,田一身份证号}的相似度第一综合值f10为92%×95%=87.4%,输出标签组c11{吴七身份证号,李四身份证号}的相似度第一综合值f11为92%×100%=92%,输出标签组c12{吴七身份证号,吴七身份证号}的相似度第一综合值p12为92%×85%=78.2%。其中,f4f5f7f8f10f11均大于第二预设值85%,所以有6组可能输出标签,分别为c4c5c7c8c10c11对应的输出标签组。

(4)步骤S4,计算由步骤S3得到的每一组可能输出标签中每一类的可能输出标签对应的数据样本集与该类测试数据集的相似度,并根据该相似度计算并确定一组可能输出标签作为最优输出标签。对应步骤S3中的内容,具体过程分为以下两种情况。

第一种情况:当N=1时,由步骤S3可知,有3组可能输出标签分别为“郑二身份证号”“张三身份证号”和“吴七身份证号”。其中可能输出标签“张三身份证号”的相似度值最大,因此将其作为最优输出标签组。

第二种情况:当N>1时,由步骤S3可知,有c4c5c7c8c10c11共6组可能输出标签,具体过程如下:

首先计算每一组可能输出标签中第1类的可能输出标签对应的数据样本集与该类测试数据集{张三头像集}的相似度,则得到{郑二头像集}与{张三头像集}的相似度为90%,{张三头像集}与{张三头像集}的相似度为100%,{吴七头像集}与{张三头像集}的相似度为92%。

然后计算每一组可能输出标签中第2类的可能输出标签对应的数据样本集与该类测试数据集{李四语音集}的相似度,则得到{李四语音集}与{李四语音集}的相似度为100%,{田一语音集}与{李四语音集}的相似度为95%。

c4输出标签组{郑二身份证号,田一身份证号}相似度第二综合值g4为90%×95%=85.5%,c5输出标签组{郑二身份证号,李四身份证号}相似度第二综合值g5为90%×100%=90%,c7输出标签组{张三身份证号,田一身份证号}相似度第二综合值g7为100%×95%=95%,c8输出标签组{张三身份证号,李四身份证号}相似度第二综合值g8为100%×100%=100%,c10输出标签组{吴七身份证号,田一身份证号}相似度第二综合值g10为92%×95%=87.4%,c11输出标签组{吴七身份证号,李四身份证号}相似度第二综合值g11为92%×100%=92%。其中相似度第二综合值最大的是g8,因此将c8输出标签组{张三身份证号,李四身份证号}作为最优输出标签组。

(5)步骤S5,计算可能输出标签中各类输出标签都一致及不一致的概率,作为各类输出标签一致及不一致的概率。对应步骤S3中的内容,具体过程分为以下两种情况。

第一种情况:当N=1时,由步骤S3可知,只有一类输出标签,因此各类输出标签一致的概率为100%,不一致的概率为0。

第二种情况:当N>1时,由步骤S3可知,有c4c5c7c8c10c11共6组可能输出标签。其中c4输出标签组{郑二身份证号,田一身份证号}中各类可能输出标签不一致,c5输出标签组{郑二身份证号,李四身份证号}中各类可能输出标签不一致,c7输出标签组{张三身份证号,田一身份证号}中各类可能输出标签不一致,c8输出标签组{张三身份证号,李四身份证号}中各类可能输出标签不一致,c10输出标签组{吴七身份证号,田一身份证号}中各类可能输出标签不一致,c11输出标签组{吴七身份证号,李四身份证号}中各类可能输出标签不一致。由上述可知,所有可能输出标签组中各类可能输出标签均不一致,所以各类输出标签一致的概率为0,不一致的概率为100%,说明各类测试样本对应同一个人的概率为0。

为了进一步阐明过程,假设有4组可能输出标签d4d6d10d11d4输出标签组{郑二身份证号,郑二身份证号}中各类可能输出标签一致,对应的相似度第二综合值为89%;d6输出标签组{张三身份证号,张三身份证号}中各类可能输出标签一致,对应的相似度第二综合值为53%;d10输出标签组{郑二身份证号,李四身份证号}中各类可能输出标签不一致,对应的相似度第二综合值为67%;d11输出标签组{张三身份证号,郑二身份证号}中各类可能输出标签不一致,对应的相似度第二综合值为75%。

判断结果为一致的各组可能输出标签对应的相似度第二综合值之和(89%+53%)除以所有可能输出标签对应的相似度第二综合值之和(89%+53%+67%+75%),得到各类输出标签一致的概率为50%。以100%减去各类输出标签一致的概率50%,则得到各类输出标签不一致的概率为50%。

(6)步骤S6,将可能输出标签、最优输出标签、各类输出标签一致及不一致的概率输出。

1.2.2 联合聚类深度学习模型的数据识别系统

联合聚类深度学习模型的数据识别系统包括:

(1)采集模块1,用于N类数据样本集及每一类数据样本集对应的标签集,再获取N类数据样本集中每一类数据样本的数据预设格式,并获取标签预设格式,然后对N类数据样本集和标签集进行预处理;N≥1。

(2)初始化模块2,用于初始化N类数据样本集对应的N个深度学习模型。

(3)训练模块3,用于将获取的每一类数据样本集作为输入,将其对应的标签集作为输出,对该类对应的深度学习模型进行训练,得到N个训练后的深度学习模型。

(4)测试模块4,用于为每一类对应的深度学习模型获取一个测试数据,将每一类测试数据的数据格式转化为该类数据样本的数据预设格式,然后将该测试数据作为该类对应的深度学习模型的输入,通过该深度学习模型的计算得到该类对应的测试输出标签。

(5)判别模块5,用于在预处理的标签集中查找每一类的测试输出标签所在的标签集,之后判断该标签集是否只有一个标签元素。如果每一类的测试输出标签所在的标签集只有一个标签元素,则将每一类的测试输出标签作为该类的最优输出标签;否则执行下一步。

(6)第一相似度计算模块6,用于计算每一类的测试输出标签所对应的数据样本集与该类测试输出标签所在的标签集中每一标签元素对应的数据样本集的相似度,根据该相似度计算并确定每一组可能输出标签;其中,每一组可能输出标签中包含了每一类的一个可能输出标签。

(7)第二相似度计算模块7,用于计算每一组可能输出标签中每一类的可能输出标签对应的数据样本集与该类测试数据集的相似度,并根据该相似度计算并确定一组可能输出标签作为最优输出标签。

(8)概率统计模块8,用于计算可能输出标签中各类输出标签都一致及不一致的概率,作为各类输出标签一致及不一致的概率。

(9)输出模块9,用于将可能输出标签、最优输出标签、各类输出标签一致及不一致的概率输出。