人工智能的文本分类方法简述.docx
《人工智能的文本分类方法简述.docx》由会员分享,可在线阅读,更多相关《人工智能的文本分类方法简述.docx(7页珍藏版)》请在三一办公上搜索。
1、人工智能的文本分类方法简述摘要:本文阐述了一些基本的文本分类的方法,以及一些改进的文本文类的方法,并包含了一些文本分类的实际应用。其中着重阐述了贝叶斯分类以及一些其他的的文本分类方法。最后提出了现在文本分类方法中存在的一些问题。关键词:文本分类;贝叶斯方法;数据挖掘;分类算法。0 引言文本分类是指在给定分类体系下 , 根据文本内容 (自动) 确定文本类别的过程。20世纪90年代以前 ,占主导地位的文本分类方法一直是基于知识工程的分类方法 , 即由专业人员手工进行分类。目前在国内也已经开始对中文文本分类方法进行研究 , 相比于英文文本分类 , 中文文本分类的一个重要的差别在于预处理阶段: 中文文
2、本的读取需要分词 , 不像英文文本的单词那样有空格来区分。从简单的查词典的方法 , 到后来的基于统计语言模型的分词方法 , 中文分词的技术已趋于成熟。并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。人工智能的基本方法就是对人类智能活动的仿真。小样本数据可以看作是一种先验知识不完全的数据集。人类在处理类似的决策问题时,通常采用的策略为: 1,利用多专家决策来提高决策的可信度; 2,专家的决策技能在决策的过程中可以得到不断的增强,即专家具有学习功能; 3,在专家的技能得到增强的基础上,再进行决策可以提高决策的
3、正确性。这种方法同样适用于小样本数据的分类识别。通过对上述方法的仿真,本文提出了智能分类器,它不仅可以对未知样本进行分类,同时它还具有多专家决策、 预分类和学习功能。1 分类的基本概念分类就是根据数据集的特点找出类别的概念描述, 这个概念描述代表了这类数据的整体信息,也就是该类的内涵描述,并使用这种类的描述对未来的测试数据进行分类。分类的过程一般分为两个步骤:第一步, 通过已知数据集建立概念描述模型; 第二步, 就是利用所获得的模型进行分类操作。对各种分类方法的评估可以根据以下几条标准进行: 1)预测准确率,指模型能够正确预测未知数据类别的能力; 2)速度,指构造和使用模型时的计算效率; 3)
4、 鲁棒性,指在数据带有噪声或有数据遗失的情况下,模型仍能进行正确预测的能力; 4) 可扩展性, 指对处理大量数据并构造相应有效模型的能力; 5) 易理解性, 指所获模型提供的可理解程度。2 常用的分类算法 2.1基于决策树的分类所谓决策树就是一个类似流程图的树型结构,其中树的每个节点对应一个非类别属性,每条边对应这个属性的每种可能值,而树的每个叶结点代表一个类别( 如图 1)。生成决策树的一个著名的算法是 Quinlan 提出的 ID3算法, ID3 算法从树的根节点处的所有训练样本开始, 选取一个属性来区分这些样本, 属性的每一个值产生一个分支。将分支属性值的相应样本子集移到新生成的子节点上
5、。这个算法递归地应用于每个子节点, 直到一个节点上的所有样本都分区到某个类中。属性选择采用信息增益的方法来确定。选择具有最高信息增益( 熵减少的程度最大) 的属性作为当前结点的测试属性, 这样保证所产生的决策树最为简单,工作量最小。设 S 为一个包含了 S 个数据样本的集合,且类别属性可以取 m 个不同的值 C 1, C 2, Cm 。假设 Si 为类别Ci 中的样本个数; 则对一个给定数据对象进行分类所需要的信息量为:其中 p i= s i/ s。设一个属性 A 取 v 个不同的值 a1 , a2, av , 利用属性 A 将S 划分为 v 个子集 S 1, S 2 , Sv , 设 S i
6、 j 为子集 Sj中属于Ci 类别的样本数。那么利用属性 A 划分当前样本集合所需要的信息(熵)可以按如下公式计算:这样利用属性 A 对当前分支结点进行相应样本集合划分所获得的信息增益就是:通过以上公式计算每个属性的信息增益。选择具有最高信息增益的属性作为给定集合 S 的测试属性, 创建一个节点,并以该属性标记, 对属性的每个值创建分支,进行样本划分。ID3 算法在选择属性时利用了信息增益的概念,算法的基础理论清晰;决策树的每个分支都对应一个分类规则, 因此产生的分类规则易于理解;同时, 分类速度较快,准确率较高。但是 ID3 算法也存在着许多不足: 1) 不能够处理连续值属性; 2) 计算信
7、息增益时偏向于选择取值较多的属性; 3)对噪声较为敏感; 4) 在构造树的过程中, 需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效; 5) 只适合于能够驻留于内存的数据集使用,当训练集大得无法在内存容纳时程序无法运行。ID3 的改进算法有 C4. 5, C4. 5 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择属性值多的属性的不足。此外,在树构造过程中或构造完成后进行剪枝, 提高了抗噪声能力;能够对连续值属性进行离散化处理; 能够对不完整数据进行处理。常用的决策树算法还有 SLIQ 算法。SLIQ 算法对 C4. 5分类算法的实现方法进行了改进,在决策树的构造过程中采用了
8、预排序与广度优先增长策略,使得该算法能够处理更大的训练集,因此在一定程度上具有良好的随记录个数和属性个数增长的可扩展性。但是它仍然存在着一些不足; 1) 由于需要将类别列表存放于内存,在一定程度上限制了可以处理的数据集的大小; 2) 由于采用了预排序技术, 而排序算法的复杂度本身并不是与记录个数成线性关系, 因此使得SLIQ 算法不可能达到随记数目增长的线性可扩展性。2.2 贝叶斯分类贝叶斯分类是统计学分类在方法,它可以预测一个给定样本属于某一类别的概率。贝叶斯分类是基于贝叶斯定理而构造出来的。基本贝叶斯分类( Naive Bayes) 首先假设一个属性值对给定类的影响独立于其它属性的值, 即
9、类条件独立, 它可以帮助有效减少在构造贝叶斯分类器时所需要的计算量。基本贝叶斯分类的工作过程如下:给定一个没有类标号的数据样本 X ,用 X = x 1, x 2 ,x n表示,分别描述 X 在 n 个属性 A 1 , A 2 , An 上的属性值。设有 m 个类 C1 , C2 , Cm ,那么, 将样本 X 分配给类Ci 的条件就是:根据贝叶斯定理:其中, P ( X )对于所有类来说为常数, P ( Ci) = si/ s。假定各属性值相互条件独立(类条件独立) , 这样 P ( X | Ci )的计算可使用公式:概率 P( x k | Ci)可以由训练样本估算: 1) 如果 Ak 是分
10、类属性, 则 P ( x k | Ci) = s ik / si。2) 如果 Ak 是连续值属性,则通常假定该属性服从高斯分布, 用高斯密度的数计算。因而, 对未知样本 X 分类,样本 X 被分类到类 Ci,而且仅当基本贝叶斯分类假定类条件独立, 简化了计算。当假定成立时, 与其它分类算法相比,基本贝叶斯分类是最精确的。但实际上变量间的相互依赖情况是较为常见的。为解决这个问题, 可使用贝叶斯信念网络描述这种相互关联的概率分布。该网络能够描述各属性子集之间有条件的相互独立, 它提供了一个图形模型来描述其中的因果关系。贝叶斯分类在处理大规模数据库时, 表现出了较高的分类准确性和运算性能。它还可为其
11、它分类算法提供理论判定。但是, 该算法没有直接的分类规则输出。2.3 神经网络神经网络就是一组相互连接的输入输出单元( 又称神经元) , 单元之间的每个连接都与一个权重相关联。在网络学习阶段, 网络通过调整权重来实现输入样本与其相应类别的对应。神经网络训练完毕后, 只要把数据输入到已训练好的神经网络输入端, 就可以从输出端直接得到分类结果。神经网络分类过程可以分为训练和分类两个阶段。在训练阶段,首先定义网络的拓扑结构, 再对训练样本中的每个属性的值进行规范化预处理, 然后用神经网络对已预处理的输入进行学习。训练完毕后, 用训练好的神经网络对标识样本进行分类。目前的神经网络模型很多, 而反向传播
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 文本 分类 方法 简述
链接地址:https://www.31ppt.com/p-1666360.html