人工智能基础版课件识文断字:理解文本.pptx
《人工智能基础版课件识文断字:理解文本.pptx》由会员分享,可在线阅读,更多相关《人工智能基础版课件识文断字:理解文本.pptx(19页珍藏版)》请在三一办公上搜索。
1、识文断字:理解文本,识文断字:理解文本,识文断字:理解文本,识文断字:理解文本CONTENTS1文本分析任务的特点2文本,/01,文本分析任务的特点,/01文本分析任务的特点,4,文本分析任务的特点,文本数据通常不会包含额外的标注信息,例如,我们在社交网络-上发布了一-条消息:“我在学校学习了人工智能课程”这句话是围绕“学习”或“人工智能”等主题展开的,但我们在发布这条消息时并不会特意将这些主题标记上去。如果我们希望对该社交网络上的所有消息进行分析,那么能获取到的信息通常就只有消息本体,而没有任何额外的标记。,多主题特点,401隐性主题文本分析任务的特点文本数据通常不会包含额外的标,5,文本分
2、析任务的特点,能否通过人工标注的方式获得关于文本主题的信息呢?这通常不太可能。文本数据的规模通常远大于视频、图像等多媒体信息。新浪微博 2017 年第二季度的公开数据显示,网站每天都会发送 1.65 亿条微博。对于如此规模的数据,人工标注的代价过于高昂。,502规模庞大文本分析任务的特点能否通过人工标注的方式获得关,6,文本分析任务的特点,既然是无监督学习的任务,那么能否用 K 均值算法对文本数据进行聚类,从而提取出潜在的主题呢?这听起来是可行的,但却忽略了文本数据具有“多主题”的特点。K 均值算法会将一个样本划归为一个个特定的类别,而一段文本通常可能围绕多个主题展开。例如,一篇关于“推动中小
3、学人工智能教育”的新闻至少会围绕“人工智能”和“中小学教育”两个主题展开,我们将其划归为任一单一主题都是不对的。,603主题不唯一文本分析任务的特点既然是无监督学习的任务,那,/02,文本模型,/02文本模型,8,文本模型概述,词袋模型(BOW) 是用于描述文本的一个简单数学模型,是一种使用机器学习算法,从文本中提取特征的方法。词袋(Bag-of-words)是描述文档中单词出现的文本的一种表示形式。它涉及两件方面:1.已知词汇的集合。2.测试已知单词的存在。,词频图,8文本模型概述词袋模型(BOW) 是用于描述文本的一个简单数,9,文本模型概述,创建词袋的步骤:收集数据:以下是双城记一书中的
4、前几行文字:“It was the best of times,it was the worst of times,it was the age of wisdom,it was the age of foolishness,”我们将每一行文字视为一个单独的“文档”,将这 4 行文字视为整个文档。设计词汇:现在可以列出我们的模型词汇表中的所有单词“it”“was”the”“best”“of”“times”“worst”“age”“wisdom”“foolishness”,这是一个由包括 24 个词组成的语料库中的 10 个词汇。,9文本模型概述 创建词袋的步骤:,10,文本模型概述,创建文档:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 基础 课件 识文断字 理解 文本
链接地址:https://www.31ppt.com/p-1946391.html