欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    微博挖掘文本挖掘.ppt

    • 资源ID:5349583       资源大小:775KB        全文页数:21页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    微博挖掘文本挖掘.ppt

    微博挖掘介绍,微博挖掘例子,最近热映的国产喜剧电影泰囧,在微博上拿到了998条和“泰囧”有关的微博文本完成分词之后,便是对词频进行统计。词频排名前53的词列表,泰囧 1174 一代宗师 87 时候 53 生活 44 娱乐 35 成功 30电影 385 看过 70 影片 52 文化 43 但是 33 王宝强 30票房 306 上映 68 今天 51 影院 43 分享 33囧 275 泰国 68 喜剧 51 炮轰 40 发现 32笑 192 感觉 62 导演 49 电影院 38 故事 32俗 188 观众 61 好看 49 排 38 光线 32十二生肖 123 可以 60 喜欢 49 哈哈 37 国民 32什么 104 大家 59 上海 48 兽 37 时间 32中国 102 教授 56 现在 48 水平 37 哈哈哈 31徐峥 90 11亿 54 搞笑 47 需要 35 逼 30,从中我们可以看出一些东西。比如说这部电影的口碑似乎还不错,此外某教授对其的炮轰也引发了不少得讨论。另外,同档期的另外两部电影(一代宗师,十二生肖)也经常和它同时出现,微博对突发性事件的监测能力也不可小觑。微博在地震中的表现经常被用来讨论研究。2008年5月12日的汶川地震发生后,第一条关于地震消息的报道于震后7分钟出现在Twitter上,比彭博社的新闻快了22秒。2009年12月19日台湾花莲海域发生地震,台湾女孩萧姗姗于震后1分钟在新浪微博上发布了“地震!好强。”,成为全球描述这场地震的最早的文字。2011年3月17日日本东部海域地震后,微博成为传播地震消息的强大平台,媒体发布关于地震的微博专题,日本民众也通过微博向外界发布地震信息。有研究采用了2009年3月30日加利弗里亚摩根山4.3级地震发生后的微博信息名单,测验了用微博消息调查地震事件和快速描绘有震感区域图的可能性。因为公开的tweets都是保存在开放的可搜索的数据库里,用最基本的字符串如“earthquake”去匹配,可以在限定的日期范围里,由经度、纬度和半径定义的圆形地理区域内搜索。根据Twitter工程师介绍,tweet传输的延迟大约为5秒,通过一个简单的自动算法,摩根山地震可以在1分钟内被监测到。,微博的特点,微博的最大好处就是它的随意性和言简意赅,它从某种意义上很像MSN签名或者QQ用户的心情描述,只是它的传播方式和传播范围比MSN签名、QQ心情更像一种互动媒体微博客用最简单、最随意的方式满足了当代社会无数懒人、忙人的表达欲望在信息分享方面,微博更及时,传播范围更广;在沟通交流方面,沟通的对象更精准,对象的范围也更广。,在微博时代,如果你有100个粉丝,就相当于办了一份时尚小报,可以在朋友圈子里享受被尊重、被阅读的乐趣;如果有1000个粉丝,相当于一份海报;如果有1万个粉丝,相当于创办了一家杂志;如果你有10万个粉丝,相当于创办了一份地方性报纸;当粉丝数增加到100万,你的声音会像全国性报纸上的头条新闻那样有影响力;如果有1000万个粉丝,你就像电视播音员一样,可以很容易地让全国人民听到自己的声音。李开复,微博已经带来的商业价值,在线客户服务,运营商的营销策略,互动营销活动,品牌及产品营销,植入式营销,另类商业价值,微博研究思路与方法,在二级至多级的信息传播过程中,微博具备了4A(anytime,anywhere,anyone,Anyting)的传播特点,微博这个“自媒体”平台,任何人都可以成为微博用户,而移动互联网的发展更是让用户随时随地发布信息。这种用户驱动的信息创造模式产生信息的速度快,信息量也在一级级的传播中变得海量。当大量的碎片化的信息集中在特定的主题下,就可能形成事件流或思想流。从统计学意义上讲,达到一定数量的信息能够被应用于定量研究,再结合定性分析,可以做出符合逻辑的推理,并得到有价值的结论。因此,对积聚的碎片信息进行挖掘和分析,可以探寻其规律并预测动向,特别是微博信息传播的实时性更是作用很大。,对微博信息挖掘,需要处理海量的用户信息和微博内容通过对微博信息的挖掘,可以获取相关的商业信息,人际关系信息,热点新闻,趋势信息等内容,以及对历史事件进行相关的分析总结。处理用户信息时可以挖出企业感兴趣的微博用户处理微博内容时进行文本挖掘可以得到有用信息,微博文本挖掘 步骤:1)文本挖掘信息的预处理:需要对文本信息进行统一个格式,因为不同格式,有些软件可能会不识别,如果统一也方面后面的主题特征的进一步编码。缺失值、分布分析等这也是通常需要处理的过程。2)文本挖掘描述:这一步是为分析人员提供整体特征的了解。这一过程是对主题词描述,包括词频、词在文本的出现的概率等信息。3)特征抽取并分类:特征化的目的就是将数据降维,并从文档中抽取能反映研究主题的一些特征后,使用分类器进行训练,分类设置包括很多方法,如聚类、关联、信息检索、链接分析等方法。,分类模型是文本分类的核心技术 总体来说对文本挖掘分类的模型包括两种:(1)基于规则的文本分类 在规则文本分类的技术中,规则的设定很重要,这一般要求根据问题情境来设置。这里包括文本、类别的表示方法等。常用的规则分类方法包括:(I)决策树decision tree,这种方法在文本挖掘中有很重要的地位,其得出的结果很容易理解,比较直观,分类准确性也能保证,只是在实际应用中的效率不是很高,这在实际的商业用途上受到了极大的限制。,(II)神经网络Neural Network,这种方法效率一般,最主要的是其内部的算法无从了解,这也是机器学习的一种,通过机器自己来寻找适合数据的方法。不过其优点是准确性能保证,而且在相同情况下,神经网络的结果准确性方法一般优于其他方法。(III)支持向量机(Support Vector Machine)技术原理上是处理二次规划的全局最优解问题,但是他的计算速度通常比较慢,所以效率也不能保证,在准确性方面一般还算理想,但尤其当我们的样本量不是很大的情况下,得到的结果往往比较稳定。,(2)基于统计的文本分类 这种文本挖掘的分类技术主要依据统计思想,来完成分类器的建立工作。常用的规则分类方法包括:(I)朴素贝叶斯Naive Bayes,现在朴素贝叶斯在文本挖掘的应用中较为广泛,其原理当然还是概率,基本是将词频作为概率值的估计,首先对于每一个样本中的元素计算先验概率,然后计算一个样本对于每个分类的概率,概率最大的分类则被接受。这种方法的应用性较强,综合评比性能良好。(II)K近邻方法K-nearest neighbor,这种方法的缺点挺多,因为需要将新纳入的文本与已有的文本一一比较所以计算量很大,自然也就很慢,而且在要对比的样本中如果两两样本相差太大,也容易导致结果的不稳定。,对微博内容语义分析,根据关键词进行提取,确定产品用户:比如公司是卖母婴类产品的,我们可以通过在微博中搜索“尿不湿用完了”、“买尿不湿”等关键词就可以找到一部分用户群 体,而这类用户是最精准的,让你向他们进行母婴类产品推荐或者营销时相信她们是乐于接受的,不仅不反感,反而会认为你 很友好,最终成为你的忠实客户。热点话题提取:热点话题是指在特定的时间段出现的频率较高的或传播范围较广的主题特征词。获取热点话题可以关注微博讨论热点从中获取有价值的相关信息,微博用户挖掘,微博用户挖掘是要找到需要的目标客户,然后对其进行营销策略。微博数量之众,并非每个都是目标客户,寻找并发现目标客户是企业微博营销的关键。1.通过群组发现大批目标客户。微博的群组功能很好的聚集和有着相同爱好的人群。2.利用各种社会热点话题,节日话题吸引客户,寻找目标客户。策划创意活动聚集粉丝。免费试用,选拔品牌形象代言人等。3.利用微博上的 搜索工具发现客户。通过搜索寻找那些谈论你们公司,你们产品,你们行业的人。私信发现客户。由于有些产品的特殊性,用户并不愿在公开场合暴露隐私。这时私信就成了发现客户很重要的工具。,1.名人挖掘 微博的同质化问题突出,竞争重点并不在产品的功能上,而在于拥有名人的数量,所以有必要对微博中的名人进行分析,发现微博中名人的特征,以便微博企业对他们进行个性化服务。利用 C5.0 算法,根据用户的名人标识以及其他用户信息,分析名人的用户特征。C5.0 算法是决策树模型的经典算法之一,它的基本思想是利用信息论原理对大量样本的属性进行分析和归纳而产生树的结构或规则,其目的是使系统的熵最小,以提高算法的运算速度和精确度。,2.普通用户挖掘 微博中的普通用户是微博的主流用户更是商家进行微博营销的最终目标,有必要了解他们在期望提高被关注度时的行为趋势,有利于微博企业提高用户的活跃度。利用相关性理论,对用户的关注数、微文数和被关注数 3 项信息进行分析,根据分析结果,可推算用户以提高关注数为目标的行为趋势。相关系数 r 用来表示两个变量之间线性关系的程度,主要有 Pearson 相关系数、Spearman 相关系数和 Kendall 相关系数 3 种。当研究数据总体分布未知、总体呈现非正态分布以及数据为顺序级 变 量 时,可 应 用 基 于 秩 次 的 Spearman 相 关 系 数。,3.行为关联分析 互联网是一个充满风险的场所,微博当然也不例外,微博用户的行动也往往受其影响,分析用户在微博中的行为规则,有利于微博企业帮助用户建立信心,以提高用户的忠诚度。利用 Apriori 算法,以发现普通用户潜在的行为规则,可推算出用户采取某项行动后会在置信度水平下做出何种反应。Apriori 算法是关联规则挖掘的经典算法,该算法的主要思想是采用逐层迭代的方法通过低维频繁项集得到高维频繁项集。,5.挖掘兴趣圈子 所谓“兴趣圈子”,指的是在同一分享平台下,有着共同的兴趣爱好的用户群体 如果能够从海量用户中通过自动手段挖掘出一个个的兴趣圈子,对于很多具体应用来说是非常重要的基础数据,比如可以利用用户所属兴趣圈子进行感兴趣人物推荐,或者根据所属圈子的群体特性分析用户的个人兴趣点等,对于兴趣圈子的挖掘实际是图切割的应用 图切割问题本质上是一个聚类问题,几乎所有聚类算法的基本思想都是相近的:给定一批数据,自动对数据进行聚类,使得聚合到同一类别的数据之间比较相似,而不同类别之间的数据差异较大。图切割问题也符合这个定义,等于是将图中节点进行聚类,把密集相连的一批节点聚合到一起,而连接比较稀疏的节点尽可能划分到不同的类别中。,TF-IDF解释,TF-IDF实际上是:TF*IDF,TF词频(TermFrequency),IDF反文档频率(InverseDocumentFrequency)。词频(TermFrequency)是词t在某个文档中出现的次数。词频可以用来度量词t与给定文档d之间的关联度:通常,如果文档不包含该词,则定义为零,否则定义为非零。对于向量中的非零项,定义词的权重的方法有很多种。比如有就是1没有就是0,又比如使用相对词频,即词频相对于所有词在文档中出现的次数。比如100个词里出现了2次,就是2%。但是只统计一个术语的出现次数通常不是一个好的相关度指标,首先术语的出现次数与文档的长度有关,其次某个术语出现10次的文档的相关度可能并不是该术语出现1次的文档的相关度的10倍。所以一般计算公式中都会有个加权处理。逆文档频率(InverseDocumentFrequency)表示词t的重要性以及区分度。如果词t出现在许多文档中,由于其区分能力减弱,所以它重要性也降低。如果包含词条t的文档越少,IDF越大,则说明词条t具有很好的类别区分能力。,

    注意事项

    本文(微博挖掘文本挖掘.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开