欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPTX文档下载  

    第5讲:泊松回归ppt课件.pptx

    • 资源ID:2105064       资源大小:3.62MB        全文页数:68页
    • 资源格式: PPTX        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第5讲:泊松回归ppt课件.pptx

    第五章:泊松回归以付费搜索广告为例,5.1 背景介绍,企业生产一种产品或者服务,除了关注该产品或者服务的生产过程以外,也同样重要的是关注相关信息在目标客户中的传递过程一个企业的产品服务再好,如果客户不知道,那么一切都等于零。因此,现代企业营销实践,格外看重各种媒体信息的传播作用企业希望通过最有效的方式将相关信息准确传递到目标客户耳中但是怎样才能达此目的呢?,5.1 背景介绍,最传统的信息传播方式莫过于口碑(Word of Mouth)。那就是通过现有客户的口口相传将企业的产品服务信息传递给新客户过去的研究表明,口碑对产品服务信息的传递起着重要的作用例如,对新产品上市而言,口碑的作用将直接影响销量成长,进而影响产品的生命周期直至今日,相关营销研究仍然认为口碑传播对企业产品服务的成功及其重要。通过口碑传播所获得的客户,同通过其他手段(例如:促销)获得的客户相比,具有更高的忠诚度,能够为企业带来更多的利润,5.1 背景介绍,但是,口碑传播也有它的劣势那就是不容易控制企业很难通过资源的投入过多地改变口碑传播的过程因此,除了口碑传播以外,企业还需要别的手段帮助传播产品服务信息而最常用的手段之一就是广告我们可以根据我们的常识,简单地判断一下有哪些常见的广告形式?显然,有电视、电台、报纸、杂志、灯箱、路牌、门户网站等等,5.1 背景介绍,总而言之,对于一个高度商业化的社会而言,信息的有效传播能够带来可观的商业价值因此,但凡人们有可能留心注意采集信息的地方,都可以通过合理巧妙的形式展示广告过去人们忽视的很多死角(例如:电梯、厕所、出租车背)都被充分的利用了起来,而且常常发现有意想不到的效果很多企业,尤其是新兴企业,在其诞生之初同行业领先者相比就有着先天的劣势因此,广告成了此类企业的生命线。广告的有效投放直接决定了企业的收入、利润、甚至存活,5.1 背景介绍,但是,这些常见的广告方式效果如何呢?有一句行业俗语:“广告费的80%都被浪费了,但是不知道浪费在哪了”这从一个侧面放映出一个现象,那就是对某些产品传统媒体的广告效果不尽人意,甚至广告效果在逐年递减原因是什么呢?有很多原因,其中一个重要的原因就是这些广告都是被动形式的,5.1 背景介绍,也就是说,此类广告(例如:电视、电台、报纸)的展现无法做到根据客户的不同而不同因此,有可能给想买衣服的消费者看洋酒的广告,而给向喝酒的顾客看电器广告所以,此类广告的绝大多数展现面对的是无效客户这就难怪它们的广告效果是差强人意的,5.1 背景介绍,那么有没有广告是允许消费者主动表达购买意愿的呢?有最常讲的可能就是付费搜索广告(Paid Search Advertising)它是当下备受关注的搜索引擎营销(Search Engine Marketing)的核心之一,5.1 背景介绍,什么是付费搜索广告?举一个简单的例子例如开学期间本人需要购买一张回天津的机票我需要找一个好的机票代理,但是又不知道到底谁好怎么办呢?我会打开一个常用的搜索引擎(例如:Google)然后在它的提示下输入汉字“天津 飞机票”如下:,5.1 背景介绍,5.1 背景介绍,付费搜索广告,自然搜索结果,5.1 背景介绍,其中可以看到两种搜索结果一种叫做自然搜索结果(Organic Search Result)这部分结果的排列顺序是按照搜索引擎的复杂算法,根据展示页面同搜索关键词的相关度排序的如果一个企业的主页能在自然搜索结果中被排在非常前面,这是一件很开心的事情因为我可以看到你的主页连接,并有可能因此点击浏览你的主页因为,我已经通过关键词“天津 飞机票”表达了我购买机票的意愿,因此我绝对是你的目标客户,我很有可能在你的网站上购买机票更重要的是,作为自然搜索结果,Google还不会向你收取任何费用!,5.1 背景介绍,其中可以看到两种搜索结果一种叫做自然搜索结果(Organic Search Result)但是,自然搜索也有它的缺点因为它太好了,所以你的竞争对手(其他的机票代理网站)都会拼命捉摸搜索引擎的潜在算法,通过各种手段(例如:页面优化,增加电计量等)努力把它们的主页挤进比较靠前的位置因此,对于任何一个有商业价值的关键词(例如:“天津 飞机票”),没有任何企业能够保证自己的主页永远被自然搜索结果排在前面,5.1 背景介绍,其中可以看到两种搜索结果但是,如果你愿意支付一定的费用,那么故事就不一样了例如,你告诉Google,我愿意为每一个“天津 飞机票”点击支付1元钱人民币,那么Google会根据你的出价,再结合你的主页的质量好坏,产生一个综合得分再按照该综合得分同其他竞拍该关键词的机票代理对比排序,决定是否展现你的主页如果展现,还将同时决定你的位置如果你的最终的分最高,那么你的主页将有幸被展现在最靠上的位置,5.1 背景介绍,其中可以看到两种搜索结果这就是付费搜索广告付费搜索广告的缺点是明显的那就是得花钱。对于某些竞争激烈的行业(例如:教育培训),每个点击花费一百多人民币是司空见惯的事情但是,付费搜索的好处是稳定可靠。原则上讲,只要能出足够高的价钱,你的主页一定能够得到展示,5.1 背景介绍,如今付费搜索广告已经越来越被更多的广告客户所接受为什么?前面已经提到了它的一个巨大优点,那就是更加准确地瞄准目标客户除此以外,它还有好几个极其重要的特点第一,付费搜索广告及其便宜例如,没有几百万的现金,想打电视广告是很困难的(先不要谈效果)没有几十万,想在体面的平面媒体上打广告也是不容易的在搜索引擎上打广告要多少钱呢?以机票代理为例,一般来说每个点击不超过1元钱。但是假设该点击能够带来一个订单,那么所产生的利润大概是10-20元。如果该订单时国际机票,那么利润将更加客观,5.1 背景介绍,付费搜索广告的一个巨大优点就是更加准确地瞄准目标客户除此以外,它还有好几个极其重要的特点第一,付费搜索广告及其便宜即使是昂贵的教育培训类广告(例如:MBA培训),也就最多百多元一个点击,但是如果能够产生一个订单,那么利润是极其丰厚的。因此,付费搜索的第一个优点:便宜!第二、付费搜索广告的效果是可以追踪的,5.1 背景介绍,付费搜索广告的一个巨大优点就是更加准确地瞄准目标客户除此以外,它还有好几个极其重要的特点第一,付费搜索广告及其便宜第二、付费搜索广告的效果是可以追踪的前面一定提到一句业内俗语:“广告费的80%都被浪费了,但是不知道浪费在哪了”。这句话的另外一个含义就是面对众多的广告投放方式,到底哪一种对我的业务有效,很难评价但是,如果你所运营的是B2C业务,例如:网上电子商城技术上,我们可以追踪到底是哪一个关键词为你产生了订单,因此产生了广告效果,效果多大同传统广告方式的糊涂账相比,这是一个极其了不起的优势。因此,付费广告的第二个优势,那就是广告效果可测,5.1 背景介绍,付费搜索广告的一个巨大优点就是更加准确地瞄准目标客户除此以外,它还有好几个极其重要的特点第一,付费搜索广告及其便宜第二、付费搜索广告的效果是可以追踪的最后一个优点,付费广告的门槛极低例如,对Google而言,任何人只要有一张信用卡,理论上都可以开通其AdWords帐户,然后竞拍你感兴趣的关键词相比较,如果你想要做央视的标王,没有几个亿的现金是不可能这一点使得付费搜索广告尤其受到极大量的中小企业追捧,5.1 背景介绍,虽然付费搜索广告有这么多的优点,要想把它的优点发挥到极致却是一件很不容易的事情例如,以机票为例,能够表达飞天津机票的关键词太多了例如,“天津飞机票”(请注意“天津”和“飞机票”之间没有空格)和“天津飞机票”是两个不同的关键词,但是表达同样的购买意向这两个词在互联网上所产生的搜索量是不一样的,能够带给企业的利润也是不一样的除此以外,还有“天津机票”,“天津电子客票”,“天津便宜机票”等等。如果我们把所有的排列组和作完,总共会有多少类似的关键词呢?上亿个!,5.1 背景介绍,虽然付费搜索广告有这么多的优点,要想把它的优点发挥到极致却是一件很不容易的事情例如,以机票为例,能够表达飞天津机票的关键词太多了例如,“天津飞机票”(请注意“天津”和“飞机票”之间没有空格)和“天津飞机票”是两个不同的关键词,但是表达同样的购买意向这两个词在互联网上所产生的搜索量是不一样的,能够带给企业的利润也是不一样的除此以外,还有“天津机票”,“天津电子客票”,“天津便宜机票”等等。如果我们把所有的排列组和作完,总共会有多少类似的关键词呢?上亿个!而一般来说一个普通的广告商能够维护多少个呢?不超过一万个,除非是大型客户,5.1 背景介绍,虽然付费搜索广告有这么多的优点,要想把它的优点发挥到极致却是一件很不容易的事情例如,以机票为例,能够表达飞天津机票的关键词太多了如何从上亿个可能的关键词中找出最出色的一万个关键词是付费搜索广告研究的一个核心问题它要求我们研究不同关键词的效果(例如:点击量)和它们的特征(例如:长度、展现量、排名等)之间的回归关系这样一个关系,对于指导人们的搜索引擎营销意义极大,5.1 背景介绍,由此可见,在这个问题中,我们的因变量是点击量它是取值为非负的整数这是一种新的因变量数据类型首先,它不同于第一二章线性回归中的连续型因变量点击量可能是0个,1个,2个等。但是,不可能是1.5个因此,线性回归不能处理此类因变量此外,它还不同于第三章中的0-1变量,因为点击量的取值范围更加丰富,不仅仅是0和1显然,点击量也不同于第四章中的定序变量请注意,点击量真的有数值意义,因为1个点击加2个点击真的等于3个点击,5.1 背景介绍,由此可见,在这个问题中,我们的因变量是点击量它是取值为非负的整数这是一种新的因变量数据类型前面讨论的回归模型都不再适用我们需要一种全新的,面向计数数据(Count Data)因变量的回归模型这就是本章将要介绍的泊松回归(Poisson Regression),5.2 数据介绍,本数据来源于国内某培训公司,该公司的主要业务就是帮助各种各样的客户应负各种各样的考试类似的企业在国内极多。最为大家所知的莫过于新东方但是,本案例提供者所关心的业务不是出国留学培训,而是各种家教和MBA联考培训因此,它设计了几千个关键词,例如“暑期家教”,“mba培训”等我们从中随机抽取了200个关键词某天的数据作为我们的演示案例该数据包含下面的变量信息,5.2 数据介绍,关键词长度()该指标刻画了某关键词的长度例如“mba”包含三个字符“m”,“b”,还有“a”。因此其长度为3考虑关键词长度很重要因为一般来说,关键词的越短,搜索的人越多,因此所产生的展现(Display,Impression)较多但是,更多的展现能否带来更多的点击(Click)却是不一定的。相反,稍微长一点的关键词(例如:mba培训)往往代表着更加清晰的搜索意图,购买意愿。因此,有可能相关点击量反而更高,5.2 数据介绍,展现量()当消费者向搜索引擎输入一个关键词,搜索引擎便会依据一定规则把相关网站展现出来对于一个给定的网站,每一次相关搜索都有可能使其被搜索引擎展现,而在一定时间段内(例如:一天以内),该网站被展现的次数就是展现量,5.2 数据介绍,展现量()由于搜索引擎对展现并不收费,因此展现本身对广告商而言是一个免费的午餐,而对于搜索引擎而言是一种投入如果一个网站的展现量太高,但是没有产生足够点击,那么搜索引擎就仅仅忙于展现,为该网站做免费广告,但是无法产生足够收入那么,搜索引擎会认为该网站的页面质量太差,进而影响该网站在同等或者类似出价情况下的竞价排名,5.2 数据介绍,平均点击价格()着是指在一定时间以内(通常是一天)所发生的所有点击的平均价格人们也常常称其为单位点击成本(Cost Per Click,CPC)不同关键词的长度不一样,表述方式不一样,都会造成不同的搜索量,不同的竞争程度受到人们追捧的热点词的平均点击价格往往都很贵,5.2 数据介绍,平均排名()这是指在一定时间以内(通常是一天)所发生的所有点击的平均排名情况就某一次具体展现而言,一个特定网站的排名是一个整数即:第一名、第二名,第三名,等但是,对于一定时间内发生的所有点击而言,其平均排名更像是一个连续变量毋庸置疑,排名是决定广告效果的一个重要因素。人们一般相信,排名越靠前,越能够引起搜索者的注意,因此越能够产生较大的点击量。但是,也有研究表明也许第二第三是一个更好的选择。,5.2 数据介绍,以上讨论的是付费搜索广告研究中所涉及到的最常见的几个变量从它们能够衍生出来各种常见的指标例如,通过点击量除以展现量可以获得点击率(Conversion Rate),还以通过点击量乘以单位点击成本再除以展现量可以获得千次展现成本当然,实际上能够反映付费搜索广告效果的因素非常多事实上,谁能够把握理解更多的因素,谁就有可能更加准确地预测各个关键词的广告效果,谁就有可能在竞争激烈的市场取得竞争优势,5.3 描述分析,最后一列Y是我们的因变量,取值为非负整数,5.3 描述分析,模仿第一章对所有变量描述分析如下:,5.3 描述分析,首先从最后一行可以看到在n=200个关键词中,平均每个关键词能够产生的点击为0.385整个账户产生了2000.385=77个点击根据我们的有限经验,这样一个点击率是相当不错的如果能够保持该点击率,但是能够把关键词的个数从200个拓展到2000个,那么就能够获得超过700个的点击当然,如何从200个关键词成长为2000个,是一个非常不容易的过程纯粹依靠工程师或者业务员的经验判断是远远不够的这个时候,特别需要统计学的帮助,5.3 描述分析,然后从第一行可以看出这200个关键词的平均长度为6.7,标准差为2.2这说明该账户的大多数关键词为长尾词同长度比较短的短尾词相比,长尾词能够产生的展现量点击量都比较小,因为搜索者都比较懒惰,不愿意在搜索引擎上敲入太多汉字但是,长尾词所产生的点击率(Click Through Rate)不错该结果也很合理,因此如果一个消费者输入的汉字越多,他表达的购买意向越强烈,他越知道自己在找什么,因此越容易点击相应网站,5.3 描述分析,从上表第二行可以看出,平均展现量为40.18但是,其最大为2242个这说明不同关键词的展现量差别很大这也是一个很合理的现象常常很多长度较短的热点词,备受关注,搜索量很大,点击量也很大例如,如果您卖机票,那么关键词“机票”能够产生很多展现(但是不一定很多订单)如果您卖手机,那么关键词“手机”会产生很多搜索如果您做培训,那么诸如“家教”,“mba”等词就能够产生很多展现,5.3 描述分析,从上表第二行可以看出,平均展现量为40.18但是,其最大为2242个这说明不同关键词的展现量差别很大少数的热点词,往往能够产生整个账户超过一半以上的展现如果您的目的是产生足够的展现,为企业的品牌服务(因此不在乎订单量),那么这些词是你必须关注的但是,如果您是一个B2C的企业,您最关心的是订单和销售,那么这些词不但不一定能够产生大量订单,甚至有可能以极快的速度消耗您的广告预算,是不折不扣的毒药因此,认真仔细的统计分析非常必要,5.3 描述分析,从第三行可以看到,这200个词的平均竞价为6.8但是最高能够达到146.4这说明不同关键词的竞价差别特别大这立刻产生一个问题,为什么?尤其是那些及其昂贵的关键词,那么高的价格是否必要?此外,那些非常便宜的关键词是否又太便宜了?能够通过调高他们的价格,获得更好的未知,然后产生更高的销售利润?由此可见,合理竞价是成功搜索引擎营销的另外一个关键,5.3 描述分析,最后,从第四行的结果可以看到,这200个词的平均排名为4.54,在前5名以内这说明,该广告商的竞价策略比较激进,努力争取了很多的好位置在实际工作中,很多广告商发现排名第一太贵,排名太靠后没效果因此,一个最简单的傻瓜原则就是咬准第2到第5或者第2到第10之间的某个位置这就是该账户的特点但是,显然这不可能是一个最优的策略。那么最优的又会是什么呢?,5.4 统计模型,前面介绍了数据变量,并做了描述分析。下面我们详细讨论如何构造一个关于定序因变量的回归模型定义解释变量向量X=1,X 1,X 2,X 3,X 4 而相应的回归系数为=0,1,2,3,4,其中 0 是截矩项再定义线性组和 X=0+1 X 1+2 X 2+3 X 3+4 X 4 那么应该如何探讨因变量Y和X的关系呢?,5.4 统计模型,那么应该如何探讨因变量Y和X的关系呢?同0-1逻辑回归一样,直接定义Y=X+是不合适的,因为等号的右边是一个取值任意的量,而等号的左边是一个离散的定量的指标该指标值可能是整数,而且非负那么,如何调和这样一个矛盾呢?,5.4 统计模型,要解决该矛盾,我们首先需要找到一种可以描述非负整数的概率分布。在此基础上通过适当修改,产生一个合理的回归模型那么,有哪些概率分布能够产生非负整数呢?首先可以想到的大概是二项式分布(Binomial Distribution)二项式分布的概率模型说的是随机投掷m次硬币,总共能够获得的正面地概率。所以,二项式分布能够产生非负整数但是,二项式分布有一个缺陷,那就是它的取值不能超过一个是先设定的最大值m,而这个最大值m没有任何实际意义,5.4 统计模型,有哪些概率分布能够产生非负整数呢?首先可以想到的大概是二项式分布例如,如果我们想用二项式分布描述点击量,m应该是多少呢?从理论上讲,一个关键词的点击量的取值可以任意大,只要有一个人乐得用足够快的速度不停点击所以,我们需要一种概率模型,它不仅仅能够产生非负整数,而且没有上界你会发现满足这样条件的概率分布极其有限,而其中最常见的一种就是泊松分布(Poisson Distribution),5.4 统计模型,该分布的概率函数为:P Y=k=k k!exp,其中k0泊松分布在概率论中有着极其重要的作用,对很多更加复杂的概率模型而言,这是其基础建筑简单地说,泊松分布是一种有着很多优良性质的概率分布它还有一个独特的特征那就是均值方差相等,即:E Y=var Y=,5.4 统计模型,下面再考虑,如何建立一种 X 和Y之间的回归模型呢?首先注意到,泊松分布是一个单参数模型也就说,它的概率分布完全由一个单一的参数决定因此,如果因变量X能够影响Y的行为,那么它必须通过影响来实现所以,我们只要能够建立一种和 X 之间的函数关系,那么就可以获得一个关于计数数据的回归模型也许我们可以首先尝试假设:=X。这似乎是一个不错的假设,因为等号的左右两边都是连续的但是,再仔细一看,还是不行,5.4 统计模型,因为等号地左边是一个正数,而其右边 X 有可能是个负数因此,我们需要进一步的修改如下:log=X,即 X=exp X 这同前面的泊松概率函数一起就构成了人们常用的泊松回归模型,5.4 统计模型,同其他回归模型类似,泊松回归也关心回归系数对于一个给定的解释变量 X j j=0意味着在给定其他解释变量的前提下,该指标对于解释条件均值 X 没有任何帮助。因此,对于解释定序变量Y的随机行为也没有任何帮助 j 0,那么我们知道,在给定其他解释变量不变的前提下,指标 X j 的上升会带来条件均值 X 的上升。这等价于说Y的取值更有可能变大。从某个角度看来,这好像是一种“正”相关 j 0,那么在给定其他解释变量不变的前提下,指标 X j 的上升会带来条件均值 X 的下降。也就是说,因变量Y取值更有可能变小。这好像是一种“负”相关,5.4 统计模型,同逻辑回归以及定序回归类似,泊松回归的参数可以通过极大似然估及获得具体地说,我们用 Y i,X i 代表来自第i个个体的数据其中 Y i 是因变量,而 X i=X i1,X i2,X ip 是相应的解释性变量那么,它们的联合似然函数为:i=1 n P Y i|X i=i=1 n X i Y i Y i!exp X i 对它作对数变换后,得到对数似然函数为=i=1 n log P Y i|X i=C+i=1 n Y i log X i X i 其中C是一个和回归系数无关的常数,5.4 统计模型,然后可以通过极大化该对数似然函数获得极大似然估计(Maximum Likelihood Estimator),即:=argmax 标准的统计学理论告诉我们,该估计量是渐进无偏的,相合一致的,而且是极限正态的因此,可以对每个系数的估计误差有所判断,进而计算相应的p-值,再进而作统计学推断,即假设检验 H 0:j=0 vs.H 1:j 0,5.4 统计模型,同逻辑回归以及定序回归一样,泊松回归没有“残差”这个概念。因此无法定义残差平方和但是,可以定义离差为DEV=2 我们也可以进行全局检验 H 0:=0 vs.H 1:0,其中=1,2,p 当某一个解释变量为多水平定性因素时,该因素的显著性水平也可以模仿第四章案例计算由于整个过程及其类似,为节省篇幅,这里就不再赘述,5.5 预测评估,如何对泊松回归的预测能力作评估?对泊松回归而言,预测在实际中有着非常重要的应用例如,前面提到一般工程师或者业务员能够更具他们的宝贵经验生成大概两百个左右的关键词,我们称之为种子词但是,如何把这两百个关键词成长为两万个呢?其实不难。您只要报一本新华字典,把所有能想到的,相关的排列组合做一遍,别说两万个,两亿个也不在话下但是,没有人会乐意把两亿个关键词全部上线第一、不可能;第二、太昂贵,因为大部分词,其实效果很差因此,真正的关键是要能够从两亿个词里面挑出最好的两万个。这就要求您有预测的能力,5.5 预测评估,具体情况如下 Y i,X i,i=1n代表我们的历史数据假设 Y i,X i,i=1m是未来数据对于未来数据而言,解释变量 X i 是已知的,但是因变量 Y i 却是未知的就本案例而言,Y i 是某关键词所产生的点击量,X i 是它各种预测指标,例如:排名、长度、展现量等那么,X i 可以是另外一个关键词的相关指标,而且已知但是,未知的是 Y i,这是该词上线后所产生的流量。因为该词还没有上线,所以其点击量未知如何预测呢?,5.5 预测评估,如何预测?首先通过分析历史数据建立泊松回归模型,获得极大似然估计 然后,将此估计应用于未来数据 X i,对其因变量 Y i 的均值估计如下:E Y i|X i X i=exp X i 值得注意的是,虽然因变量 Y i 取值整数,但是这并不妨碍它的均值是一个带着小数点的正实数因此,我们可以直接采用 X i 对 Y i 做预测,5.5 预测评估,接下来,我们再讨论如何对预测精度做出合理判断最简单的做法莫过于直接计算平均的绝对预测误差,即:绝对预测误差=m 1 i=1 m Y i X i。当然,是否一定要用绝对值,用平方误差(就像最小二乘估计一样)可以吗?当然可以但是,不管是绝对误差,还是均方误差,都有一个致命缺陷。那就是忽略了计数数据的异质性简单地说,少数关键词的点击量很大,而多数很少,5.5 预测评估,计数数据的异质性同样一个单位的预测误差,对那些高点击量的关键词(例如:热点词)而言,可以忽略但是,对于那些低点击量的词(例如:长尾词)而言,就很大了因此,一个更加合理的标准应该相对的看待预测误差。一个可能的标准是相对预测误差=m 1 i=1 m Y i X i Y i 它说的是平均而言,泊松模型的预测误差 Y i X i 相对于真实水平 Y i 有多大,5.5 预测评估,上面定义的相对预测误差,虽然很好懂,但是在实际中很难应用因为很多长尾词的真实点击量 Y i=0因此,把它放在分母是一个问题当然,Y i=0并不说是说该词没有贡献,因为也许下一次它的点击量就不是0了从统计学理论的角度讲,此类词的均值 X i 很低,但是不是严格的0更合理的相对预测误差应该定义如下相对预测误差=m 1 i=1 m Y i X i X i,5.5 预测评估,更合理的相对预测误差应该定义如下相对预测误差=m 1 i=1 m Y i X i X i 但是,由于是一个未知的参数,因此实际操作中必须用估计量替代。相应修正如下相对预测误差=m 1 i=1 m Y i X i X i 这似乎是一个更合理的,关于预测精度的评判标准,5.5 预测评估,但是,实际上该标准也有问题对于本案例而言,大部分关键词是长尾词,他们的点击量是0因此,如果我们预测他们相应的 X i 值很小,那么这就是一个不错的预测但是,如果按照上面定义的相对预测误差,我们会有 Y i X i/X i=1,这是一个很大的数字因此,我们对相对预测误差再稍微修改一下,使得其分母不会特别小,5.5 预测评估,因此,我们考虑相对预测误差=m 1 i=1 m Y i X i 1+X i 这样,前面多提到的所有问题就都没有了例如,该标准可以考虑关键词的异质性,也能兼顾长尾词的特征当然,为什么分母非要加1呢?加2可以吗?加0.5可以吗?当然都可以但是,到底加多少才适合您,需要经验和时间这就是本案例所最终采用的预测精度标准,5.6 R编程,5.6 R编程,首先注意到,第二个解释变量 X 2 展现量在5%的水平下不显著这似乎在说展现量的大小同点击量的大小无关这显然不对,没有充足的展现量,哪里来的点击量但是,上面的结果到底什么意思呢?它说得是,在控制其它变量的前提下(尤其是平均点击价格 X 3 还有平均排名 X 4),展现量 X 2 不再重要,5.6 R编程,首先注意到,第二个解释变量 X 2 展现量在5%的水平下不显著它说得是,在控制其它变量的前提下(尤其是平均点击价格 X 3 还有平均排名 X 4),展现量 X 2 不再重要那么它的信息被谁代替了呢?很有可能被平均点击价格 X 3 给代替了因为该价格是所有竞价参与者长期经验的一个反应,一个关键词的点击量越大,其平均价格就会越贵,当然这常常伴随着更高的展现量所以,在给定平均点击价格 X 3 的前提下,展现量 X 2 不再重要,5.6 R编程,显然,平均排名 X 4 很重要它的极大似然估计量为-0.201,是负的这说明,排名越靠前的关键词,点击量越大这都同我们的经验常识相符合,5.6 R编程,其次,可以注意到,平均点击价格 X 3 是一个很重要的解释变量,对预测点击量的大小很重要它的极大似然估计量为0.018,是正的这说明,价格越昂贵的关键词,点击量越大它反映的是在排名还有其他因素(例如:长度)相同的情况下,越贵的关键词越能够产生更多的点击这也是一个非常合理的结论不同的关键词,即使排名相同,长度相同,他们产生的点击量也不相同因此,人们会乐意为产生更多点击的关键词支付更多的价格久而久之,市场上就会反映出来,价格贵的词一般来说点击量更高,5.6 R编程,最后,我们还发现关键词长度 X 1 也很重要它的极大似然估计量为-0.387,是负的这说明,越长的关键词,点击量越小这也是一个非常合理的结论搜索者都是懒惰的搜索引擎之所以存在,就是因为人们希望通过最少的提问获得最准确的结果因此,相比较而言,愿意输入很长关键词的搜索者个数,永远大大地少于不愿意的个数因此,关键词越长,搜索量越少,点击量越小,5.6 R编程,下面,我们对预测精度予以评估当然,和前面几章一样,我们需要强调一下,我们没有区分内外样本,这是一个值得注意的缺陷,5.6 R编程,由此可见,最终的相对预测误差的均值是24.9%这是一个相当不错的数字更具我们的有限实际经验,该精度能够满足绝大多数搜索引擎营销关键词研究的需要,5.7 总结讨论,本章通过付费搜索广告的案例,对泊松回归模型的核心理论作了简要论述。对相应的R编程作了详细展示从理论上讲,泊松回归不是处理计数数据的唯一回归模型只要人们能够找到一种没有上界的,取值为非负整数的概率分布,我们就可以获得一个回归模型例如,常见的计数回归模型还有负二项回归模型除此以外,人们还常常发现计数数据中0的个数有可能远远超出模型所能解释的范围这说明,该因变量取值是否为0是一个独立的过程,在取值有可能非0的情况下,是另外一个过程对这一类数据,人们可以考虑带有零膨胀的泊松回归模型,

    注意事项

    本文(第5讲:泊松回归ppt课件.pptx)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开