广告营销大数据的分析方法与应用分析研究市场营销专业.docx
随着科技的发展,广告行业也随之变化。从广告的媒介购买上来说,从传统的购买方式逐渐转向程序化购买这样更加科学精准的购买方式,但在现在这样的过渡时期,广告媒介代理公司仍旧面临着耗费大量的人力与物力在这样如果使用计算机就会迎刃而解的问题上。目前绝大部分广告方面的研究都专注于未来的程序化购买方面,而可以解决现在媒介公司所遇到问题的研窕却少之又少。本研究建立了一个广告媒介的推荐系统。该系统通过专业数据公司提供的数据,利用时间序列预测技术,较为精准地预测手机端app的数据,再结合多维度的权威数据进行广告媒介的推荐。并经过实验证明,该系统有着较好的准确性和可信性。本研究为广告行业的去人工化、方便化、提供了一定的贡献,同时可以作为决策支持工具,对于媒介从业人员的工作(广告媒介选择)提供了相应的辅助。关键词:广告;时间序列预测算法;协同过滤算法;数据挖掘AnalysisandApplicationofBigDatainAdvertisementMarketingAbstractWiththedevelopmentofscienceandtechnology,theadvertisingindustryhaschanged.Intheadvertisingmediabuying,itchangesfromthetraditionalwaygraduallytotheprogrammaticpurchaseofsuchamorescientificandaccuratewayofpurchase,butinthistransitionalperiod,advertisingmediaagenciesstillfaceahugeamountofmanpowerandmaterialresourcesinthiswayiftheuseofcomputerswillbesolved.Atpresent,mostoftheresearchonadvertisingisfocusedonthefutureofprogrammaticpurchase,andalmostnoresearchcansolvetheproblemofmediacompanies.Thisstudyestablishedarecommendationsystemforadvertisingmedia.Basedonthedataprovidedbyprofessionaldatacompanies,thesystemusestimeseriespredictiontechnologytopredictthedataofmobilephone-endappmoreaccurately,andthencombinetheauthoritativedataofmulti-dimensionaltocarryontherecommendationofadvertisementmedium.Theexperimentalresultsshowthatthesystemhasgoodaccuracyandcredibility.Thisresearchprovidesacertaincontributionfortheadvertisingindustrytobeartificial,convenient,andcanbeusedasadecisionsupporttoolfortheworkofmediapractitioners(advertisingmediaselection)toprovideacorrespondingassistance.KeyWords;Advertisement;TimeSeriesPredictionMethod;CollaborativeFiltering;DataMining摘要IAbstractII文献综述11数据获取及预处理101.1 APP表现数据101.2 移动端广告点位刊例101.3 移动端广告历史投放数据H1.4 广告主数据111.5 数据预处理122时间序列预测分析方法的研究132.1 时间序列数据挖掘132.1.1 数据挖掘基本概念132.1.2 数据挖掘的分类132.1.3 数据挖掘技术方法132.2 序列的平稳性162.2.1 特征统计量162.2.2 严平稳和宽平稳162 .2.3平稳时间序列的统计性质173 .2.4纯随机序列182.3 延迟算子182.3.1 延迟算子的定义182.3.2 延迟算子的性质182.3.3 用延迟算子表示差分运算182.4 ARMA模型结构192.5 ARIMA模型结构193.推荐系统的研究213.1 相似度计算213.2 协同过滤推荐技术223.2.1 基于用户的协同过滤223.2.2 基于项目的协同过滤244.2.3两种算法各自的适用场景251.1 冷启动问题264.推荐系统的设计与实现274.1 ARIMA模型预测app的每月日均独立设备数274.2 推荐系统算法设计284.2.1 广告主之间相似度计算284.2.2 推荐参数的三种情况28结论29参考文献30附录A:时间序列预测算法31致谢错误!未定义书签。文献综述广告,是从商品的起源就开始存在。最早的广告是在古希腊被发现的,当时的广告大都还是通过口头传播,“酒香也怕巷子深”就证明了这一点,即便商品优质但也需要广告的宣传才能被更多的消费者和潜在消费者所了解,进而产生消费行为。随着工业革命的到来,丰富了媒介的种类,15到16世纪的欧洲开始广泛运用印刷术,出版业日益发展,真正的现代广告终于出现,报纸成为广告的重要媒介之一。20世纪电视诞生,电视节目越来越成熟,广告也将眼光放到电视上投放,1941年7月1日晚2点29分就是历史的时刻,在那一刻,世界第一支电视广告诞生,它是由宝路华钟表公司投放在纽约市全国广播公司旗下的电视台,虽然广告内容简单,只有一句话“美国以宝路华时间运行!”而且时间也只有十秒钟,但却具有划时代的意义。从那时就可以看出,广告是随着媒介的变化而不断追赶时代进行变化的。互联网的出现更加速了时代的变化,广告不再只是存在于报纸、广播、电视以及户外广告牌(一般存在于公交站、机场、商场等人群聚集的地方)等传统媒介上面,而是逐渐将重心转移到PC端以及移动端。而根据行业数据报告显示,移动端势头更加迅猛,早在2014年时,数字广告市场份额超过电视占比35%。2016年中国移动广告市场规模就已经突破千亿元。个中原因比较容易理解,一是由于现代人越发沉迷于手机,通过手机进行工作联络的人日益增加,各种各样令人眼花缭乱的app更是占据着现代人的生活时间。根据2017年德国数据统计显示,中国人每天在智能手机上花费的时间超过3小时,一跃成为全球第二,仅次于巴西。二是,移动端上的广告形式更加多种多样,容易与用户进行互动,让其易于接受,促进消费行为。除了app开屏广告、视频信息流等较常规的之外,出现了更多的广告媒介来传播软性广告。近年来,软性广告也是广告主更加喜爱的广告形式,较多广告主都会将大部分资金用于此。例如,微信公众号推文中的软性广告植入,哗哩哗哩视频网站中的UP主(此网站将原创内容产出者称为UP主)通过将品牌元素融入自己的舞蹈视频(但不限于此)赚取广告费用。广告的效果一直以来都是这个行业比较难以用经验来概括总结出必胜法的,一般依靠资深广告人多年的经验以及沉淀出来的“直觉”判定一个广告是否可以“火”,是否会成为爆款。现在由于互联网的崛起,广告人更喜欢用数据来证明他们的观点,支持他们智慧凝结成的推广方案,但依旧不一定会奏效。用一句形象的话来概括就是“以往的广告是大家闭着眼睛憋几个月靠直觉赌命,现在的广告则更适宜于睁着眼睛看着数字持续赌。”那么,是否这些广告的投放是没有意义的呢?答案必然是否定的。广告的作用机制是,告知、说服、提醒、强化。广告投放给非消费者或者非受众,旨在培养品牌或者产品的知名度。对于真正的受众,目的才在于培养美誉度和忠诚度。因此,即便仅仅只是增加曝光度让更多人看到,依旧可以起到很大的作用,对于成熟的品牌和产品来说,这是必不可少的资金投放项目。一支广告从产生到映入消费者的眼帘,一般分为三个环节:策略、创意和制作、媒介投放。由于我在广告媒介公司实习并于毕业后任职,对此有相对丰富的经验和更大的兴趣,因而此篇论文仅讨论广告的媒介投放方面。2017年是媒介公司遇到危机最大的一年,正在被咨询公司和广告主的市场部两头夹击。在苏铭天爵士的年度报告中就有提及此事。全球第一大的广告集团WPP集团,在去年一年中与战略咨询公司面对面抢夺业务多达80次,而广告公司获胜的概率却只有62.5乐可以明显感受到咨询公司的势头迅猛。广告主方面的市场部也想从中分一杯羹,很多市场部开始直接联系媒体进行广告投放。由此可见,广告媒介公司不得不不断提高其专业度才可能不在这场没有硝烟的战争中惜败。但广告媒介公司的劲敌远远不止这些,网易、爱奇艺等知名互联网公司坐在其所在行业的第一把交椅,但并没有满足于此,他们有着自己的广告团队,所做出的爆款刷屏广告不胜枚举。例如,“网易云音乐红色乐评列车”、“入职半个月,网易爸爸让我怀疑人生”、“寻找梦想的旅程”等等。除了已有很大规模的媒体之外,自媒体更是层出不穷,并且散布在各个社交平台上,微信公众号上有咪蒙、新世相这样千万粉丝的大号、新浪微博上有带货的明星和各有绝招的各路网红,更有连续下载排行第一名的抖音这样的短视频app上迅速蹿红的KOL们。正是散布在各个平台的意见领袖们形成了坚实的自媒体矩阵,其中蕴含的能量不能小视。因此,广告媒介公司腹背受敌,不仅需要提升专业度,更要提高在硬广告的媒介上的选择速度才能在不增加资金花费的情况下有更加充沛的精力投入到广告媒介的创新化以及软性广告的合作上来。根据我近半年来在一家国际知名的广告媒介公司实习的经历来看,app的硬广告投放占据其移动端广告投放经费的绝大部分,比如,新浪微博的开屏广告、腾讯新闻的视频信息流和微信的朋友圈广告等等。作为移动端媒介策划团队的一员,我认为,在媒介的选择上许多可以用分析大数据来实现的地方。互联网飞速发展,app数量也以指数式增长,如果仅凭借媒介策划人员日常的信息获取及之前媒介投放的经验做出判断,开始变得越来越不奏效了。互联网发展的另一个产物是,利用编程解决的问题也越来越多,不妨借鉴知名电商网站亚马逊成熟的推荐系统的思路,通过数据分析来推荐媒介给代理公司的媒介策划人员,解决存在的问题。从应用上来看,在广告行业目前的绝大多数与大数据相关的应用都是面对广告主的,针对代理公司的解决方案几乎是空白。许多学者关注的方向在于近年来十分热门的程序化购买。这是从2012年开始逐渐兴起的一种新型广告投放方法,以自动化系统和数据为基础来进行。程序化购买是一种解放人力的广告投放方式,传统的媒介购买业务通常是由人工完成,需要先做出媒介策略才能确认媒介购买的价格,在保证Rol的前提下,谈判进行交涉获得最好的价格。而在程序化购买中有多种交易模式,通常分RTB与non-RTB模式即通过实时竞价的方式来进行广告位购买,而non-RTB则可同时结合实时竞价与预留广告位的方式来进行媒介购买,同时具备了程序化购买与传统媒介购买方式的优势。程序化购买具有很大价值,一为可以统一管理所有跨屏、跨渠道的媒体购买,二是能够综合分析并管理多方数据,以便在广告投放中控制频次、定向人群,获得更好的广告效果。三是不仅可以实时竞价、实时投放还可以实时监测,有助于广告主及时转变投放策略,减少损失。但从程序化购买的出现到今天,已经过去了六年,虽然这是非常有发展的一种广告投放方式,但在普及的路上会遇到很多阻碍。程序化购买目前所遇到的障碍是,对媒介代理公司专业价值、整合价值,总体的收费模式,组织架构,人员构成的挑战,并且百度、阿里巴巴、淘宝这样拥有大数据的公司还没有开始进行数据共享也给程序化购买的数据方面造成了一定的阻碍。就目前市场现状来看,大部分在BAT等大体量互联网公司进行程序化购买投放的广告主是中小型企业。大客户一般还没有将大量资金投入于此,而是选择继续在以往的媒介代理公司进行广告投放。因此即便目前程序化购买这个概念被炒得火热,但传统媒介投放方式还是具有很大的应用空间,具有不能小觑的市场份额。再看现在关于广告投放的研究,知网上几乎百分之九十九的内容都是与程序化购买有关,但关于传统媒介投放方式的优化方面还存在很大的空白,这样的研究可以在未来几年,传统媒介投放方式与程序化购买的过度时期来使用,依然具有很高价值。再说一下本文将会用到的时间序列分析预测方法和推荐系统目前的应用领域。在自然科学和社会科学各研究领域中,大量决策问题都离不开预测,预测是决策的基础。人们对事物的了解仅限于观测数据,即时间序列,因此只能利用现有的历史数据构造模型,进而预测未来。除这两个领域以外,基于时间序列的分析预测方法还应用于经济金融领域,如基于灰色-ARlMA的金融时间序列智能混合预测研究阴,和医疗领域,如ARIMA模型在我国梅毒发病率预测中的应用。而很少会应用于APP活跃度的预测方向,可以查到最近最相似的文献为发表于2015年的基于季节性ARIMA模型的移动APP用户活跃度分析一一以利市软件为例,这是以季节为主要的评估维度使用ARlMA模型进行的预测,而我将应用于日常的APP活跃度预测,再将预测结果作为媒介广告投放选择的其中一个参考依据,以获取更好的广告效果。急速发展的互联网使得人们享受到信息获取的便利,同时也带来了问题,信息过载即人们对信息的接受、处理和有效利用能力远远赶不上时代发展的速度和信息膨胀的速度。推荐系统应运而生,它是一种重要的信息过滤技术。通过对用户的兴趣与偏好的研究,利用一定的算法规则,发现用户的个性化需求并主动地为用户推荐信息和内容,从而有效地缓解信息过载的问题。推荐系统的任务是将用户和信息巧妙地联系在一起,帮助用户寻找到对自己有用的信息的同时也能让信息展现在对它感兴趣的用户面前,这样实现信息消费者和信息产生者的双赢。它不仅可以在信息消费者有明确需求时更得心应手地应对信息过载,更可以在没有明确需求的时候让信息消费者避免手足无措的尴尬局面。一般推荐系统有三种,社会化推荐(SOCialrecommendation)基于内容的推荐(content-basedfiltering)和基于协同过滤(collaborativefiltering)的推荐。说到个性化推荐的应用,浮现在脑海中有很多常用app和网站的不同种推荐方式。比如应用最为广泛的领域一一电子商务,最开始进行个性化推荐也是经常被学者作为案例来进行分析学习的美国最大的网络电子商务公司亚马逊的推荐系统,被RWw(读写网)称为“推荐系统之王”。在各个类别产品中均有应用,但最主要的是个性化商品和相关商品的推荐列表。推荐方法一般有三种,第一种是基于用户的历史行为做出推荐,如若它给你推荐了一本安妮宝贝的小说,大都是因为你曾经在网站上留下过对文艺故事类的书正面的反馈。第二种是基于好友做出的推荐,按照脸书(Facebook)上好友在亚马逊上喜欢过的物品给你进行推荐。第三种是相关商品推荐,在所要购买的商品下方显示购买或者浏览过这件商品的其他用户经常购买的其他商品。这已经是电子商务平台很重要的组成部分,国内知名的电商平台淘宝网、京东商城等也纯熟地应用了这一技术。例如淘宝在首页最下方设置“猜你喜欢”板块,就是根据最近用户浏览或购买的物品种类或款式进行推荐,在付款结束购买之后,下方也会出现一些类似商品的推荐,在一定程度上方便了用户的消费行为,让找东西更加方便,也将商品推广给更多的人。O猜你喜欢图0.1淘宝“猜你喜欢”页面推荐系统在音乐、视频平台上应用也十分广泛,此类平台需要使用推荐系统的原因是,音乐和视频的种类实在是数不胜数而且一直以疯狂的速度进行增加,信息过载是用户无疑会面临的问题,并且有很大一部分用户只是把音乐当作背景音,只有很少一部分人有听某种特定歌曲的需求,对普通用户来说只要是符合自己心情的音乐便都可以。视频网站也是同理,观看视频作为一种消遣时间的娱乐活动,很多用户只是想放松心情随便看一些内容来消磨时光,并没有指定想要看的电视剧目或者综艺节目。在这中场景下,推荐系统就十分必要了。音乐推荐系统的出现能够为用户推荐可能喜欢的音乐,帮助用户快速的发现或者找到自己想要的歌曲。这种推荐服务能够为用户提供良好的使用体验,带来商业利益,因此音乐推荐领域也成为工业界和学者们重视的研究方向。国内的主流音乐播放器,QQ音乐、网易云音乐、酷我音乐盒等均有应用这一技术,其中网易云音乐在每日推荐上经常被用户公开表扬其跳过率低以及被收藏率高,由此可见网易云音乐的推荐算法比其他会较复杂且了解用户心理。再说视频系统,最典型的例子就是美国视频网站Youtube,还有国内的几大视频网站巨头,例如腾讯视频、爱奇艺、优酷网、哗哩哗哩等。其推荐系统首先对采集到的用户数据进行一系列的预处理使其符合数据挖掘对于数据源的要求;然后使用改进后分类回归树将经过预处理后的数据源建立起用户的兴趣模型,从而挖掘出用户的个人偏好;最后将Item-based和USeLbaSed两种模型进行组合,两种模型的合理组合使两种模型在扬长避短的前提下实现了系统高效精准的推荐功能。191随着Web2.0的发展,不得不说社交网络完完全全融入人类生活的方方面面,人们把现实生活中的社交关系慢慢延伸到互联网,Facebook.TWitter类似这样的社交网站也因为这个原因而取得了相当大的成功。正如GiUIianaCarUll所叙述,例如,像TWitter这样的社交网络在线(OSN),他们越来越受到关注,因为无需任何先前的知识就可以用户之间建立了连接。这突出显示了许多OSN的主要功能之一:创建用户之间的关系。因此,找到提供有趣的友谊建议的新方法非常重要。然而,从计算资源的角度来看,挖掘和分析大型社交网络的数据可能变得至关重要。尤其在资源受限的移动设备用于访问社交网络服务的普遍访问环境中。为此,设计提供在移动云场景中运行的架构/解决方案至关重要。因此,我们提出了一种新的推荐系统方案,试图在利用已有的链接/关系和用户之间的兴趣亲和力之间寻找合适的权衡。正是因为社交网络中的用户的行为十分活跃,并且具有与其他互联网平台相比更丰富的用户行为(如评论好友、添加话题)等等,所以就包括了大量可供挖掘的信息。因此个性化推荐也应用于各个社交网络之中,除刚提及的国外炙手可热的社交网络以外,国内的新浪微博和前些年红极一时的人人网都有类似的功能。通过新浪微博关注某位博主之后,系统会在该页面显示你可能会感兴趣的人。网络爬虫方式获得目标用户的二度好友的个人信息和微博信息,然后通过分析采集到的数据,并基于用户兴趣相似度、用户间的地理相似度和用户影响力这三种因素来综合地向目标用户进行好友推荐。该系统的实现一般得益于爬虫技术、文本分析技术、以及协同过滤技术中的Top-N方法。在中国,算法已经成为国内资讯类app的“标配”。除了以上提及的推荐系统的应用方向之外,不得不说到基于个性化推荐的资讯类app,如今日头条、天天快报和一点咨询等。它们的出现引起了很大的争议,这一直是近年来新闻头条偏爱的话题,但必须承认它们划时代的重要作用。今日头条的个性化推荐机制是通过算法进行用户标签和内容标签之间的匹配,用户兴趣模型的建立主要依据用户在平台的阅读行为。网在财经的专访中,今日头条CEo张一鸣不断表示今日头条非媒体而是“平台”。技术时代,媒介不再仅仅充当人的工具和手段。与现代技术完美结合的媒介不仅摆脱了人,反过来以“座架”的方式规制人,塑造人,控制着人和人的生活方式。人成为媒介的延伸。1,4而与广告行业最为相关的莫过于个性化广告投放,即计算广告学。广告是绝大多数互联网公司的获利渠道和生存根本。广告推荐是帮助广告主或代理公司找到他们可能会感兴趣的用户。大体上分为三种,一是上下文广告,以谷歌AdSenSe为代表。在分析用户所浏览的网页内容后,在该网页上投放与之相关内容的广告。二是搜索广告,以百度为代表,通过分析用户搜索内容和目的来投放相应的广告。三是个性化展示广告,以雅虎为代表。现在我们所说到的推荐产品发展历程主要经历了如下的几个阶段。从较为简单的关联推荐过程过渡到个性化推荐、紧接着又逐步变为场景智能的推荐。从具有相关性、相似性的产品推荐变为多特征、多维度、用户实时行为、结合用户场景进行的全方位智能推荐。如下图所示,C招短.找拚瓶3Wf4-2OI5 疗祖明你4代. IW构TJfl体欢. 免运费海笊.认动.楼加.岗名寺中东陟桑.W4jlft,Ie体计如,杈的61*小货.消中.东东小反图0.2推荐产品发展历程系统架构用户画像商品画像小匚画像特曲弼 I用户行为在线效据收第离线蜀据收集图0.3推荐系统的业务架构推荐系统一般由三个部分构建组成,一是推荐系统算法,二是前台显示给用户的展示页面,三是存放在后台的日志。在推荐系统中最基本的算法就是基于邻域的算法,即协同过滤算法。它也是最古老的算法,1992年随着它的诞生,推荐系统随之诞生,最先被应用于邮件过滤。在2000年,推荐系统是被GrOUPLenS推向另一个高度的,它是被应用于筛选新闻的系统,推荐用户最感兴趣的内容,而且具备开放性、规模性、隐秘性等等特性。图0.4推荐系统通用模型与基于内容的过滤算法不同,协同过滤算法是根据用户之前的行为产生的反馈,如浏览过的内容或者物品的喜欢与否,来获取到用户的兴趣爱好所在,再根据这些内容为用户提供其可能会需要的信息。协同过滤算法在当今非常流行,不论是商品还是视频音频,都能给用户进行准确有效的推荐。协同过滤算法基于mahout的高校图书馆个性化图书推荐系统设计与实现主要分为两种,基于项目的协同过滤算法(itembased)和基于用户的协同过滤算法(USerbased)o基于项目的协同过滤算法的原理是,一些用户对于项目的反馈上有相同的地方,而且在其他项目上的反馈也比较类似,那么一般就可以用靠近的思想来计算当前这位使用者对于还未反馈过的产品是否会做出正面的评价。协同过滤算法具有很多优点与存在的必然性,但虽然推荐系统自出现至今已经二十余年,其中还是有着许多需要改进和注意的地方。第一个是冷启动问题。1基于改进的个性化混合推荐算法的研究在项目和用户首次出现时,推荐系统的准确率会下降的问题。如果是基于内容的推荐算法,在用户没有评分的时候依旧可以根据内容来建立用户的兴趣偏好模型来进行推荐,但是协同过滤算法就存在这个问题了。在新的项目进入系统时,由于对这个新项目不甚了解以至于不能将这个项目准确推荐给用户。第二个是数据稀疏性问题。由于协同过滤算法主要是利用用户对项目的历史评价或者所做出的行为来进行计算,然后给用户做出推荐。理论是如此,但是在实际应用当中会遇见用户群庞大但是评分数据很少的情况,例如淘宝、京东等大型电商平台。由于这样的情况,就会产生用户-评分矩阵十分稀疏,在相似度计算上遇到困难而且耗时更长,准确率也会相应下降。第三个是可拓展性问题。推荐系统中的数据在随着时间流逝和业务发展而急速增长,那么如何让系统适应这样的需求进行快速更新模型就是目前面临的挑战。第四个是准确率与多样性。虽然现在的推荐系统可以一般程度上满足用户的需求,但推荐相似的项目有时候无法满足用户的个性化需求,也不能带给用户惊喜。因此还需要提升结果的多样性来改善这一问题。1数据获取及预处理1.1 APP表现数据艾瑞资讯集团是于2002年成立、具有16年历史的有很高权威性的互联网公司。主营业务大概分为4部分,分别是iUserTracker(网民行为连续研究系统)、iAdTracker(网络广告监测分析系统)、iUserSurvey(网络用户调研分析服务)、iDataCenter(网络行业研究数据中心)等。在广告媒介公司,如WPP集团中的Gre)UPM(即笔者目前所在的公司),通常使用艾瑞数据作为参考的数据来源,查看移动端APP排名、月独立设备数、单次使用时长等。因此,在本文中也使用艾瑞数据,具有权威性和可信性。图1.1艾瑞功能从实际状况来看,所需数据为所有WP的平均日独立设备数,再由这些历史数据使用时间序列预测算法来得出下一个月的平均日独立设备数。进而使用这些数据,结合广告主之前的投放历史以及广告主的特点来进行推荐,这个推荐系统比仅仅看APP排名数据更加科学、精准。1.2 移动端广告点位刊例由于不同app的设计不同,硬广告点位的设置也不相同,除了比较软性的广告之外,一般分为以下几种:1 .开机画面图(开屏):即在点击打开该app时出现的画面2 .首页焦点图:在开机画面图之后,进入app时首页最上方最显眼的位置,但一般是该位置轮播的最后一个,并不是第一眼就可以看见的广告位。3 .信息流:在位置上分为首页和其他频道,在同一页面上一般又分为第七条、第九条、第十四条等。根据内容的不同又可以分为静态图片、动态图片和视频信息流。再谈广告点位的购买方式,一般分为三种,CPD(CostPerDay)即广告再该点位展示一天所需收取的费用;CPM(CostPerMille)即展示的千人成本,每一千位用户看到该广告所需收取的费用;CPC(CostPerClick)即每一个广告点击媒体向广告主所收取的费用。一般按照CPM来购买的广告点位是首页焦点图和各式信息流广告,此类广告由于可以直接计算出一个广告被一位用户看到所需要的金额再结合此app的TA来进行选择,这相对来说是非常简单的。而一般按照CPD来售卖的开屏广告则不太一样,由于每个月每天的日独立设备数是不固定的,而贩卖的价格在一年之内或者一季度之内都是不变的,因此我们很难简单地计算出每一位用户看到该条广告所需的金额,就相对难以做出选择。所以,在本文中,我们主要讨论的就是该种情况。进而,我们所需要的数据是每个app开屏广告的刊例价格,这些数据是由我直接从媒体处获得的,具有很高的可信度。1.3 移动端广告历史投放数据广告媒介代理公司通常情况下,是负责多个广告主的媒介策划工作,并将方案予以执行。因此积累了各个行业各个规模的广告主媒介投放数据。在广告媒介投放时不仅仅要考虑价格,也要考虑之前广告主对投放的收益是否满意,由于现阶段还不能获取广告投放的效果数据,因此我们先通过广告投放的历史数据来间接了解投放效果,进而进行广告媒体的推荐。但是由于目前此类数据是公司机密还不能对外公布,因此,本文所使用的数据是根据真是数据进行模拟出来的数据,虽然不是真实数据,但也是具有很高的可信度的。1.4 广告主数据后续的推荐系统算法也需要对比广告主的相似度后进行广告点位的推荐,所以也需要收集广告主的相关数据,进行相似度的计算后再来进行精准的推荐。拟从以下十个维度来进行广告主的评价,所处行业、员工人数、注册时间、年销售额、产品种类、是否为外企、是否有分公司、业务覆盖地域、主要产品种类数量、是否上市。数据来源是由广告媒介公司获取的,拟取用其中20个公司的数据,并做脱敏处理,以免涉及到公司机密信息。除广告主本身性质以外,还取用其广告效果的数据。假定开屏广告均为可点击的,那么获取其点击率,即转化率,如果说曝光是为了提高广告主的知名度,那么转化率就可以表明由多少用户是对该产品感兴趣的,是该产品的潜在消费者。因此这也是一个非常有效的数据,从广告公司获取转化率的真实数据,进行模拟后脱敏处理,也是避免涉及到公司的机密信息,造成商业机密泄露。1.5 数据预处理本文所使用的app的月活数据和媒体公开的广告刊例价,均为真实数据。app广告投放历史数据是根据企业的真实投放数据进行模拟完成的。不论是数据的数量还是质量,都具有很高的可靠性。1. app的每月日平均独立设备数在艾瑞系统中运行出来之后,将完整EXCeI中的数据进行分割,分割成小的CSV格式进行运行。2. 在获取到广告主的10个维度的基本资料之后,为了方便之后在推荐算法中使用,将每个维度的所表示的性质用二进制表示出来。3. App媒体给到的刊例价格是整体所有广告点位的集合,那么我们只需要将把按照CPD贩卖的广告点位价格提取出来,将186个app的价格都汇总在同一个Excel当中。2时间序列预测分析方法的研究1.1.1 序列数据挖掘1.1.2 1.1数据挖掘基本概念数据挖掘(DMDataMining),是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣或对决策有潜在价值的知识和规则。16正是这些规则,它包含了存在于数据库中的一组对象的关系,显示出一些潜在的有用信息,它可以为多方面提供相关依据,例如经营决策、市场规划、金融预测等方面。KDD(KnowledgeDiscoveryinDatabase)意为,在数据库中的知识发现,这也是数据挖掘的别称。这是近几年兴起的跨学科、从多门学科中吸取养分的随着人工智能发展而随之发展的新兴的数据库技术。多门学科中包括很多门类,例如人工智能、神经网络、数据库系统、数据可视化、知识获取、统计学、数据库技术和信息检索等。1.1.3 数据挖掘的分类可以根据不同的角度进行分类:1 .根据数据挖掘的类型进行分类:面向对象数据库、文本数据库、WEB数据挖掘、事物数据库、空间数据库、关系型数据库、文本数据库、对象-关系数据库和数据仓库,和多媒体数据库等。由于它们采用了不同的技术,而且都有着各自的特点,所以有助于我们了解研究对应数据类型的技术和算法。2 .根据技术类型的实现方式进行分类:它们可以通过评测用户的互动行为的程度来进行描述。例如可以分为,查询驱动系统、自治系统、互动探索系统等。除此之外还可以按照采用了何种数据分析方式进行描述,例如面向数据仓库、模式识别、面向数据库、统计学、机器学习、神经网络、可视化等。通常来讲,复杂的用于数据挖掘的系统采用不止一种技术进行数据挖掘。3 .按照数据挖掘的知识模型进行分类:概念描述、关联规则、分类/聚类及数据进化模型等。更进一步来讲,因为数据挖掘系统的知识层次不同,因此知识的表达方式也不尽相同。4 .按照应用的特点进行分类:它应用的领域十分广泛,在金融、军事、商务等领域均有涉猎。当然了,在不同领域中,一般需要方法集成,按照不同领域来寻找不同的数据挖掘系统就更为实用。1.1.4 数据挖掘技术方法数据挖掘中有许多常用的方法,其中包含以下几种:(1) 关联分析这是一种从大量数据集中挖掘出有意义的关联性知识,它是非常实用的一种技术。若A是属性集,B是属性个体,那么它的基本思路是:A->Bo在数据库列表里,A具有真值,而B作为个体有其可能值和趋势。其常用的形式有货蓝分析,度量的维度有两个,支持度和置信度。在现实生活中有许多应用的例子,零售行业里,可以分析客户在购买计算机之后有多少概率会进行打印机的购买?在制造业或者其他行业中,在发生事件A和B之后有多少概率发生事件C?关联规则能通过大量的数据中,(其中包括事件数据和关系数据),来挖掘出模式,尤其在零售、通讯等行业得到广泛应用。(2) 决策树主要是通过数据的属性值来归纳进行分类,一般的方法是“if-then"规则。它最大的优点是便于理解,更为直观。而缺点是在进行复杂数据处理时,分支太多,不便于管理。除此之外还存在数据的缺值处理的问题。(3)遗传算法遗传算法是将生物学和计算机科学技术融合之后的产物,是基于生物进化的组合优化方法。在197年,美国密西根大学教授D.J.Holland和同事们第一次提出这个算法。根据生物界适者生存的原则,根据自然界生命进化的机制形成当前最适合的规则组成新群体及其后代。通过这一思想进行应用,获得合适的模型并对模型进行优化。遗传算法对问题信息要求较少,而且高效和灵活。此算法的优势在于数据聚类,在时间上和空间上的类比之后,将繁复的数据信息变得有条理和系统化,进而找出其内在联系,总结出概念与模型。其广泛应用于多种领域,如机器学习、模式识别等。(4)贝叶斯网络贝叶斯网络是在贝叶斯定理的基础上建立的,对数据进行统计处理方法。它通过网络把不确定时间连接在一起,对相关事件的结果进行预测,其网络变量可以隐藏也可以可见。它的优势在于便于理解,有很好的预测效果,而缺点在于如果事件发生的频率很低则预测效果不好。应用的领域大都在医学和制造业(5)粗燥集算法粗躁集方法作为一种新型数学工具,在1982年由波兰教授ZdziskewPawlak第一次提出,在数据挖掘中有着广泛的应用,经常用于在不确定性问题中发现不准确数据或噪声数据的内在数据模式。它的优点在于不需要数据的初始信息和附加信息。此方法的出现,提升了数据挖掘以及知识发现的效率。(6)神经网络这是起初由心理学家和精神生物学家提出的,将开发和测试神经的计算模拟作为主要目的,是常用的数据挖掘技术之一。它是类似于人类大脑的一种学习方法,先给出大量样本进行学习和训练,进而产生区分不同样品的各种特征和模式。神经网络最显著的特点在于,难以言述其具体运用的方法,也不能很容易地解释出使用了怎样的规则得出了怎样的结果。它的缺点在于需要长时间的训练才能得出想要的预测效果,然而优点在于预测地效果较好,对数据地噪声承受能力相对较高。该算法广泛应用在金融领域,用于股票预测等方面。(7)统计分析统计学和概率论是统计分析的主要理论基础,它是一种基于模型的较精确的挖掘技术。其中包括回归分析、因子分析和判别分析等。其优势在于描述结果较精确且易于理解。该方法在实际应用中比较广泛。2.2序列的平稳性2.2.1特征统计量(1)均值给定时间序列X"W7来说,当西(X)<8时其中Ea)为随机变量X,的概率分布,Xr会有常数均值4。t=EX1=xXdFl(X)1)J-<0当t取遍所有的观察时刻时,我们就得到了一个均值函数序列4"T(2)方差当JM"(x)<oo时,我们可以使用时间序列的方差函数来描述序列值围绕均值的随机波动程度。DX1=E(Xl-l)2=x-l)2dFt(x)(2.2)当t取遍所有的观察时刻时,我们就得到了一个方差函数序列Z¼T(3)自协方差函数和自相关函数对于时间序列XwT,任取f,sT,我们定义次,s)为序列X,J7的自协方差函数tys)=EX-l)Xs-s)(2.3)定义(行)为时间序列X为的自相关系数,简记为ACFo4)八")yDXt.DXs同一时间序列在两个不同时期的相关程度可以使用自相关系数来度量,简单来说,就是度量序列的过去对现在的影响。2.2.2严平稳和宽平稳严平稳要求序列的所有统计性质相对于时间来说都是常量,这时才认为序列是平稳的。但是,这一条件在实际应用中很难得到满足。要求时间序列的统计性质,我们需要求得它的联合概率分布函数。对于时间序列%,任取正整数相,当§冉,,着£7时,对任意整数丁,其联合概率分布函数满足兀,'/和'2'j/二%,如i,,与)5)时,我们才称时间序列3为严平稳时间序列。然而,在解决实际问题的过程中,得到一个时间序列的联合概率分布函数难度很大,即使得到了联合概率分布函数,其计算和应用也存在着很多问题。也就是说,时间序列的严平稳并不具有实际意义,在实际问题中,我们通常使用宽平稳条件来代替判定时间序列的平稳性。宽平稳使用序列的低阶矩,来近似估计整体,采用时间序列的特征统计量来对其进行分析。如果一个时间序列苍)满足:(1)任取