王江浩-大规模时空数据分析与 可视化 — R应用 与实践 与实践.docx
第九届中国R语言会议大规模时空数据分析与可视化R应用与实践王江浩(Warqjh)中国科学院地理科学与资源研究所资源与环境信息系统国家重点实睑室May.29,2016RUC.edu主要内容1引言R中时空数据分析简介大规模时空数据获取与处理4大规模时空数据分析与可视化inn(v9Cton/)streets(vectonsi)SpatialVectorial:Point,Polyline,Polygon,Volume Raster SpatialReferenceTemporalDate+TimeAttributeDataFrame时空数据获取与分析方式GeographicalInformationSystem(GIS)GlobalpositioningSystem(GPS) Bigdata&Opendata FourthparadigmofScientificVGI:Citizensassensors:theworldofvolunteeredgeography.MichaelF.Goodchild,2007 Physical=>Social£s1.今二R:4c1.W3Fif,为丁V(1) SocialMediaData©G3®j(2) UserGeneratedContents(UGC)兴麟嬷范58嬲ga11三Google20millionPOIsinChina(3) GPS-enabledsmartphonesgenerateddataSanFrwiKOWherePeopleRunTaxiTracking(byYuZheng)1.ondon(4) RemoteSensing,WirelessSensorsNetwork,VGI,SmartCard.WSN汴WirelessSensorNetworksOpenStreetIVIap,OSM 动态、多粒度时空数据是长期观测积累的矢量/栅格数据,如遥感卫星、GPS实时定位、视频、微博等。 多源、海量如交通大数据中:视频监控、浮动车GPS监测、公交刷卡、铁路和飞机进出港数据。每日可达PB级。 泛在、异构时空大数据存在形式多样,如测绘中的De)M,DEM,D1.R和DRG,也包括更大体量的数据,包括文字、图片、视频等,既有实体空间中的数据也有虚拟空间的数据2R中时空数据分析简介R中的时空数据分析Classifiedbytaskview TimeSerieshttp:/cran.r-project.org/web/views/TimeSeries.html Spatialhttp:/cran.r-project.org/web/views/Spatial.html Spatiotemporalhttp:/cran.r-project.org/web/views/SpatioTemporal.htmlinstall.packages(11ctv11)library(11ctv11)install.views(,Spatial11)update.views(11Spatial11)TimeSeries Maintainer:RobJ.Hyndman Packagestat.:179xts,ZOO1.Corepackage:stat,forecast,tseries,TimeSeriesAnalysisandItsApplications Application:EconometricsandFinanceSpatialSpatialdataanalysis Maintainer:RogerBivand Packagestat:134 Corepackages:sp,geoRzgstat,maptools,raster,RandomFieldsrrgdal,spacetime,spdepfsplancs Mailinglist:R-SIG-Geo;OSGeoSpatiotemporal-dataprocessandanalysisUMaintainer:EdzerPebesma Packagestat.:46 Corepackage:sp,xts,spacetime,stpp,surveillance,gstatzRandomFields,raster Mailinglist:R-SIG-Geo;OSGeoJournalofStatisticaiSoftwareNOvembrr式)12,Volwne51f7.Mtp:mrw.讨OiJtqN/spacetime:Spatio-TemporalDatainREdZerPebpsmaUniwrsityofMUiistcr时空数据获取与处理R中大规模数据获取方法®正则表达式提取信息方式XPath(XM1.Path)查询提取方式®APl进行数据采集方式Technologiesfordisseminatingcontent、ontheWeb,TechnologiesForinformationextractionTechnologiesfordatastorageHTTP;IR:»IR:XM1./HTM1.4XPathPSQ1.:JSONJSONparsers算11rIBinaryformatsIAJAXSeleniumrIPlain-textfo11natsI_/Plaintext>Regularexpressions识别符合某个正则特征的信息下载文档、网页RCurItdownIoad.fiIe(),正则表达式导入文档rad1.inO,编码指定正则表达式优化匹配提取信息stringr识别嵌套在XM1./HTM1.文档中信息下载文档、网页RCurIfdownIoad.fiIe(),正则表达式解析文档xmlParse(),htmIParseO指定XPath查询Web开发者工具提取信息XPath配套XM1.组件、正则表达式找到APl并熟悉其使用条款和限制方法浏览器、文档为使用API注册应用,获取并保存密钥浏览器通过OAUth进行身份验证httr调用APlAPl测试工具、编写自定义函数处理得到的信息XM1.jsonliteR中时空数据存储与数据库技术ClientQ他时翎据量大多嫄(来源多样)、角穹(格式多样)各类空间操作方法不统一,语言不统一CouchDBrelaxmongoDBtmembseriak多服务器nternetApplicationServer三ApplicationServer.1.oMapRenderWebServer.rSpatialProcessing55&WebServerDatabasePffi,l2,数据库集群空间数据库技术一PostgreSQ1.PostgreSQ1.thewodtf*smostadvancedopensourcedatabasePostgreSQ1.(Postgres)http:WWW.postqreSqlQrg圆世界上最先进的开源娄媚库1.imitValueMaximumDatabaseSizeUnlimitedMaximumTableSize32TBMaximumRowSize1.6TBMaximumFieldSizeIGBMaximumRowsperTableUnlimitedMaximumColumnsperTable250-1600dependingoncolumntypesMaximumIndexesperTableUnlimited空间扩展:PostGIShttp:WwW.postgresq1.orgdocs92staticindexhtmlhttp:/wiki.postgresql.org/wiki/MainPage空间数据库技术一PostGISPostGIS(httD:/DOStgiS.refaCtiOnS.net)是对象关系型数据库系统PoStgreSQ1.对空间数据的一个拓展。PoStGlS提供如下空间信息服务功能:空间对象、空间索引、空间操作函数和空间操作符。Database:UySQ1.MSSO1.OracleShapefiles桌面端GoogleuDgCeoServer网络端R与(时空)数据库接口RMySQ1.ORAC1.PostgresQ1.AQ1.itemongo>BR0DM>ROracleRpgSQ1.>RPostgreSQ1.>TSPostgreSQ1.RSQ1.ite>filehashSQ1.iteRmongo>rmongodbHJFQScQB高性能读写一FeatherFeatherFileMETADATARcppRdata.frameCythonpandasDataFrame高性能计算一Cluster,HadoopzSparkRHighPerformanceProgrammingParallelR高性能计算加快R运行的简单方法 提升硬件、向量化、使用内置函数 预分配内存、简单的数据结构 使用哈希表进行大型数据上的频繁查找 去CRAN寻找更快的包 RCpp×Basic1.inearAlgebraSubprogramsx1.inearAlgebraPACKageGPU运算Gputools优化内存使用重用对象、删除中间数据、缓存大型数据集的处理数据库、数据结构、系数矩阵、内存映射、bigmemory并彳钳算MPIxsnowXparallelmultcore×doMCforeach数据处理:dataetableVS.dplyrdp:1.yr和data,tab:1.e是R的两个高效数据处理包。dplyr©dplyr包的语法更加优雅,提供了更易于人类所能理解的自然语言。1.,datatable®data.table包的语法简洁,并且只需一行代码就可以完成很多事情。data.table在某些情况下执行效率更占三o在性能和内存受约束的情况,data.tabie包或许是首选的R包。arraydataframelistnothingarrayaaplyadplyalplya-piydataframedaplyddplydlplyC1.PlylistIaplyIdplyHpiy1.plynreplicatesraplyrdplyrPyrj>yfunctionargumentsmaplymdplymlplym_plyGIS接口rgdal>rgeosplotKM1.>ggmapRgoogIeMapsOpenStreetMap>IeafIetRspgrass6>rgrass7RPyGeo>RSAGARArcInfoGRASSGIS,ArcGISESRlGDA1.4大规模时空数据分析与可视化时空数据学里描述性统计分离性模型空间数据分析时间序列分析时空数据模型 统计模型、机器学习 物理模型 统计+物理混合模型时空数据可视化R中时空数据统计分析方法 Geostatisticsspacetime,SpatioTemporal,RandomFields,spBayesStemfSPCoPUla,etal. Spatio-temporalpointpatternSPIanCs,StPp,StppResidfStam,ptproc 1.atticedataanalysissurveillance,PIm,SPlm,sphetnlme TrajectorydataanalysisSdehabitat1.Tztrip,tripEStimationzdiveMovezmove,etal.大规模时空数据可视化策略1.海量点、线数据可视化透明化栅格化带有地理标签的照片MappingworldbillionsofgeotaggedphotosfromFlickrdatamapsTwitterMapNewYorkTaxiWeibo:WherearetheChineseWecollected220milliongeo-taggedWeiboover2014tostudythefootprintandthebehaviorofChinese.01101005001X)00.000100o10.00020.00050.000100.000454.9741.iuX,WangJH*zThegeographyofWeibo.EnvironmentandPlanningA,2015中国人的足迹社交网络数据推算人口ChineseAmericanChineseAmerican(PewResearch,basedon2010Census)(EstimatedbasedongeotaggedWeibo)流数据可视化策略空间交互/网络可视化策略空间交互/网络可视化策略UrbaninteractioninJing-Jin-JiUrbaninteractioninYangtzeDelta20140101OOOOz:Surface.PM2.5.Mass.ConcentrationNASA&1.R£lS.GSNRR.CASWWrwehttp:ZZjianghao.wdng/利用NASA资料,我们可视化了2014年1月逐小时的地表PM2.5浓度,可以直观地看出来PM2.5的传播过程。5-1010-2525305M1012502515OOAsoo三维可视化策略I(时空)DataScientist匚数据获取数据库分析与挖掘专业工具产python&GRASSGIS0SGeoESRlAWMF.-0EFfMCMMllwam一ENVl5®rdas*eco9211wEMl>BmkusCmow时空思维SpatiallyDynamicallyInteractivelyWt.kfRej>w一(modotfCx11a<umandarvsogMCiocngThanks!Q&A王江浩CAShttD"jianghao.wacg