欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    利用Python进行数据分析之数据加载课件.ppt

    • 资源ID:3718063       资源大小:996.50KB        全文页数:15页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    利用Python进行数据分析之数据加载课件.ppt

    数据加载,存储与文件格式,1,读写文本格式数据:(read_csv,read_table,read_fwf,read_clipboard,open()to_csv,to_excel,write()2,JSON数据:(两个方法:json.loads()json.dumps())3,XML和HTML:WEB信息收集(两个接口lxml.html,lxml.objectify)4,二进制数据格式(pickle函数,短期存储格式)5,使用HTML和WEB API(requests包)6,使用数据库,目录,读取文本格式数据,读取文本格式数据,pandas读取文件会自动推断数据类型,不用指定。以read_csv为例,下面是常用的几个参数:用 names重新规定列名,用index_col指定索引,也可以将多个列组合作为层次化索引。可以编写正则表达式规定分隔符。用skiprows跳过某些行。缺失数据要么没有,要么用某个标记值表示,pandas常用NA、-1.#IND、NULL等进行标记。用na_values用来不同的NA标记值。Nrows 只读取几行Chunksize:逐块读取文件,定义一个字典为各个列指定NA标记值,直接=null的就是把df中所有为空值的都标为null,跳过第3行,将数据写出到文本格式,1、利用data_frame的to_csv方法,可以将数据写到一个以逗号分隔的文件中,也可用sep参数指定分隔符,如 data.to_csv()2、缺失值写入输出时会被表示为空字符串,可使用na_rep表示为别的标记值。,不添加后缀的话默认是一个file文件,data.to_csv(sys.stdout,sep=|)#打印到屏幕data.to_csv(sys.stdout,na_rep=NULL)#空字符处显示为NULL data.to_csv(sys.stdout,index=False,header=False)#禁用行和列的标签data.to_csv(sys.stdout,cols=a,b,c)#按照指定的顺序显示列,sys.stdout就相当于print,使用之前要import,JSON数据,JSON数据已经成为通过http请求在wed浏览器和其他应用程序之间发送数据的标准格式之一,它是一种比表格型文本格式更灵活的数据格式。JSON非常接近于有效的python代码,基本类型都有对象,数组,字符串,数值,布尔型以及null。,Python形式,JSON格式,JSON格式,json.loads(),json.dumps(),Html基本信息,HTML 使用标记标签来描述网页HTML 文档描述网页保存为后缀名带.html打开就是一个网页a href 超链接,XML和HTML:WEB信息收集,Python有许多可以读写HTML和XML格式数据的库,lxml就是其中之一。,XML和HTML:WEB信息收集,Python有许多可以读写HTML和XML格式数据的库,lxml就是其中之一。,from lxml.html import parsefrom urllib.request import urlopen urllib2在python中是urllib.requestfrom pandas.io.parsers import TextParserimport pandas as pdparsed=parse(urlopen(http:/打开urldoc=parsed.getroot()可以得到url里面所有的elementprint(-doc-)print(doc)links=doc.findall(./a)获取所有为 的超链接lnk=links3 找到其中的一个连接下面的内容print(-lnk-)print(links3)tables=doc.findall(./table)找到这个连接下面的所有table元素print(-table-)print(tables)table=tables0 找到想要的tableprint(-calls-)print(calls)rows=table.findall(./tr)找到table下面所有的行print(-rows-)print(rows),XML和HTML:WEB信息收集,Python有许多可以读写HTML和XML格式数据的库,lxml就是其中之一。,def _unpack(row,kind=td):elts=row.findall(./%s%kind)return val.text_content().strip()for val in eltsprint(-th-)调用函数分别打印th和一行tdprint(_unpack(rows0,kind=th)print()print(-td1-)print(_unpack(rows1,kind=td),text_content()取到每一个td下面的内容strip()删除前后的空格,XML和HTML:WEB信息收集,Python有许多可以读写HTML和XML格式数据的库,lxml就是其中之一。,直接用Dataframe把行和表头拼起来也行这里TextParser类可以自动转换数据类型最后用to_excel比to_csv好用,to_csv保存的时候中文不好用,使用数据库,将excel的数据导入DB中,python支持多种关系型数据库:SQL Server,MySQL,DB2等,我是直接使用Python自带的SQLite数据库,1.导入Python SQLITE数据库模块 import sqlites2.创建/打开数据库在调用connect函数的时候,会指定库名称,如果指定的数据库存在就直接打开这个数据库,如果不存在就新创建一个再打开。con=splites.connect(:memory:)3.使用游标查询数据库 我们需要使用游标对象SQL语句查询数据库,获得查询对象。通过以下方法来定义一个游标 cursor=con.cursor()cursor.execute()#执行sql语句 cursor.executemany#执行多条sql语句 cursor.close()#关闭游标 cursor.fetchone()#从结果中取一条记录,并将游标指向下一条记录 cursor.fetchmany()#从结果中取多条记录 cursor.fetchall()#从结果中取出所有记录 cursor.scroll()#游标滚动,使用数据库,将excel的数据导入DB中,python支持多种关系型数据库:SQL Server,MySQL,DB2等,我是直接使用Python自带的SQLite数据库,创建了一个test1表,用来存储数据,使用数据库,将excel的数据导入DB中,python支持多种关系型数据库:SQL Server,MySQL,DB2等,我是直接使用Python自带的SQLite数据库,使用了for循环每次读取一条数据然后插入到test1表中,Thank you,

    注意事项

    本文(利用Python进行数据分析之数据加载课件.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开