R_数据处理、绘图、编程与统计检验解析课件.ppt

资源ID：1287923 资源大小：1.04MB 全文页数：88页
资源格式： PPT 下载积分：20金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要20金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

R_数据处理、绘图、编程与统计检验解析课件.ppt

1,语言介绍,数据处理、绘图、编程与统计检验,1语言介绍数据处理、绘图、编程与统计检验,2,什么是R ?,The R Project for Statistical ComputingR是一种统计绘图语言，也指实现该语言的软件,1995年由新西兰Auckland大学统计系的Robert Gentleman和Ross Ihaka，基于S语言的源代码，编写了一能执行S语言的软件，并将该软件的源代码全部公开，这就是R软件，其命令统称为R语言从S统计绘图语言演变而来，可看作S的“方言”,！免费、软件本身及程序包的源代码公开。,2什么是R ?The R Project for Stati,3,R登陆界面(Windows版)路径：开始所有程序R 2.11.0,菜单栏,快捷按钮,控制台,光标:等待输入,3 R登陆界面(Windows版)菜单栏快捷按钮控制台光标:,4,R程序包（R Packages）,程序包是什么？ R程序包是多个函数的集合，具有详细的说明和示例。 Window下的R程序包是经过编译的zip包。每个程序包包含R函数、数据、帮助文件、描述文件等。为什么要安装程序包？ R程序包是R功能扩展，特定的分析功能，需要用相应的程序包实现。例如：系统发育分析，常用到ape程序包，群落生态学vegan包等。,4R程序包（R Packages）程序包是什么？,5,常用R程序包(I),5常用R程序包(I)ade4利用欧几里得方法进行生态学数据分,6,常用R程序包(II),6常用R程序包(II)picante群落系统发育多样性分析r,7,安装程序包的方法,1 用函数 install.packages()，如果已经连接到互联网，在括号中输入要安装的程序包名称，选择镜像后，程序将自动下载并安装程序包。例如：要安装picante包,在控制台中输入 install.packages(picante)2 安装本地zip包路径：Packagesinstall packages from local files选择本地磁盘上存储zip包的文件夹。,7安装程序包的方法1 用函数 install.package,8,程序包使用,程序包的中函数，都要先导入，再使用，因此导入程序包是第一步。在控制台中输入如下命令：library(affy)程序包内的函数的用法与R内置的基本函数用法一样。library(affy),8程序包使用程序包的中函数，都要先导入，再使用，因此导入程序,9,查看函数的帮助文件,函数的默认值是什么？怎么使用？使用时需要注意什么问题？需要查询函数的帮助。1 ?t.test 2 RGuiHelpHtml help3 apropos(t.test)4 help(t.test)5 help.search(t.test)6 查看R包pdf手册,9查看函数的帮助文件函数的默认值是什么？怎么使用？使用时,10,二函数与对象,10二函数与对象,11,R的函数,R是一种解释性语言，输入后可直接给出结果。功能靠函数实现。函数形式: 函数(输入数据，参数= )如果没有指定，则参数的以默认值为准。例如:平均值 mean(x, trim = 0, na.rm = FALSE, .) 线性模型 lm(yx, data=test),11R的函数R是一种解释性语言，输入后可直接给出结果。,12,R的函数,每一个函数执行特定的功能，后面紧跟括号，例如：平均值 mean()求和 sum()绘图 plot()排序 sort() 除了基本的运算之外，R的函数又分为”高级”和”低级”函数，高级函数可调用低级函数,这里的”高级”函数习惯上称为泛型函数。如plot()就是泛型函数，可以根据数据的类型，调用底层的函数，应用相应的方法绘制相应的图形。这就是面向对象编程的思想。,12R的函数每一个函数执行特定的功能，后面紧跟括号，例如：,13,R有哪些函数?,查询的方法：HelpHtml helppackageslog() log10() exp() sin()cos() tan() asin()acos(),binom.test()fisher.test()chisq.test()glm(y x1+x2+x3, binomial)friedman.test()mean()sd()var().,13R有哪些函数?查询的方法：HelpHtml help,14,R函数调用及其选项,箱线图绘制函数的调用boxplot(daytype, data=bac, col=red, xlab=Virus, ylab=days)daytype，以type为横轴，day为纵轴绘制箱线图。data=bac 数据来源baccol=“red” 箱线图为红色xlab=“Virus” 横轴名称为Virusylab=“days” 纵轴名称为days,14R函数调用及其选项箱线图绘制函数的调用,15,赋值与注释,在控制台中键入如下命令2 + 2a 代替b - 2c - a+bc#注释,赋值符号,15赋值与注释在控制台中键入如下命令赋值符号,16, 1 + 11 2 1 + 1 * 71 8 (1 + 1) * 71 14, x x1 1 y = 2 y1 2 3 - z z1 3 (x + y) * z1 9,Math:,Variables:,16 1 + 1 x - 1Math:Variable,17, x x1 0 1 2 3 4 y y1 1 2 3 4 5 z z 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1516 16 17 18 19 20 21 22 23 24 25 26 27 28 29 3031 31 32 33 34 35 36 37 38 39 40 41 42 43 44 4546 46 47 48 49 50,Arrays:,17 x - c(0,1,2,3,4)Arrays:,18,运算符,数学运算运算后给出数值结果+, -, *, /, (幂)比较运算运算后给出判别结果(TRUE FALSE), =, =, !=逻辑运算与、或、非!, &, &, |, |,18运算符数学运算运算后给出数值结果,19,外部数据读取,最为常用的数据读取方式是用read.table() 函数或read.csv()函数读取外部txt或csv格式的文件。 txt文件，制表符间隔 csv文件，逗号间隔一些R程序包（如foreign）也提供了直接读取Excel, SAS, dbf, Matlab, spss, systat, Minitab文件的函数。,例：test.data-read.csv(D:/R/test2.csv,header=T)header=T表示将数据的第一行作为标题。read.table(file=file.choose(),header=T) 可以弹出对话框，选择文件。,19外部数据读取最为常用的数据读取方式是用read.t,20,例：从数据输入到t检验,表2 六名患者的身高和体重,现有6名患者的身高和体重，检验体重除以身高的平方是否等于22.5。,20例：从数据输入到t检验编号123456身高 m1.751,21,第一种方式：从控制台输入数据,数据量较少时可以从控制台直接输入： height-c(1.75, 1.80, 1.65, 1.90, 1.74, 1.91) weight-c(60, 72, 57, 90, 95, 72) sq.height-height2 ratio-weight/sq.height t.test(ratio, mu=22.5),21第一种方式：从控制台输入数据数据量较少时可以从控制台直接,22,图14 在Excel中将数据存为txt文件,22图14 在Excel中将数据存为txt文件,23,例：t检验(续),一般从txt文档读取数据。每一行作为一个观测值。每一行的变量用制表符，空格或逗号间隔开。read.table(”位置”, header=T)read.csv(”位置”,header=T)#从外部读取数据data1-read.table(d:/t.test.data.txt,header=T)bmi- data1$weight/data1$height2t.test(bmi, mu=22.5) #t检验,23例：t检验(续)一般从txt文档读取数据。每一行作为一个,24,向量的创建,四种类型的向量字符型character-c(China, Korea, Japan, UK, USA, France, India, Russia) 数值型numeric-c(1, 3, 6, 7, 3, 8, 6, 4)逻辑型logical-c(T, F, T, F, T, F, F, T)复数型略,24向量的创建四种类型的向量,25,向量的创建,生成向量的函数 c(),rep(),seq(),”:”c(2,5,6,9) rep(2,times=4) seq(from=3, to=21, by=3 ) 1 3 6 9 12 15 18 21“:” 1:15 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15通过与向量的组合，产生更为复杂的向量。rep(1:2,c(10,15),25向量的创建生成向量的函数 c(),rep(),seq(),26,向量创建产生随机数,rfunc(n,p1,p2,.)，其中func指概率分布函数，n为生成数据的个数，p1, p2, . . .是分布的参数数值。上面的表给出了每个分布的详情和可能的缺省值（如果没有给出缺省值，则意味着用户必须指定参数）。用01之间的均匀分布产生10个随机点:runif(10) or runif(10, min = 0, max= 1) rnorm(10, mean = 0, sd = 1)大多数这种统计函数都有相似的形式，只需用d、p或者q去替代r，比如概率密度 (dfunc(x, .)dunif(x, min=0, max=1, log = FALSE) 累积函数 punif(q, min=0, max=1, )分位数 qunif(p, min=0, max=1, )显著性水平为5%的正态分布的双侧临界值是： qnorm(0.025) -1.959964 qnorm(0.975)= 1.959964,26向量创建产生随机数rfunc(n,p1,p2,.,27,27,28,矩阵的创建,生成矩阵的函数 dim()和matrix()dim() 定义矩阵的行列数，例如： x - 1:12 dim(x) - c(3,4) ,1 ,2 ,3 ,4 1, 1 4 7 10 2, 2 5 8 11 3, 3 6 9 12 matrix.x - matrix(1:12,nrow=3,byrow=T)t(x)#转置为行或列添加名称：row.names()col.names(),28矩阵的创建生成矩阵的函数 dim()和matrix(),29,数据框的创建,创建数据框的函数:data.frame(), as.data.frame(), cbind(), rbind()cbind() # 按列组合成数据框rbind() # 按行组合成数据框data.frame() #生成数据框head() #默认访问数据的前6行,29数据框的创建创建数据框的函数:data.frame(),30,工作空间image,R的所有对象都在计算机内存的工作空间中。ls() 列出工作空间中的对象rm() 删除工作空间中的对象rm(list=ls() 删除空间中所有对象save.image() 保存工作镜像sink() 将运行结果保存到指定文件中getwd() 显示当前工作文件夹setwd() 设定工作文件夹可将结果保存在image中，形式为.Rdata文件，里面保存了R当前工作空间中的各种对象，包括函数。,30工作空间imageR的所有对象都在计算机内存的工作空间中,31,三脚本编程Scripting,31三脚本编程Scripting,32,例-线性回归,对一批涂料进行研究，确定搅拌速度对杂质含量的影响，数据如下，试进行回归分析,表3 搅拌速度对涂料中杂质的影响,32例-线性回归转速rpm 20222,33,脚本举例,#将以下代码粘贴到编辑器中，另存为regression.r文件。rate-c(20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42)impurity -c(8.4, 9.5, 11.8, 10.4, 13.3, 14.8, 13.2, 14.7, 16.4, 16.5, 18.9, 18.5)plot(impurityrate)reg-lm(impurityrate)abline(reg,col=red)summary(reg),33脚本举例#将以下代码粘贴到编辑器中，另存为regress,34,运行脚本,三种运行方式1 通过source()函数运行source(d:/regression.r)2 通过R脚本编辑器运行路径：RGuiFileOpen Script #Ctrl+R运行3 直接粘贴到R控制台ctrl+c, ctrl+v第三种最为简单直接,34运行脚本三种运行方式,35,四 R绘图,35四 R绘图,36,图19 R绘制的图形,36图19 R绘制的图形,37,高级绘图函数,37高级绘图函数plot() 绘制散点图等多种图,38,图23 散点图与箱线图,38图23 散点图与箱线图,39,低级绘图函数,39低级绘图函数lines()添加线curve()添加曲线a,40,绘图参数,参数用在函数内部，在没有设定值时使用默认值。font = 字体lty = 线类型lwd = 线宽度pch = 点的类型,xlab = 横坐标ylab = 纵坐标xlim = 横坐标范围ylim = 纵坐标范围也可以对整个要绘制图形的各种参数进行设定参见 par(),40绘图参数参数用在函数内部，在没有设定值时使用默认值。,41,举例：绘图,生成0到2之间的50个随机数，分别命名为x,yx - runif(50,0,2)y - runif(50,0,2)绘图：将主标题命名为“散点图”，横轴命名为”横坐标”，纵轴命名为“纵坐标”plot(x, y, main=散点图, xlab=横坐标, ylab=纵坐标)text(0.6,0.6,text at (0.6,0.6)abline(h=.6,v=.6),41举例：绘图生成0到2之间的50个随机数，分别命名为x,y,42,图24 绘图举例,42图24 绘图举例,43,例：分步绘图,1.打开绘图窗口，不绘制任何对象plot(x, y, type=n, xlab=, ylab=, axes=F)2.添加坐标点points(x,y) 3.添加坐标轴axis(1); axis(at=seq(0.2,1.8,0.2), side=2)4.补齐散点图的边框box() 5.添加标题、副标题、横轴说明、纵轴说明title(main=Main title, sub=subtitle, xlab=x-label, ylab=y-label),43例：分步绘图1.打开绘图窗口，不绘制任何对象,44,图25 分步绘图,44图25 分步绘图123456,45,一页多图,图26 一页多图par()par(mfrow=c(2,2).,45一页多图图26 一页多图,46,在原有图形上添加元素,举例：x - rnorm(100) # 生成随机数hist(x,freq=F) # 绘制直方图curve(dnorm(x),add=T) # 添加曲线h - hist(x, plot=F) # 绘制直方图ylim - range(0, h$density, dnorm(0) #设定纵轴的取值范围hist(x, freq=F, ylim=ylim) #绘制直方图curve(dnorm(x),add=T,col=red) #添加曲线,46在原有图形上添加元素举例：,47,图27 在原有直方图上添加曲线,47图27 在原有直方图上添加曲线,48,五编写函数,48五编写函数,49,编程基础,R可以灵活的编写程序，用户自己编写的程序可以直接调用。编程时无需声明变量的类型，这与C,C+等语言不同。基本格式函数名 - function(数据,参数1= 默认值,) 异常处理; 表达式(循环/判别); return(返回值); 函数内部也可用#添加注释,49编程基础 R可以灵活的编写程序，用户自己编写的程序可,50,函数实例,图28 函数实例 data2mat(),50函数实例图28 函数实例 data2mat(),51,程序流程控制 if,if(条件) 表达式 if(条件) 表达式1 else 表达式2 举例p = 0.03if(p 0.05!),51程序流程控制 ifif(条件) 表达式,52,循环 for, while,for(变量 in 向量) 表达式用法： for(i in 1:10) print(i)while(条件) 表达式用法:i - 1while(i10) print(i) i - i + 1,52循环 for, whilefor(变量 in 向量) 表,53,返回值,返回值表示函数输出的结果。返回值必须是一个对象。R默认将最后一行作为返回值。如果函数的结果需要有多个返回值，可以创建一个list()，并返回该对象。也可以用return()函数，设定返回值。但是一个函数的返回的对象只有一个。,53返回值返回值表示函数输出的结果。,54,异常处理,如数据输入不能满足要求，或者参数设定错误等等，可能造成函数给出错误的结果，则需要对函数的运行过程发出警告或终止，以提高程序的稳健性。警告的写法if(any(is.na(inputdata)inputdata - na.omit(inputdata)cat(“NAs are found in the input data, and has been removed.n)终止的写法if(any(is.na(xx)stop(NAs are not allowed!n),54异常处理如数据输入不能满足要求，或者参数设定错误等等，可,55,函数举例,问题:输入直角三角形的两个边长，求其斜边长。定义函数：rcal - function(x,y) z - x2 + y2 result - sqrt(z) return(result)调用函数：rcal(3,4),55函数举例问题:输入直角三角形的两个边长，求其斜边长。,56,write.table()write.csv()save.image()sink()unlink()若有LaTeX基础，可以用Sweave() 函数该函数能将脚本、程序说明和运算结果直接保存成.tex文件，用LaTeX编译成pdf文件。,六数据保存,56write.table()六数据保存,常用概率分布,重点回顾生物科学研究中常用的几种随机变量的概率分布正态分布、二项分布、波松分布,常用概率分布重点回顾生物科学研究中常用的几种随机变量的概率分,如果表示试验结果的变量x，其可能取值至多为可列个，且以各种确定的概率取这些不同的值，则称 x 为离散型随机变量 ( discrete random variable)；如果表示试验结果的变量x ，其可能取值为某范围内的任何数值，且x在其取值范围内的任一区间中取值时，其概率是确定的，则称x为连续型随机变量 ( continuous random variable)。,如果表示试验结果的变量x，其可能取值至多为可列个,59,要了解离散型随机变量x的统计规律，就必须知道它的一切可能值xi及取每种可能值的概率pi。如果我们将离散型随机变量x的一切可能取值xi ( i=1, 2 , )，及其对应的概率pi，记作 P(x=xi)=pi i=1,2, (43) 则称（43）式为离散型随机变量x的概率分布或分布。常用分布列 (distribution series)来表示离散型随机变量：,x1 x2 xn .p1 p2 pn 显然离散型随机变量的概率分布具有pi0和pi=1这两个基本性质。,59要了解离散型随机变量x的统计规律，就必须知道它的一切,连续型随机变量的概率分布连续型随机变量 (如体长、体重、蛋重)的概率分布不能用分布列来表示，因为其可能取的值是不可数的。我们改用随机变量x在某个区间内取值的概率P(axb)来表示。下面通过频率分布密度曲线予以说明。,60,若记概率分布密度函数为f(x)，则x取值于区间a,b）的概率为图中阴影部分的面积，即 P(axb)=,式为连续型随机变量 x 在区间a,b）上取值概率的表达式。可见，连续型随机变量的概率由概率分布密度函数确定。,连续型随机变量的概率分布 60 若记概率分布密度函数为f(x,连续型随机变量概率分布的性质： 1、分布密度函数总是大于或等于0，即f(x)0； 2、当随机变量x取某一特定值时，其概率等于0；即 (c为任意实数) 因而，对于连续型随机变量，仅研究其在某一个区间内取值的概率，而不去讨论取某一个值的概率。,3、在一次试验中随机变量x之取值必在 -x+范围内，为一必然事件。所以表示分布密度曲线下、横轴上的全部面积为1。,连续型随机变量概率分布的性质：3、在一次试,一、正态分布的定义及其特征（一）正态分布的定义若连续型随机变量x的概率分布密度函数为其中为平均数，2为方差，则称随机变量x服从正态分布(normal distribution)，记为xN(,2)。相应的概率分布函数为,一、正态分布的定义及其特征,(二) 正态分布的特征 1、正态分布密度曲线是单峰、对称的悬钟形曲线，对称轴为x=； 2、f(x) 在 x = 处达到极大，极大值； 3、f(x)是非负函数，以x轴为渐近线，分布从-至+；,4、曲线在x=处各有一个拐点，即曲线在(-,-)和(+,+) 区间上是下凸的，在-,+区间内是上凸的； 5、正态分布有两个参数，即平均数和标准差。是位置参数，当恒定时，愈大，则曲线沿x轴愈向右移动；反之，愈小，曲线沿x轴愈向左移动。是变异度参数，当恒定时，愈大，表示 x 的取值愈分散，曲线愈“胖”；愈小，x的取值愈集中在附近，曲线愈“瘦”。,(二) 正态分布的特征 4、曲线在x=处,我们称=0,2=1的正态分布为标准正态分布(standard normal distribution)。标准正态分布的概率密度函数及分布函数分别记作(u)和(u)，由 (4-6)及(4-7) 式得：随机变量u服从标准正态分布，记作uN(0，1)，,我们称=0,2=1的正态分布为标准正态分布(s,对于任何一个服从正态分布N(,2)的随机变量x，都可以通过标准化变换： u=(x-) 将其变换为服从标准正态分布的随机变量u。 u 称为标准正态变量或标准正态离差(standard normal deviate)。,三、正态分布的概率计算（一）标准正态分布的概率计算设u服从标准正态分布，则 u 在u1,u2 ）何内取值的概率为： (u2)(u1)而(u1)与(u2)可由附表1查得。,U1 U2,三、正态分布的概率计算 U1 U2,例如，u=1.75 ，1.7放在第一列0.05放在第一行。在附表1中， 1.7所在行与 0.05 所在列相交处的数值为0.95994，即 (1.75)=0.95994 有时会遇到给定 (u) 值，例如 (u)=0.284，反过来查u值。这只要在附表1中找到与 0.284 最接近的值0.2843，对应行的第一列数 -0.5，对应列的第一行数值 0.07 ，即相应的u值为 u = - 0.57，即 (-0.57)=0.284 如果要求更精确的u值，可用线性插值法计算。,关于标准正态分布，以下几种概率应当熟记： P（-1u1）=0.6826 P（-2u2）=0.9545 P（-3u3）=0.9973 P（-1.96u1.96）=0.95P (-2.58u2.58)=0.99,例如，u=1.75 ，1.7放在第一列0.05放,这表明服从正态分布N(,2)的随机变量x 在 x1 ，x2 ）内取值的概率，等于服从标准正态分布的随机变量 u 在(x1-)/, (x2-)/）内取值的概率。因此，计算一般正态分布的概率时，只要将区间的上下限作适当变换(标准化)，就可用查标准正态分布的概率表的方法求得概率了。,这表明服从正态分布N(,2)的随机变量x 在,设x服从=30.26,2=5.102的正态分布，试求P(21.64x32.98)。令则u服从标准正态分布，故 =P(-1.69u0.53) =(0.53)-(-1.69) =0.7019-0.04551 =0.6564,设x服从=30.26,2=5.102的正态分布，试求P(,关于一般正态分布，以下几个概率(即随机变量x落在加减不同倍数区间的概率)是经常用到的。,P(-x+)=0.6826 P(-2x+2) =0.9545 P (-3x+3) =0.9973 P (-1.96x+1.96) =0.95 P (-2.58x+2.58)=0.99,关于一般正态分布，以下几个概率(即随机变量x落在,71,设X服从平均值为1，标准差为2的正态分布（高斯分布），即X N(1, 4)，求P0 pnorm(1.6, 1, 2) - pnorm(0, 1, 2)1 0.3093739方法二：转化为标准正态分布。Px1 pnorm(1.6-1)/2) - pnorm(0-1)/2) #pnorm函数的缺省参数mean=0,sd=1，即默认标准正态分布1 0.3093739,71设X服从平均值为1，标准差为2的正态分布（高斯分布），即,二项分布,一、贝努利试验及其概率公式将某随机试验重复进行n次，若各次试验结果互不影响，即每次试验结果出现的概率都不依赖于其它各次试验的结果，则称这n次试验是独立的。对于n次独立的试验，如果每次试验结果出现且只出现对立事件A与之一，在每次试验中出现A的概率是常数p(0p1) ，因而出现对立事件的概率是1-p=q，则称这一串重复的独立试验为n重贝努利试验，简称贝努利试验(Bernoulli trials )。,二项分布一、贝努利试验及其概率公式,在生物学研究中，我们经常碰到的一类离散型随机变量，如入孵n枚种蛋的出雏数、n头病畜治疗后的治愈数、n 尾鱼苗的成活数等，可用贝努利试验来概括。在n重贝努利试验中，事件 A 可能发生0，1，2，n次，现在我们来求事件 A 恰好发生k(0kn)次的概率Pn(k)。先取n=4，k=2来讨论。在4次试验中，事件A发生2次的方式有以下种：,在生物学研究中，我们经常碰到的一类离散型随机变量,其中Ak(k=1,2,3,4)表示事件A在第k次试验发生； (k=1,2,3,4)表示事件A在第k次试验不发生。由于试验是独立的，按概率的乘法法则，于是有 P( )=P( )= P( )= P( )P( )P( )P( )= 又由于以上各种方式中，任何二种方式都是互不相容的，按概率的加法法则，在4 次试验中，事件A恰好发生2次的概率为,其中Ak(k=1,2,3,4)表示事件A在第k次,P4(2) = P( ) + P( ) + + P( )= 一般，在n重贝努利试验中，事件A恰好发生k(0kn)次的概率为 k=0,1,2，n (1) 若把(4-14)式与二项展开式相比较就可以发现，在n重贝努利试验中，事件A发生k次的概率恰好等于展开式中的第k+1项，所以也把(1)式称作二项概率公式。,P4(2) = P(,二、二项分布的意义及性质二项分布定义如下：设随机变量x所有可能取的值为零和正整数：0,1,2,，n，且有 = k=0,1,2，n 其中p0，q0，p+q=1，则称随机变量x服从参数为n和p的二项分布 (binomial distribution),记为 xB(n,p)。,二项分布是一种离散型随机变量的概率分布。参数n称为离散参数，只能取正整数； p 是连续参数，它能取0与1之间的任何数值(q由p确定，故不是另一个独立参数)。容易验证，二项分布具有概率分布的一切性质，即： 1、P(x=k)= Pn(k) (k=0,1,，n) 2、二项分布的概率之和等于1，,二、二项分布的意义及性质二项分布是一种离散型随机变量的,二项分布的概率计算及应用条件纯种白猪与纯种黑猪杂交，根据孟德尔遗传理论，子二代中白猪与黑猪的比率为31。求窝产仔10头，有7头白猪的概率。根据题意，n=10，p=34=0.75，q=14=0.25。设10头仔猪中白色的为x头，则x为服从二项分布B(10，0.75)的随机变量。于是窝产10头仔猪中有7头是白色的概率为：,二项分布的概率计算及应用条件,某人进行射击，每次击中目标的命中率为0.02，独立射击400次，求至少击中两次的概率。解：400贝努利试验，用二项分布求解。PX = k = C400k*(0.02)k * (0.98)(400-k)PX2 = 1 PX = 0 - PX = 1 1 - sum(pbinom(0:1, 400, 0.02)1 0.9968561,78,二项分布记为X b(n,p)，E(x)=np,Var(x)=np(1-p)pbinom(q,size,prob)， q是特定取值，比如pbinom(8,20,0.2)指第8次伯努利实验的累计概率。size指总的实验次数，prob指每次实验成功发生的概率dbinom(x,size,prob), x同上面的q同含义。dfunction()对于离散分布来说结果是特定值的概率，对连续变量来说是密度（Density）rbinom(n, size, prob)，产生n个b(size,prob)的二项分布随机数,某人进行射击，每次击中目标的命中率为0.02，独立射击4,二项分布的应用条件有三：（1）各观察单位只具有互相对立的一种结果，如阳性或阴性，生存或死亡等，属于二项分类资料；（2）已知发生某一结果 (如死亡) 的概率为p，其对立结果的概率则为1-P=q，实际中要求p 是从大量观察中获得的比较稳定的数值；（3）n个观察单位的观察结果互相独立，即每个观察单位的观察结果不会影响到其它观察单位的观察结果。,二项分布的应用条件有三：,波松分布,波松分布是一种可以用来描述和分析随机地发生在单位空间或时间里的稀有事件的概率分布。要观察到这类事件，样本含量 n 必须很大。泊松分布的参数是单位时间(或单位面积)内随机事件的平均发生率.泊松分布适合于描述单位时间内随机事件发生的次数。如某一服务设施在一定时间内到达的人数，电话交换机接到呼叫的次数，汽车站台的候客人数，机器出现的故障数，自然灾害发生的次数等等. 在生物、医学研究中，服从波松分布的随机变量是常见的。如，一定畜群中某种患病率很低的非传染性疾病患病数或死亡数，畜群中遗传的畸形怪胎数，每升饮水中大肠杆菌数，计数器小方格中血球数，单位空间中某些野生动物或昆虫数等，都是服从波松分布的。,波松分布波松分布是一种可以用来描述和分析随,一、波松分布的意义若随机变量x(x=k)只取零和正整数值0，1，2，且其概率分布为， k=0，1，其中0；e=2.7182 是自然对数的底数，则称 x 服从参数为的波松分布(Poissons distribution)，记为 xP()。,波松分布重要的特征：平均数和方差相等，都等于常数，即 =2=,一、波松分布的意义波松分布重要的特征：,【例】调查某种猪场闭锁育种群仔猪畸形数，共记录200窝，畸形仔猪数的分布情况如表所示。试判断畸形仔猪数是否服从波松分布。,样本均数和方差S2计算结果如下： =fk/n =(1200+62 +152+23+14)/200 =0.51,【例】调查某种猪场闭锁育种群仔猪畸形数，共记录200窝，,83,将0.51代替公式中的得： (k=0,1,2,) 因为e-0.51=1.6653，所以畸形仔猪数各项的概率为： P(x=0)=0.510(0!1.6653)=0.6005P(x=1)=0.511(1!1.6653)=0.3063P(x=2)=0.512(2!1.6653)=0.0781,P(x=3)=0.513(3!1.6653)=0.0133P(x=4)=0.514(4!1.6653)=0.0017 把上面各项概率乘以总观察窝数(n=200)即得各项按波松分布的理论窝数。波松分布与相应的频率分布列,83将0.51代替公式中的得：P(x=3)=0.513(,畸形仔猪数的波松分布将实际计算得的频率与根据=0.51的泊松分布计算的概率相比较，发现畸形仔猪的频率分布与 =0.51 的波松分布是吻合得很好的。这进一步说明了畸形仔猪数是服从波松分布的。,畸形仔猪数的波松分布,【例4.14】为监测饮用水的污染情况，现检验某社区每毫升饮用水中细菌数，共得400个记录如下：,可见细菌数的频率分布与=0.5的波松分布是相当吻合的，进一步说明用波松分布描述单位容积中细菌数的分布是适宜的。,【例4.14】为监测饮用水的污染情况，现检验,是波松分布所依赖的唯一参数。值愈小分布愈偏倚，随着的增大，分布趋于对称。当= 20时分布接近于正态分布；当=50时，可以认为波松分布呈正态分布。所以在实际工作中，当 20时就可以用正态分布来近似地处理波松分布的问题。,是波松分布所依赖的唯一参数。值愈小分,前面讨论的三个重要的概率分布中，前一个属连续型随机变量的概率分布，后两个属离散型随机变量的概率分布。三者间的关系如下：对于二项分布，在n,p0，且 n p =(较小常数)情况下，二项分布趋于波松布。在这种场合，波松分布中的参数用二项分布的n p代之；在n, p0.5时，二项分布趋于正态分布。在这种场合，正态分布中的、2用二项分布的n p、n p q代之。在实际计算中，当p0.1且n 很大时，二项分布可由波松分布近似；当p0.1且n很大时，二项分布可由正态分布近似。,87,前面讨论的三个重要的概率分布中，前一个属连续型随机变量的概率,88,推荐的教材,Crawley Statistics an introduction using R Peter Dalgaard Introductory statistics with RE. Paradis R for Beginners Verzani SimpleR.D G Rossiter Introduction to the R Project for Statistical Computing for use at ITC J. Maindonald Using R for data analysis and graphics introduction code and commentary using RVenables, W. N. & Ripley, B. D. Modern Applied Statistics with S,88推荐的教材Crawley Statistics an,

注意事项

本文（R_数据处理、绘图、编程与统计检验解析课件.ppt）为本站会员（小飞机）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。