复杂数据统计方法_基于R的应用
高等院校研究生用书
EXTBOOKSFOR
复杂数据统计方法
基于R的应用
吴喜之编著
中国人民大学出版社
北京·
图书在版编目(CIP)数据
复杂数据统计方法:基于R的应用/吴喜之编著.一北京:中国人民大学出
版社,2012.9
高等院校研究生用书
ISBN978-7-300-163994
Ⅰ.①复…Ⅱ.①吴…Ⅲ.①统计分析-应用软件-研究生-教材
Ⅳ.①C819
中国版本图书馆CIP数据核字(2012)第220059号
高等院校研究生用书
复杂数据统计方法
基于R的应用
吴喜之编著
FuzaShujuTongjifangfa
出版发行中国人民大学出版社
社址北京中关村大街31号
邮政编码100080
电话010-62511242(总编室)
010-62511398(质管部)
0I0-82501766(邮购部〕
010-62514148(门市部)
010-62515195(发行公司)
010-62515275(盗版举报)
网址http://www.crup.com.cn
http://www.ttmet.com(人大教研网
经销新华书店
印刷北京民族印务有限责任公司
规格170mmx228mm16开本
版次2012年10月第1版
印张15插页1
印次2012年10月第1次印刷
字数24800
定价3300元
版权所有权必究即装差错负贲调换
前言
什么是复杂数据?没有人能够确切定义.本书将通常统计基本教科书中的
例子所代表的数据称为简单数据,例如通常最小二乘线性回归所能够完满处理
的独立同正态分布数据、用标准多元分析方法能够处理的服从多元正态分布
的数据等.其他本科教科书中能够相刈完满处理的数据应该不算复杂数据.显
然,现实世界中遇到的绝大多数数据都不是标准教科书中所介绍的方法能够完
满处理的,因此都应该被认为是复杂数据.按照这个含义,绝大多数真实数据
是复杂数据
对于一个实际工作者来说,拿到一个真实数据以后,很可能需要查阅不少
文献来寻找适合这个数据的几种可能模型(假定知道用什么模型可能解决问
题),再翻阅若干种软件手册来查阅这些文献所使用软件的计算方法(假定购买
了这些软件).造成这种情况的原因是,多数统计教科书是以模型或方法为导向
的,内容也多是按照数学思维展开的
以模型或方法为导向的教科书通常以介绍某种数学模型和方法为主,同时
说明这种模型适用于满足某些数学假定的数据,最后说明该模型对于这些满足
假定的数据拟合的优越性.实际上,任何一种真实数据是否满足某种数学假定
几乎无法证明,每一类数据都可能有不止一种现成的统计方法来处理,还有无
数的未知方法等待人们去开发.以模型或方法为主导的方式往往让读者忽略
了其他有关的方法,而那些被忽略的方法在某种意义下很可能更有效,或者更
优越
c复杂数据统计方法——基于R的应用
笔者认为,现在需要一本具有以下特点的书
●用实际数据做案例
介绍的数据种类尽可能广泛;
这些数据必须是真实的;
这些数据必须不是简单平凡的教科书例子;
每个数据都有理论及应用方面的背景
所有数据都能从网上下载
对每种数据都介绍可能的方法
这些方法尽可能新;
对各种方法进行比较
所有方法必须有计算支持
●全书使用一种软件
该软件必须是免费的,可以从网上下载的
该软件必须能够包含尽可能多的最新统计方法
该软件必须不断更新
书中所有结论都可以通过运行该软件程序而得出,并给出所有代码
●篇幅不能太大
必须由浅入深,对经典知识和模型进行必要的回顾
不能有太多数学公式,但至少必须让读者能直观理解各种方法的含义
其宗旨是训练动手的能力,而不是面面俱到地告诉人们所有细节
不仅提供各种方法,而且提醒人们使用各种方法存在的风险
本书以数据形式为导向,对应不同的数据形式介绍可能使用的一些方法
首先引入某些感兴趣类型的数据,再介绍并且对比可能适合这些数据的一些统
计方法这些统计方法可能属于许多不同的模型,属于不同的统计方向,但只
要适用于同一类数据,我们就尽量将它们都予以介绍.笔者觉得这种以数据为
主导的学习方式有助于理解统计作为数据科学的本质,有助于实际工作者通过
数据学习多种统计方法的应用.我们列举了可能用于同类数据的若干方法,希
望对创造新的数据分析方法有所发并促使进一步探索,同时也让读者免受查
阅大量不同文献之苦本书不可能介绍所有的方法,大量新方法在你阅读本书
的时候正在诞生
本书所有的分析都通过免费的自由软件R来实现.读者可以毫不困难地
前官回
重复本书所有的计算.R网站拥有世界各地统计学家贡献的大量最新软件包
package),这些软件包以飞快的速度增加和更新,已从2009年年底的大约1000
个增加到2012年8月底的409个,仅2012年8月就增加了449个.它们代
表了统计学家创造的崭新的统计方法.这些软件包的代码都是公开的②.与此
相对比,所有商业软件远没有如此多的资源,也不会更新得如此之快,而且商
业软件的代码都是保密的昂贵“黑匣子”.在发达国家,不能想象一个统计专业
的研究生不会使用R软件.那里很多学校都开设了R软件的课程.今天,任
何一个统计学家想要介绍和推广其创造的统计方法,都必须提供相应的计算程
序,而发表该程序的最佳地点就是R网站.由于方法和代码是公开的,这些方
法很容易引起有关学者的关注,这些关注对研究相应方法形成群体效应,推动
其发展.不会编程的统计学家在今天是很难生存的
在学校讲授任何一种商业软件都是为该公司做义务广告,如果没有相关软
件公司的资助,就没有学校愿意花钱讲授商业软件.在教学中使用盗版软件是
违法行为,绝对不应该或明或暗地鼓励师生使用盜版商业软件
对R软件编程的熟悉还有助于学习其他快速计算的语言,比如C++和
FORTRAN,这对于应对因快速处理庞大的数据集而面临的巨大的计算量有所
裨益
本书首先通过一些简单的统计和数学内容介绍R软件的基本知识,然后
介绍数据分析的一些基本逻辑和常识本书的主体则是根据不同数据形式介
绍相应的方法.本书以数据为主导,各章都是完全独立的.有一些统计基本知
识的读者可以选读本书的任何一个完整的部分.虽然本书介绍的方法涉及应
用统计的各个方面,但不可能介绍所有的数学和统计细节,否则将会是一部巨
型的百科全书笔者尽量用文字和少量数学公式对各种方法的原理予以直观介
绍,并且引导读者做进一步的阅读
由于本书没有按照数学模型的分类来编排,因此对各种方法的介绍不可能
满足数学上的系统、整洁和完美的要求,但这正是对现实数据和现实世界的反
映.如果现实数据都像标准教科书例子那样“规范”,统计就没有存在和发展的
必要了.本书试图让读者理解世界是复杂的,数据形式是多种多样的.必须有
超越书本、超越所谓权威的智慧和勇气,才能充满自信地面对世界上出现的各
①网址http://www.r-project.org/
②除了极个别并非秘密的子程序之外,因为它们很费时间,用机器代码实行
3
复杂数据统计方法——基于R的应用
明产
种挑战
由于统计正以前所未有的速度发展,R网站及其各个软件包也在不断更
新,因此,笔者希望读者通过对本书的学习,学会如何通过R不断学习新的知
识和方法.“授人以鱼不如授之以渔”,成功的教师不是像百科全书那样告诉学
生一些现成的知识,而是让学生产生疑问和兴趣,以促进其做进一步的探索
本书所有的数据例子都可以在网上找到并且下载这些例子背后都有一些
理论和应用的故事.笔者并没有刻意挑选例子所在的领域,这没有关系.你学
会了一加一等于二,也就学会了一个苹果加一个苹果等于两个苹果,或一个梨
加一个梨等于两个梨这样的计算.那个把作为科学的统计按照工种来划分(诸
如工业统计,农业统计,劳动统计)的时代早已一去不复返了.统计是为各个领
域服务的,我们想要得到的是到任何领域都能施展的能力,而不是有限的行业
培训.如果你能够处理具有挑战性的数据,那么无论该数据来自何领域,你的
感觉都会很好
虽然本书冠以“复杂数据统计方法”之名,但对处理“非复杂数据的方
法都有较完整的回顾,并给出了相应的运算程序,只不过没有像标准教科书那
样详细地解释细节而已
本书的适用范围很广,其内容曾经在中国人民大学、首都经贸大学、中央
财经大学、西南财经大学、云南财经大学、四川大学、哈尔滨理工大学、新疆
财经大学、中山大学讲授过,对象包括数学、应用数学、统计、精算、经济、旅
游、环境等专业的本科生以及数学、应用数学、统计、计量经济学、生物医学、
经济学等专业的硕士和博士研究生.作为成绩评定,给每个学生分配两个国外
网站上的实际数据,并且要求他们在学期末将他们分析处理这些数据的结果形
成报告.这些数据如何处理,没有标准答案,甚至有些必要的方法还超出了授
课的范围,需要学生做进一步探索和学习.笔者认为,应用统计硕土所学的内
容应该包括本书的大部分内容.希望本书对于各个领域的教师以及实际工作者
都有参考价值
在任何国家及任何制度下都能够生存和发展的知识和能力,就是科学,是
人们在生命的历程中应该获得的
吴喜之
目录
第1章引言
11作为科学的统计
12数据分析的实践
51.3数据的形式以及可能用到的模型
·■
131横截面数据:因变量为实轴上的数量变量
1.32横截面数据:因变量为分类(定性)变量或者频数
133纵向数据,多水平数据,面板数据,重复观测数据
134多元数据各变量之间的关系:多元分析
1134556667
13.5路径模型/结构方程模型
13.6多元时间序列数据
81.4R软件入门
14.1简介
■白b血
7
142动手
10
第2章横截面数据:因变量为实数轴上的数量变量
11
§21简单回归回顾
§2.2简单线性模型不易处理的横截面数据
18
221标准线性回归中的指数变换
19
222生存分析数据的(ox回归模型……
22
223数据出现多重共线性情况:岭回归,lasso回归,适应性laso回归,
复杂数据统计方法—基于R的应用
偏最小二乘回归
25
224无法做任何假定的数据:机器学习回归方法
33
225决策树回归(回归树)
…35
226boosting向归
38
227bagging回归
39
228随机森林回归
■■
40
229人工神经网络回归…
2210支持向量机回归
43
22.11几种回归方法五折交叉验证结果∴……………∷…45
2212方法的稳定性及过拟合
46
第3章横截面数据:因变量为分类变量及因变量为频数(计数)
变量的情况
●p看●■鲁■
…………..48
§31经典logistic回归,probit回归和仅适用于数量自变量的
判别分析回顾
…49
311logistic回归和probit回归
■甲
…-49
312经典判别分析
54
32因变量为分类变量,自变量含有分类变量:机器学习分类方法…56
321决策树分类(分类树)…
d
∴…57
322adaboost分类
60
323bagging分类
62
324随机森林分类
64
325支持向量机分类
67
326最近邻方法分类
68
327分类方法五折交叉验证结果
■■d
69
33因变量为频数(计数)的情况
70
3.3.1经典的Poisson对数线性模型回顾
…∴……x……71
3.32使用Poisson对数线性模型时的散布问题
74
333零膨胀计数数据的Poisson回归
76
334使用机器学习的算法模型拟合计数数据
3.3.5多项logit模型及多项分布对数线性模型回顾∴
■自會
83
2
下载地址
用户评论