1. 首页
  2. 大数据
  3. 算法与数据结构
  4. 探索性数据分析

探索性数据分析

上传者: 2019-05-15 04:24:35上传 PDF文件 12.6MB 热度 75次
探索性数据分析,ISBN:9787503723476,作者:(美)DavidC.Hoaglin,(美)FrederickMosteller,(美)JohnW.Tukey著;陈忠琏,郭德媛译版权公告:Copyright notice:探索性教据分折UNDERSTANDING. ROBUST ANDEXPLORATORY DATA ANALYSIS[美] David c. HoaglinFrederick mostellerJohn W. TukeyCopyright (1983, by John Wiley &Sons, Inc.All Rights ReservedAuthorized translation from English language edition publishedby John Wiley & Sons, Inc.本书中文版译、出版专有权归国家统计局统计教育中心和中国统计出版社现代外国统计学优秀著作译丛专家委员会主任:翟立功国家统计局副局长副主任:贺铿国家统计局副局长王吉利国家统计局统计教育中心主任委员:刁锦寰美国芝加哥大学商学院教授吴建福美国密西根大学统计系教授孟晓犁美国芝加哥大学统计系博士张尧庭上海财经大学数量经济研究所教授茆诗松华东师范大学数理统计系教授胨家鼎北京大学概率统计系教授郑祖康复旦大学统计与运筹系教授吴喜之南开大学数学系教授袁卫中因人民大学统计系教授邱东东北财经大学计统系教授郝国印国家统计局统计教育中心副主任谢鸿光中国统计出版社副总编办公室:刘启荣国家统计局统计教育中心教材处处长严建辉中国统计出版社第二书籍编辑部主任李毅国家统计局统计教育中心教材处副处长出版说明为了加强对国外统计理论与实践的研究和了解,全面反映国外统计科研和教学的发展,促进我国统计教学改革和教材内容更新,在国家统计局领导的大力支持下全国统计教材编审委员会组织翻译出版了这套“现代外国统计学优秀著作译丛”。随着我国社会主义市场经济体系的逐步建立,统计教育正面临着十分严峻的挑战。一方面,在社会主义市场经济条件下,不论国家的宏观经济调控还是企业的生产经营管理,都要求准确地把握市场运行的态势,科学地分析经济中各种错综复杂的关系,因而,对统计信息的需求越来越大,对统计人才的业务素质提出了更高的要求;另方面,我国过去的统计教育模式是按为高度集中的计划经济管理体制服务的要求建立的,培养的统计人才的知识结构比较单一,难以适应经济体制、统计体制改革的需要。为使统计人才的培养适应建立社会主义市场经济体制的需要,满足二十一世纪现代化建设的要求,缩小与国际先进水平的差距,基础在教育,关键在极材。在继续组织有关专家、学者编写一批反映国内统计科学和统计实践发展的新教材的同时,必须尽快引进并翻译出版批外国先进统计教材。这是学习外国先进统计知识的一种直接而且十分有效的方式,对于推动国内统计教材内容更新和教学改革,造就一大批具有渊博知识和多方面业务技能的复合型人才,具有十分重要的意义。为了做好这套丛书的翻译出版工作,全国统计教材编审委员会成立了现代外国统计学优秀著作译丛专家委员会,对国外统计著作的出版和使用情况进行了调查研究,分析了国内对外国统计教材的需求,在此基础上制定了翻译著作选题规划。在这套丛书的翻译出版过程中,我们得到了国内外有关专家、有关院校统计系和国外有关出版公司的大力帮助和支持,在此表示衷心的谢意。全国统计教材编审委员会1995年7月2中文版序数据分析”一词在其广义的含义下,是一个普通用语。刘本世纪后半叶的费理绕计学家来说,它是统计学中的一种新思想、新方向,甚至是可能对来来的统计学发展有重大影的、草命性的新思想和新方向(参看Huer的 Speculations on the path ofstatistics》一文)。这个方向是着1962年 Tukey的“ The futureof data analysis】一文酌发表而诞生。进40年来,圄绕着这个主题已出版了好几本专著和大量的论文数据分析是怎样的一冂学科如果你想哥求一个正式的定义那么,猥遗修,现已出般的大量着作和文章中御找不到。以歪迟到1983年,在一次在加州 Berkeley大学举办的紀念着名鸵计学家 Neyman和 Kiefer的集会上,Hber还曾发表一篇题为【Bataanalysis in search of an identity》的文章。这反映出在当时“数据分析”作为统计大家庭中的一个新成员;依然是“姜身未明,警要正名。但是,不少着作都对这个阿题作些描述性的解释,例如本书的导官部分。综合超来,似乎可以说有爾伞主要之点:一是“让激据说话”,即不是像通常统计学中往往从→个设定的棋型出发(例如正态模型)。如果要建立模型作为进→步深入分析的出发点,那这种模型也要产生在对撒据作出分析之后。以此,本书在“导言”中就提出不用“ normal distribution"一词,而改用Gaussian distribution",意在礅除这样的信念,即认为“正态”分布是常见的、在通常情形下应有的分布,因而碰到题时可以不费力气去分析数据以作为确定棋型的依据,而可以逐主作艹个“正态”的预设。二是不执着于方法的理论根据(指概率论懿根据),不执着于定要给方法的“不精确度”给一个敷量上的度量3而鼓励使用一种比较“oose”的、“ informal”的和“ ad hoc”式的方法,对方法的“抗干扰性”的重视不亚于对其效率的重视。为什么在数理统计学的星论和方法已得到深入发展的20世纪下半叶,会冒出一门看似有些“逆潮流而动”的、内容松散的学科一—数据分析?要理解这个问题须得看看统计学史。自17世纪中叶统计学开始萌芽,直至本世纪三、四十年代其完整体系的建立,学者们追求的目标,可以说就在瞎“不确定度的数量废量”上一统计方法处理的是有误差的据,因而其论有不确定性。比如说最小二乘法是统计上应用最广的方法。从历史上看最先提出此方法的是法国学者 Legendre(1805年),但后来绝大多数着作将之归功于德国学者Gaus,这至少部分原因是Ga8在1809年提出正态误差理论而使最小二乘法的“不确定性”得以度量,而在 Legendre那里,最小二乘法只是一个单纯的算法又如相关回归的基本恩想和方法至晚在1890年左右已由英国遗传学家 Galton所奠定,但直到本世纪开头若于年内,由 K. Pearson,特别是 Fisher的工华才使这种方法的“不确定性”得以度量。因此,现行教本中讲到相关回归时,多只提 Fisher和 Pearson。假设检验的理论和方法如今我们归功于 Ei S. Pearson和 J, Neyman其实,远在1710年 Arbuthnott对男女世生数之比的检验,已包含了相当大一部分现行检验理论的概念,但峽少了一个功函数,无法对“不确定性”纷以嶽量度蠶现今我们所知道的教理统计学,就是在这种追求“不确定性的数量度量”的精神的指引下,经过三百年的努力面完成的。它必然对许多代的统计学家有深刻的影响。现实的因素也趣了很大的作用:从实用的角度看,经过早期正态小样本理论减功的喜悦后,统计学家发现,这实在是一个孤立的特侧:企图在其他分布下建立统计小样本理论的努力没有获得任何值得一提的成功这迫使应用者不能不多迁就“正态”模型,而不能太顾及数据的实际,因而数据的作用多少被忽视了。而理论研究者则发现,要获得同行的承认,你的工作必须在这公认的框架内进行—一种没有概率理论的根据,即不涉及不确定性的度量的工作,不会被认为属于高水平之作。这些情况, Tukey在其1962年的文章中曾概乎言之。这些因素,以及新一代数理统计学者的数学和概率论水平的提高,导致了一种大家现在都看得到的现象一—数理统计研究论文的高度数学化,应用者莫能津,而其所提供的有用方法则极少。这类工作中之较上品者,在统计上有一定的认识意义,或因其深度而具有一种数学美。其下品者大抵是一批条件和例行推导的堆砌,于统计或数学两无所益。面对这种情况,几十年来,不断有统计学家谈及纯计学面临危机。“数据分析”提法的出现,可以看成是应对这种“危机”的方案的一种建议。从其基本立论点看,数据分析论者所宣示的主张,应能在未来的统计学中得到发扬。毕竟统计学是一门应用性的学科,其方法应能为广大应用工作者所接受和乐于使用,才会有生命力。在这方面, Fisher的工作是一个典范。对我国来说,强调这一点尤其有必要。从这一点看,这个译本的出版有着重大的意义。也许会感到惶惑:为何这样一个看来合情合理的主张,自提出以来30余年,至今尚不能说在主流统计界得到广泛的认同,没有能够对主流统计刊物的面貌起到相当的影响?我想,答案之熟怕仍在“不确定性的数量度量”这个根子上。毕竟,统计方法之区分于其他与数据打交道的方法,根本之点就在于它标榜这个不确定性的数量度量。数据分析在强调多“让数据说话”,不拘泥于模型及必须给不确定性以数量度量的同时,如何给自己定位,是个至今没有很好解决的问题。如果说,数据分析的意义只是在于在用传统的统计方法之先对数据进行一当前期处理,则上述困难固然不存在,但是,这类作法在应用者那里恐怕也正在成为一种 commonplace,其独立意义,甚或作为未来发展方向的指标,就显得不够有力。总言之,数据分析学科性质的定位问题至今漫有5很好解决,既是反映了这个提法的一些内在不明确之处,也是其尚未能跻身主流统计研究的根本原因。也正因为如此,这门学科的现状,给有志者留下了很大的努力的空间。“千里之行,始于足下”,希望这一译作的出版,能成为这千里之行的第一步。译者陈忠琏教授多年来关心这一领域的动向,80年代曾受教于当代着名统计学家、教据分析学家 PJ: Huber,是我国目前为数不多的、对这个领域比较了解的专家之一。细读其译文,行文准确流畅,不失原着真意而有可读性。欣闻峄蘅即将付梓,特书数语以为绍介。文中所表观点为个人见解,不见得正确,供读者参考指正。陈希孺1997年10月28日6
用户评论