Statistik für Sprachwissenschaftler

语言学家的统计学

Göttingen: Vandenhoeck & Ruprecht

2008, 316 pages

ISBN 978-3-525-26551-2

评介：刘海涛

语言学正处于变化之中。从学科归类上，它正从人文学科转向认知或生命科学；从研究方法上，传统的内省法正被实验方法所取代。这种变化使得统计学对语言学家较之过去更为重要了。语言统计的教科书或入门书，已有不少，如，英语的《Statistics in Language Studies》（Woods等著，外研社，2000）和德语的《Empirische Sprachwissenschaft》（Schlobinski, Westdeutscher, 1996）。这些著作对于语言学家学习统计学知识有一定的帮助，但在如何将统计方法用于语言学研究方面的帮助不大。换言之，这些书能增长你的统计知识，但对你运用统计方法来解决问题的能力提高有限。主要原因是这些著作的理论性太强，实践方面的东西较少。

近年来，随着统计软件的发展和计算机的普及，出现了不少可操作性性强，易上手的语言统计著作。我们现在介绍的这本书就是其中的佼佼者之一。本书由具有270年历史的德国出版社出版，是其语言学教材系列（Studienbücher zur Linguistik）中的一种。作者Stefan Th. Gries目前为美国加利福尼亚大学（Santa Barbara）语言学系的副教授，是《Multifactorial analysis in corpus linguistics: a study of Particle Placement》（语料库语言学的多因素分析：小词置位研究）一书的作者，北京大学出版社在2004年出版过这本书的国内影印版。

Gries的这本书是用德语写成的，共分为五章，316页。书中时常穿插一些思考练习(Denk-pause)，鼓励读者在阅读时思考相关问题。每章的结尾均推荐有进一步学习的材料和练习题，但练习题没有印在书上，读者需要去这一网址下载http://groups.google.com/group/statforling-with-r. 书中所有的程序代码及练习答案也可在同一网址下载，这些压缩文件需要密码才能解压使用，密码在书的第64页上。

与此前见到的语言统计书相比，本书有这样一些的特点：没有太多的理论，注重实际操作；所有统计操作实例，均结合开源统计软件R来进行，便于读者边读边练；重视如何用统计方法来研究语言学问题的过程，所举例子很有代表性；把统计视为基于经验的学术研究的一部分，强调了假设的提出和验证过程。下面我们就简单介绍一下本书的内容。

第一章的题目是《基于经验学术研究的基础》（Grundlagen empirischer Forschung，第8-62页），主要回答了这样一些问题：为什么要在语言学中引入定量的方法？什么是变量和假设？如何来提出和证明假设？如何设计和进行相关的实验？为了便于读者理解这些内容，作者列举了几个例子，其中最详细的是关于小词置位的例子，即：

a. He picked up [_NP the book]. 结构：VPO（动词－小词－宾语）

b. He picked [_NP the book] up. 结构：VOP（动词－宾语－小词）

句子(a)和(b)都是合乎语法的句子，也是母语为英语的人所能接受的，但其中作为宾语的NP位置不同。我们感兴趣的问题是，小词的位置是受什么因素影响的？在什么情况下，小词倾向于出现在宾语前面（或后面）呢？按照前人的研究，影响这一问题的原因不少，其中有：宾语的复杂度，宾语的长度，有没有PP，宾语的语义特征等。如果我们现在只对“宾语复杂度”这个因素感兴趣，那么可将这一假设用一般的语言描述为：“当一个及物动词的直接宾语句法复杂度高时，相比在宾语复杂度低时，母语使用者更喜欢用VPO。”如将此假设称为H₁，那么为了证明这个假设，一般需要设立一个与此相对的零假设H₀，即：“当一个及物动词的直接宾语句法复杂度高时，相比在宾语复杂度低时，母语使用者并不更喜欢用VPO。”有了这两个假设后，我们需要收集语料，统计有关结构出现的次数等。如果把复杂度简化为长度，那么上面两个假设就可转变为如下更具操作性的假设了：

H₁：宾语长度的均值:_VPO > 宾语长度的均值: _VOP

H₀：宾语长度的均值:_VPO= 宾语长度的均值: _VOP

作者采用这样方式把抽象的假设变为可具体操作的实验，非常有助于读者学习使用相关的知识和方法。这种注重实践、重视可操作性的特点，贯穿了全书。

第二章(第63-102页)的主要内容是R，讲述围绕R的三个基本概念进行，即：向量(vector)、因子(factor)和数据表(data frames)。每一个概念均从以下三个方面来阐述：产生、装入和存储、编辑修改。尽管R是一个非常复杂、功能强大的统计软件，但读者在读完这四十页的内容后，就可以掌握R的基本知识和技能，继续后面章节的学习了。值得一提的是，从这一章开始，作者在章节末尾的推荐清单里，不仅有进一步阅读的书名，也有正文中没有讲述的一些R函数，通过这些附加内容的练习，读者可以更全面地掌握正文的内容。

第三章的标题为《描述性统计》(第103-152页)，含两节，分别讲述单变量和双变量统计。主要内容有：频次数据，集中和离散的量度，分数标准化，置信区间，频次表，相关系数及线性回归等。在讲述这些基本的统计知识时，均列出了详细的R命令及执行相关命令后系统的输出，非常便于读者上手。

第四章的标题为《分析性统计》(Analytische Statistik, 第103-152页)。主要章节有：分布和赔率，拟合度检验，区别性检验，方差，均值，相关系数和线性回归等。通过这一章所学的知识和方法，我们就可以研究第一章中的“小词置位”问题了。事实上，这个问题也是这一章的主要研究对象。

第四章《多因素分析》(第241-306页)由下面五节组成：频率数据的多因素分析，多元回归分析，ANOVA（方差分析），二元罗吉斯回归，分层合并聚类分析等更高级的统计方法。

书末所附的参考文献涵盖了语言统计和R的主要著作，是进一步学习的指路明灯。

总的说来，本书是一本深入浅出、结构组织合理、理论与实践相结合的语言统计好书，值得每一位打算在自己的研究中采用统计方法的语言研究者阅读。对于中国读者而言，本书最大的问题可能是语言障碍。作者也已经注意到了这个问题，正在准备本书的英语版。如果你可以读德语著作，就没有必要继续等待了，因为早一天掌握统计这柄利器，相应的收获也就会早一天来到。