语言学家的统计学

 

Statistik für Sprachwissenschaftler

 

Göttingen: Vandenhoeck & Ruprecht

2008, 316 pages

ISBN 978-3-525-26551-2

 

 

 

评介:刘海涛

 

 

  语言学正处于变化之中。从学科归类上,它正从人文学科转向认知或生命科学;从研究方法上,传统的内省法正被实验方法所取代。这种变化使得统计学对语言学家较之过去更为重要了。语言统计的教科书或入门书,已有不少,如,英语的《Statistics in Language Studies》(Woods等著,外研社,2000)和德语的《Empirische Sprachwissenschaft》(Schlobinski, Westdeutscher, 1996)。这些著作对于语言学家学习统计学知识有一定的帮助,但在如何将统计方法用于语言学研究方面的帮助不大。换言之,这些书能增长你的统计知识,但对你运用统计方法来解决问题的能力提高有限。 主要原因是这些著作的理论性太强,实践方面的东西较少。

  近年来,随着统计软件的发展和计算机的普及,出现了不少可操作性性强,易上手的语言统计著作。我们现在介绍的这本书就是其中的佼佼者之一。本书由具有270年历史的德国出版社出版,是其语言学教材系列(Studienbücher zur Linguistik)中的一种。作者Stefan Th. Gries目前为美国加利福尼亚大学(Santa Barbara)语言学系的副教授,是《Multifactorial analysis in corpus linguistics: a study of Particle Placement》(语料库语言学的多因素分析:小词置位研究)一书的作者,北京大学出版社在2004年出版过这本书的国内影印版。

    Gries的这本书是用德语写成的,共分为五章,316页。书中时常穿插一些思考练习(Denk-pause),鼓励读者在阅读时思考相关问题。每章的结尾均推荐进一步学习的材料和练习题,但练习题没有印在书上,读者需要去这一网址下载http://groups.google.com/group/statforling-with-r. 书中所有的程序代码及练习答案也可在同一网址下载,这些压缩文件需要密码才能解压使用,密码在书的第64页上。

  与此前见到的语言统计书相比,本书有这样一些的特点:没有太多的理论,注重实际操作;所有统计操作实例,均结合开源统计软件R来进行,便于读者边读边练;重视如何用统计方法来研究语言学问题的过程,所举例子很有代表性;把统计视为基于经验 的学术研究的一部分,强调了假设的提出和验证过程。下面我们就简单介绍一下本书的内容。

  第一章的题目是《基于经验学术研究的基础》(Grundlagen empirischer Forschung,第8-62页),主要回答了这样一些问题:为什么要在语言学中引入定量的方法?什么是变量和假设?如何来提出和证明假设?如何设计和进行相关的实验?为了便于读者理解这些内容,作者列举了几个例子,其中最详细的是关于小词置位的例子,即:

a. He picked up [NP the book].  结构:VPO(动词-小词-宾语)

b. He picked [NP the book] up.  结构:VOP(动词-宾语-小词)

  句子(a)(b)都是合乎语法的句子,也是母语为英语的人所能接受的,但其中作为宾语的NP位置不同。我们感兴趣的问题是,小词的位置是受什么因素影响的?在什么情况下,小词倾向于出现在宾语前面(或后面)呢?按照前人的研究,影响这一问题的原因不少,其中有:宾语的复杂度,宾语的长度,有没有PP,宾语的语义特征等。如果我们现在只对“宾语复杂度”这个因素感兴趣,那么可将这一假设用一般的语言描述为:“当一个及物动词的直接宾语句法复杂度高时,相比在宾语复杂度低时,母语使用者更喜欢用VPO。”如将此假设称为H1,那么为了证明这个假设,一般需要设立一个与此相对的零假设H0,即:“当一个及物动词的直接宾语句法复杂度高时,相比在宾语复杂度低时,母语使用者并不更喜欢用VPO。”有了这两个假设后,我们需要收集语料,统计有关结构出现的次数等。如果把复杂度简化为长度,那么上面两个假设就可转变为如下更具操作性的假设了:

H1:宾语长度的均值: VPO > 宾语长度的均值: VOP

H0:宾语长度的均值: VPO = 宾语长度的均值: VOP

  作者采用这样方式把抽象的假设变为可具体操作的实验,非常有助于读者学习使用相关的知识和方法。这种注重实践、重视可操作性的特点,贯穿了全书 。

  第二章(63-102)的主要内容是R,讲述围绕R的三个基本概念进行,即:向量(vector)、因子(factor)和数据表(data frames)。每一个概念均从以下三个方面来阐述:产生、装入和存储、编辑修改。尽管R是一个非常复杂、功能强大的统计软件,但读者在读完这四十页的内容后,就可以掌握R的基本知识和技能,继续后面章节的学习了。值得一提的是,从这一章开始,作者在章节末尾的推荐清单里,不仅有进一步阅读的书名,也有正文中没有讲述的一些R函数,通过这些附加内容的练习,读者可以更全面地掌握正文的内容。

  第三章的标题为《描述性统计》(103-152),含两节,分别 讲述单变量和双变量统计。主要内容有:频次数据,集中和离散的量度,分数标准化,置信区间,频次表,相关系数及线性回归等。在讲述这些基本的统计知识时,均列出了详细的R命令及执行相关命令后系统的输出,非常便于读者上手。

  第四章的标题为《分析性统计》(Analytische Statistik, 103-152)。主要章节有:分布和赔率,拟合度检验,区别性检验,方差,均值,相关系数和线性回归等。通过这一章所学的知识和方法,我们就可以研究第一章中的“小词置位”问题了。事实上,这个问题也是这一章的主要研究对象。

  第四章《多因素分析》(241-306)由下面五节组成:频率数据的多因素分析,多元回归分析,ANOVA(方差分析),二元罗吉斯回归,分层合并聚类分析等更高级的统计方法。

  书末所附的参考文献涵盖了语言统计和R的主要著作,是进一步学习的指路明灯。

 

  总的说来,本书是一本深入浅出、结构组织合理、理论与实践相结合的语言统计好书,值得每一位打算在自己的研究中采用统计方法的语言研究者阅读。对于中国读者而言,本书最大的问题可能是语言障碍。作者也已经注意到了这个问题,正在准备本书的英语版。如果你可以读德语 著作,就没有必要继续等待了,因为早一天掌握统计这柄利器,相应的收获也就会早一天来到。