在线观看av毛片亚洲_伊人久久大香线蕉成人综合网_一级片黄色视频播放_日韩免费86av网址_亚洲av理论在线电影网_一区二区国产免费高清在线观看视频_亚洲国产精品久久99人人更爽_精品少妇人妻久久免费

首頁 > 文章中心 > 正文

概率語言

前言:本站為你精心整理了概率語言范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢。

概率語言

一、語言事實(shí)與語言理論

20世紀(jì)中葉以來,生成轉(zhuǎn)換語法突破原來結(jié)構(gòu)主義和行為主義的藩籬,掀起了語言學(xué)界的軒然大波,出現(xiàn)了眾多語言理論異彩紛呈的局面。在語言學(xué)爭論中,各種語言學(xué)派都列舉語言事實(shí)作為其理論的支撐點(diǎn)。從現(xiàn)代語言學(xué)的傳統(tǒng)來看,從描寫主義、歷史主義到結(jié)構(gòu)主義,從語言習(xí)得、語言教學(xué)到語文改革,都注重收集語言數(shù)據(jù),提倡經(jīng)驗(yàn)主義。Chomsky(1957,1961)的理性主義則主張語言學(xué)家的任務(wù)是描寫人的語言能力,外部語料(例如語料庫)無法解釋語言能力。理性主義所根據(jù)的語言事實(shí)是語言學(xué)家本身的母語知識(直覺、天性),由此可推導(dǎo)出UG(linguisticuniversals,語言共同性、語言共項(xiàng))。Chomsky主要針對20世紀(jì)中葉以前以經(jīng)驗(yàn)主義為基礎(chǔ)的語法研究(例如Fries依賴美國政府非正式通訊檔案來編寫AmericanEnglishGrammar,1940),不無道理。但理性主義研究方法提出以來,語言理論層出不窮,而我們在沉迷于理論的解釋時(shí),卻往往忽略了一個(gè)出發(fā)點(diǎn):語言理論雖可解釋語言事實(shí),但語言事實(shí)本身并非語言理論的產(chǎn)物。語言事實(shí)和語言理論究竟誰是第一性的?如果我們承認(rèn)語言事實(shí)是第一性的,那么根據(jù)哪些語言事實(shí)來提升語言理論?是語言研究者憑本人直覺所提供的語言事實(shí),還是大多數(shù)語言使用者所提供的語言事實(shí)?鄭錦全在談到美國語言學(xué)研究現(xiàn)狀時(shí)指出:“目前美國語言學(xué)界存在一個(gè)問題:理論泛濫,而缺少充分的語言材料,不夠扎實(shí)”(張鳳芝等2002:77)。

語言學(xué)中理性主義的基石之一是語言能力/運(yùn)用的兩分法,自Saussure提出“語言”和“言語”的區(qū)別以來,贊成此說者不少。Chomsky強(qiáng)化了它們的區(qū)別,將之看成是涇渭分明。對此,不同的語言學(xué)家從不同的角度提出了相反的看法。從語篇研究的角度持相反意見的語言學(xué)家有:Pike,Hjelmslev,Firth,Halliday,vanDijk&Kintsch,Hartmann等人(見Beaugrande1991)。社會語言學(xué)家(如Hymes1972)、功能語法學(xué)派(如Hallidayl973)、應(yīng)用語言學(xué)家(如Widdowsonl984)、心理語言學(xué)家和語用學(xué)家更是毫不諱言,指出語言運(yùn)用才是他們研究的對象。語用學(xué)家Mey(1993:5)指出,“語用學(xué)的恰當(dāng)領(lǐng)域是Chomsky所說的語言運(yùn)用”。心理語言學(xué)家Aitchison(1998:183-184)雖廣泛地介紹了Chomsky的觀點(diǎn),卻也覺得把語言能力和語言運(yùn)用截然分開難以接受,認(rèn)為“心理語言學(xué)家對語言運(yùn)用和語言知識同樣感興趣;兩者密切相關(guān),任何人只注意其中一個(gè)因素,而忽略另一個(gè)因素,是很奇怪的”。

內(nèi)省式的語言研究方法也受到不少人的質(zhì)疑。在語音學(xué)研究中,人們只能依賴自然觀察的數(shù)據(jù)。語言習(xí)得研究難以采用內(nèi)省式判斷,研究者本人的語言直覺代替不了兒童的語言直覺(McEnery&Wilson1996)。Chomsky(1964)自己也認(rèn)為反對觀察語言運(yùn)用的看法并不適用于研究語言習(xí)得。內(nèi)省式判斷對自然觀察方法的指責(zé)是言過其實(shí)。自然觀察的數(shù)據(jù)的好處是有案可查、有目共睹,可以驗(yàn)證;而內(nèi)省式的判斷則是個(gè)人的行為,往往沒有太大把握,容易陷入循環(huán)論證的怪圈。這實(shí)際上是科學(xué)研究中經(jīng)常出現(xiàn)的客觀知識和主觀知識問題:是自然現(xiàn)象還是人為現(xiàn)象?是公眾的觀察還是個(gè)人的臆斷?至于當(dāng)初Chomsky對語料庫的任意性偏態(tài)的指責(zé),也不見得公允。Oakes(1998)指出,如果我們使用對數(shù)正態(tài)分布(lognormaldistribution)的辦法來描述語料分布,偏態(tài)就不會出現(xiàn)。值得注意的是Alien&Seidenberg(1999)的研究,他們認(rèn)為,在整個(gè)生成語法歷史中一直沒有弄清楚語言能力和語言運(yùn)用的關(guān)系,其實(shí)兩者不能截然分開,他們使用了連接主義網(wǎng)絡(luò)模型的方法來模擬語法性判斷,說明語言運(yùn)用也可以產(chǎn)生語言能力。

應(yīng)該說,生成語法學(xué)家致力于考察語言能力的同時(shí),作為相反傾向的、主張尊重客觀語言事實(shí)的經(jīng)驗(yàn)主義傳統(tǒng)并沒有中斷,而且在理論、方法論上也有很大進(jìn)步。數(shù)據(jù)的基本特征是頻數(shù)(frequency),表現(xiàn)為概率關(guān)系,這就導(dǎo)致以概率為基礎(chǔ)的語言研究的蓬勃發(fā)展。Halliday(1991)認(rèn)為,語言系統(tǒng)的概率是固有的。當(dāng)然觀察頻數(shù)僅是一種手段,不是目的。其目的應(yīng)該是觀察問題和回答問題,從定量向定性發(fā)展(Aartsl999)。概率語言學(xué)、計(jì)算語言學(xué)、語料庫語言學(xué)、心理語言學(xué)都是以頻數(shù)和概率為基礎(chǔ)的,它們體現(xiàn)了尊重語言事實(shí)的歷史傳統(tǒng)的重現(xiàn)光彩。

二、概率語言學(xué)的提出

語言研究的概率方法(ProbabilisticApproach)由此出現(xiàn)。2001年美國語言學(xué)會首先在華盛頓召開了第一次語言學(xué)概率理論專題討論會,其結(jié)果見Bob等(2003)的《概率語言學(xué)》。該書Jurafsky(2003)一文指出:“各式各樣的證據(jù)表明語言是概率性的。概率在語言理解和產(chǎn)生方面,對意義提取、分解和生成起作用。概率在學(xué)習(xí)方面,對切分和概括起作用。概率在語音學(xué)和形態(tài)學(xué)方面,對可接受性判斷和替換性起作用。概率在句法學(xué)和語義學(xué)方面,對范疇梯度化、句法合格與否的判斷和解釋起作用。概率在建立語言變化和差異模型中更起到關(guān)鍵作用?!爆F(xiàn)代語言學(xué)的基石是所謂“范疇主義的準(zhǔn)則”(maximofcategoricity)。語言是一些定義清晰的、離散的范疇,數(shù)量不起什么作用。雖然真正的語言有很多變數(shù)、有梯度,但它僅是語言運(yùn)用的產(chǎn)物。但是概率語言學(xué)的主張者認(rèn)為,越來越多的證據(jù)表明,語言判斷顯示出連續(xù)統(tǒng)的特性,是一種明顯的梯度行為。2003年在Atlanta召開的第二次概率語言學(xué)討論會,深入討論了怎樣把概率語言學(xué)和當(dāng)前語言學(xué)潮流結(jié)合起來。會議認(rèn)為概率語言學(xué)和生成語言學(xué)似乎是對立的,其實(shí)也并行不悖:生成語言學(xué)的目的是獲得語言現(xiàn)象分布的最終結(jié)果,而概率語言學(xué)則考慮較少為人探索的、有梯度的中間地帶。只注意連續(xù)統(tǒng)的兩端,會使一半語言現(xiàn)象得不到探索和解釋。兩者結(jié)合起來可以讓語言學(xué)家去探索數(shù)據(jù)中那些不易為人覺察的、沒有得到解釋的微妙的型式,使語言學(xué)界超越那些顯而易見的現(xiàn)象?!爸虚g地帶論”只是概率語言學(xué)的一種想法,生成語法學(xué)者是否也這樣想,那是另一回事。

計(jì)算語言學(xué)、語料庫語言學(xué)、統(tǒng)計(jì)語言學(xué)也把頻數(shù)作為它們研究的出發(fā)點(diǎn)。它們更直截了當(dāng)?shù)靥岢龊屠硇灾髁x相對立的經(jīng)驗(yàn)主義,Sampson(2000)稱之為經(jīng)驗(yàn)語言學(xué)(empiricallinguistics)。Manning&Schutze(1999)認(rèn)為,從1960到1985之間,理性主義完全統(tǒng)治了語言學(xué)、心理學(xué)、人工智能和自然語言處理,但是原來在1920-1960年間盛行過的經(jīng)驗(yàn)主義傳統(tǒng)在1970-1989年之間有所復(fù)蘇。經(jīng)驗(yàn)主義也認(rèn)為人的大腦生來就有認(rèn)知能力,不過并沒有理性主義所說的與語言組件有關(guān)的原則和程序。經(jīng)驗(yàn)主義從信息論的角度出發(fā),不贊成范疇化的原則,把語言現(xiàn)象分為合語法和不合語法。Colorlessgreenideassleepfuriously雖然合乎語法,但實(shí)際上沒有人那樣說。還不如把語言事件的出現(xiàn)看成是概率性的行為,如把句子分為“經(jīng)常出現(xiàn)”和“不經(jīng)常出現(xiàn)”。所以一個(gè)學(xué)英語的學(xué)生寫下這樣的句子:Inadditiontothis,sheinsistedthatwomenwereregardedasadifferentexistencefrommanunfairly./Ihaveanacheinthehead.即算是合語法,操本族語者也聽得懂,但卻覺得他們自己不會這樣說。Manning&Schutze(1999)認(rèn)為,語言的非范疇化現(xiàn)象在語言變化中尤為明顯。英語中的while曾經(jīng)用作名詞,表示“時(shí)間”(如takeawhile),但后來卻變?yōu)橐龑?dǎo)從句的補(bǔ)足語(Whileyouwereout...)。我們沒有什么理由說它在1742年前是名詞,以后則變?yōu)檠a(bǔ)足語。這是因?yàn)樗氖褂妙l數(shù)在不同的語言環(huán)境中有變化。從本質(zhì)上看,認(rèn)知和作為它的一部分的語言都是概率現(xiàn)象,概率論應(yīng)是解釋語言的理論核心。認(rèn)知之所以是概率性現(xiàn)象,是因?yàn)槭澜绯錆M了不確切性和不完整的信息。Chomsky(1957)反對根據(jù)語料庫的話語來計(jì)算句子的概率,認(rèn)為這樣一來,合語法和不合語法的句子的概率都會很低,難以解釋語言的能產(chǎn)性。Manning&Schutze(1999)認(rèn)為這種看法只是針對那些對概率表征有偏見的人而言的。以tall(高)的認(rèn)知表征而言,當(dāng)我們看到一個(gè)堂堂七尺的男子漢,又第一次看到這樣的高度時(shí),我們才會叫他“高個(gè)子”,而不會把他看成非范疇化的男子。如果又看到一個(gè)只有四尺的男子,我們絕不會叫他為“高個(gè)子”。所以概率論的模型很容易表征這種規(guī)律性,而對未經(jīng)檢驗(yàn)的句子做出判斷。它不會把未經(jīng)判斷的句子都看成一樣。

三、語料庫語言學(xué)的興起

Svartvik(1996)指出,語料庫正在成為主流,它不但提供了一種研究方法,而且提供了一種新的哲學(xué)思維方式,就像Leech(1992)所說的,“它是一種‘芝麻開門’,導(dǎo)致關(guān)于語言的新思維方式”。Sampson(2001)認(rèn)為,由于語言運(yùn)用存在一些別的因素而排斥它,也違反科學(xué)常理。例如加速使物體下落部分地受引力規(guī)律所控制,但其他的外部因素(例如空氣阻力、氣流運(yùn)動)也會發(fā)生干擾。一個(gè)研究引力規(guī)律的物理學(xué)家不會因?yàn)橛辛诉@些外部因素,而放棄觀察數(shù)據(jù)。他無非是把這些因素分離開來。Sampson(1992)指出,采用內(nèi)省式方法想出來的句子和語料庫所收集的句子相距甚遠(yuǎn),不但是語料,就是內(nèi)省式判斷也存在任意性偏態(tài)。Chomsky認(rèn)為有些句子不見于語料庫,這實(shí)際上說明一個(gè)饒有趣味而又十分重要的問題:頻數(shù)問題。人類并不太清楚某些詞語或結(jié)構(gòu)的頻數(shù)是多少,用內(nèi)省式方法更不能了解以頻數(shù)為基礎(chǔ)的數(shù)據(jù)。例如They''''rejusttryingtoscorebrowniepointswithpoliticians./Thebossispleased-that''''sanotherbrowniepoint.這兩句話中有一句是來自真實(shí)的語料庫,是哪一句呢?內(nèi)省式判斷會產(chǎn)生意見紛紜,通過語料庫檢索可了解到browniepoints的頻數(shù)是76,而browniepoint的頻數(shù)只有6??梢娪米鲝?fù)數(shù)的情況多得多。

從計(jì)算語言學(xué)的角度看,作為以規(guī)則為基礎(chǔ)的人工智能派的對立面的概率派在20世紀(jì)80年代出現(xiàn)。Sampson(1987)指出,概率方法的特點(diǎn)有三:1)使用依賴語言統(tǒng)計(jì)特性的分析技術(shù),而不是使用絕對的邏輯規(guī)則;2)焦點(diǎn)放在不受限制的語篇中的真實(shí)材料,而不是一些語言學(xué)家自己發(fā)明的例子;3)和這兩點(diǎn)有關(guān)的是,由于算法需要而采用的對付真實(shí)的、而不是事先選擇好的材料的統(tǒng)計(jì)學(xué)是強(qiáng)有力的。當(dāng)時(shí)提出這種方法的是少數(shù)派,主要原因是受到生成轉(zhuǎn)換語法的影響。概率方法在對語料庫進(jìn)行語法標(biāo)注上取得了重大進(jìn)展。Brown語料庫問世后,Green與Rubin編制了以規(guī)則為基礎(chǔ)的標(biāo)注程序TAGGIT,準(zhǔn)確率只有77-78%。英國Lancaster大學(xué)Garside(1987)等人用概率的方法根據(jù)LOB語料庫所提供的133×133個(gè)標(biāo)注過渡矩陣而編制的CLAW程序,標(biāo)注的準(zhǔn)確率達(dá)96-97%。CLAW不斷更新,它的第四版吸收了以規(guī)則為基礎(chǔ)的標(biāo)注程序的優(yōu)點(diǎn),用來處理一億詞的BNC,其錯(cuò)誤率是:1.15%,歧義率是3.75%。在高科技(計(jì)算機(jī)的普及,大硬盤、高內(nèi)存的出現(xiàn),掃描儀和光盤技術(shù)的發(fā)展)的推動下,語料的收集數(shù)量以一日千里之勢增加,現(xiàn)在的語料庫實(shí)際上已是機(jī)讀語料庫。20世紀(jì)60年代出現(xiàn)的Brown和LOB語料庫只有100萬詞,而現(xiàn)在的LGSWE(LongmanSpokenandWrittenEnglishCorpus)已達(dá)4000萬詞,BNC(BritishNationalCorpus)已達(dá)1億詞(而且提供光盤版給人研究),而COBUILD語料庫(BankofEnglish)則接近4億詞。Biber等人(1999)根據(jù)LGSWE而編著的LongmanGrammarofSpokenandWrittenEnglish,洋洋灑灑達(dá)1000多頁,對各種英語使用現(xiàn)象的描寫大都附以語料庫的統(tǒng)計(jì)資料,令人耳目一新。由15個(gè)國家和地區(qū)的語料庫專家聯(lián)合開發(fā)的國際英語語料庫(InternationalCorpusofEnglish,簡稱ICE),按照統(tǒng)一部署收集各個(gè)國家和地區(qū)的英語語料各100萬詞,亦接近完成。語料庫語言學(xué)首先在歐洲興起,而北美因?yàn)槭艿缴烧Z法的影響,相對滯后,但后來也發(fā)展神速。Simpson&Swales(2001)指出:“美國具有迎頭趕上的能量,已經(jīng)得到很好的證實(shí),就等于我們所見到的空間競賽中后蘇聯(lián)人造衛(wèi)星時(shí)代和最近10年的美國汽車工業(yè)一樣?!泵绹e州大學(xué)的語言數(shù)據(jù)聯(lián)合體(LinguisticDataConsortium)長期致力于收集和散布各種語料;由心理學(xué)家MacWhinney主持的CHILDES專門收集說各種語言的兒童語料;密歇根大學(xué)開發(fā)的MICASE(MichiganCorpusofAcademicSpokenEnglish)專門收集大學(xué)生英語口語語料;美國考試服務(wù)公司的T2K-SWAL語料庫(TOEFL2000SpokenandWrittenAcademicLanguageCorpus)則是專門研究大學(xué)英語語體,保證TOEFL考試所測試的英語符合到美國大學(xué)就讀的學(xué)生的需要。對英語的使用者和學(xué)習(xí)者來說,他們關(guān)心的不是理論語言學(xué)家坐在扶手椅上(Fillmore語)想出來的母語語言能力(哪些句子是可能的?哪些句子是不可能的?),而是哪些語言現(xiàn)象使用得較為普遍?哪些不那么普遍或較為不普遍?

隨著大型語料庫的出現(xiàn),在以語料庫為基礎(chǔ)的方法(corpus-basedapproach)之外,又出現(xiàn)丁受語料庫驅(qū)動的方法(corpus-drivenapproach)。Tognini-Bonelli(2001)指出,以語料庫為基礎(chǔ)的方法是使用語料庫的證據(jù)來解釋、檢驗(yàn)或說明語言理論或做語言描述。這些理論或描述是大型語料庫出現(xiàn)前已經(jīng)存在的,但是語言事實(shí)不夠充分,語料庫提供了收集大量、可靠數(shù)據(jù)的手段。Bob的自然語言處理研究、Quirk等人的《當(dāng)代英語綜合語法》、Halliday的功能語法學(xué)派都是使用這種方法。受語料庫驅(qū)動的方法則不限于使用語料庫來選擇例證以支持某一種理論的陳述,而著眼于整個(gè)語料庫的完整性,根據(jù)語料庫所提供的證據(jù)來全面地描寫語言。所以理論的陳述和語料庫所提供的證據(jù)應(yīng)該是一致的,它應(yīng)該直接反映語料庫的證據(jù),根據(jù)頻數(shù)分布和反復(fù)出現(xiàn)的型式來系統(tǒng)地導(dǎo)出語言范疇。作為這種方法的體現(xiàn)的是Sinclair1987以來所從事的COBUILD工程(包括CollinsCobuildDictionary和一系列叢書),Hunston&Francis(2000)的《型式語法》是體現(xiàn)這種方法的一本代表作。

四、心理語言學(xué)的突破

在20世紀(jì)50年代,受信息論影響,語言學(xué)和心理語言學(xué)的許多研究都使用了統(tǒng)計(jì)和概率的方法。但是60-80年代,這種方法銷聲匿跡了。到了90年代這種方法有了很大復(fù)蘇,根據(jù)Jurafsky(2003)的統(tǒng)計(jì),在2000年國際計(jì)算語言學(xué)協(xié)會年會上,有77%的論文都采用了語言和學(xué)習(xí)概率模型。關(guān)于語言理解,可從三個(gè)方面看概率的作用:(1)從心理詞匯或語法的角度看,語言結(jié)構(gòu)的提取是一種概率性行為:最有可能被提取的結(jié)構(gòu)提取時(shí)間最短,花的力氣最少。(2)解決歧義??赡苄栽酱蟮慕忉屧綍贿x中。概率在解決歧義時(shí)起了核心作用。(3)解決語言理解的加工難度。一些加工難度較大的句子都是概率很低的句子。同樣的道理也適合于解釋語言產(chǎn)生:概率高的句子被提取得快,如有多個(gè)被選的結(jié)構(gòu),概率就會起作用。在研究學(xué)習(xí)方面,語言學(xué)習(xí)結(jié)構(gòu)的模型也是以概率和信息理論的模型為基礎(chǔ)。概率論對心理語言學(xué)的最基本的啟發(fā)是使用證據(jù)推導(dǎo)的結(jié)構(gòu)模型:它提供了一種很容易理解的算法(例如貝葉斯(Bayes)模型),對證據(jù)進(jìn)行組合和加權(quán),在語言理解時(shí)選擇最佳的解釋,在語言產(chǎn)生時(shí)選擇最佳結(jié)果。概率模型在心理語言學(xué)方面的應(yīng)用廣及語音、形態(tài)、詞匯、句法、語篇處理等方面。

頻數(shù)在語言理解和語言產(chǎn)生中都起到關(guān)鍵的作用,但是頻數(shù)必須和詞語或句法結(jié)構(gòu)有某種關(guān)系,才能發(fā)揮作用。高頻詞辨認(rèn)時(shí)間比低頻詞短、需要較少的感覺輸入、受鄰近詞的干擾也少。高頻詞的產(chǎn)生時(shí)間也短些,而低頻詞容易導(dǎo)致語音失誤。在解決形態(tài)、句法和語義的歧義時(shí),人們傾向于使用頻率更高的詞類、形態(tài)結(jié)構(gòu)和語義。但是這種詞匯語義/句法范疇的效應(yīng)似乎并沒有延伸到語言產(chǎn)生。復(fù)合詞結(jié)構(gòu)的頻率在語言理解和語言產(chǎn)生中都有作用。常用的詞組或成語提取得更快,在解決歧義時(shí)也用得更多。各種條件概率在語言理解和語言產(chǎn)生中都起作用。對具有不只一個(gè)句法次范疇的動詞來說,最常用的次范疇框架最易于被用來解決歧義。對具有一種詞類的單詞來說,最常用的詞類最容易被用作解決歧義。競爭模型(TheCompetitionModel,MacWhinneyetal.1984;MacWhinney&Bates1989;MacWhinney,2001)是第一個(gè)處理句子的概率模型,它把語言習(xí)得看成是一個(gè)構(gòu)建性的、受數(shù)據(jù)驅(qū)動的過程。這個(gè)過程并不依賴語言結(jié)構(gòu)的共項(xiàng),而是依賴認(rèn)知過程的共項(xiàng)。這個(gè)模型強(qiáng)調(diào)詞匯功能主義(句法型式受詞項(xiàng)控制),把“形式”層面(表層形式、句子結(jié)構(gòu)、韻律形式等)映射到“功能”(意義、意圖)。因?yàn)檩斎胧瞧缌x的、有噪音的,句子處理器就必須以概率的方式依賴詞語所提供的各種表層提示(cues)。提示效度(cuevalidity)把提示的概念形式化,而提示效度又可以理解為提示可用性(cueavailability)和提示信度(cuereliability)的結(jié)合。從學(xué)習(xí)者的角度看,語言發(fā)展主要是學(xué)習(xí)和轉(zhuǎn)移在起作用。

以概率為基礎(chǔ)的心理語言學(xué)不限于提出某種語言處理模型,還想進(jìn)一步解決一些長期以來爭論不休的理論(例如語言是否天生?)問題。這就是涌現(xiàn)論(emergentism)的提出。Bates等人(1998)認(rèn)為這個(gè)問題可以得到解決,有三個(gè)原因:首先是理論物理學(xué)的非線形動力學(xué)的發(fā)展使我們認(rèn)識到,按照一個(gè)維度所發(fā)生的少量變化可以導(dǎo)致復(fù)雜的非連續(xù)性的結(jié)果;其次是我們可能通過神經(jīng)網(wǎng)絡(luò)的模擬技術(shù)來解釋一些簡單的輸入怎樣導(dǎo)致復(fù)雜解決方案的產(chǎn)生;其三是發(fā)展神經(jīng)生物學(xué)的突破,“今天神經(jīng)生物學(xué)的成果對昨天的天生主義是壞消息,因?yàn)檫@些成果強(qiáng)調(diào)了皮層專門化的特別靈活的、依賴于活動的性質(zhì),并且支持對高級認(rèn)知功能的發(fā)展的涌現(xiàn)主義解釋”。涌現(xiàn)主義可以用來解釋諸多語言現(xiàn)象,包括語音形式、形態(tài)變化、詞匯結(jié)構(gòu)、語言歷史變化、皮欽語化(pidginization)和二語習(xí)得,而且可以作形式化處理,例如連接主義網(wǎng)絡(luò)模型、動力學(xué)系統(tǒng)論、貝葉斯模型、優(yōu)選論,等等,它們都是以概率為基礎(chǔ)的。

以概率為基礎(chǔ)的語言處理模型在心理語言學(xué)中取得了統(tǒng)治的地位,競爭模型外,還有以制約為基礎(chǔ)的模型(Constraint-basedModels)、理性模型(RationalModels)、馬爾可夫詞匯范疇優(yōu)先模型(MarkovModelsofLexicalPreference)、不考慮上下文隨機(jī)語法(StochasticContext-freeGrammar)、貝葉斯信念網(wǎng)絡(luò)(BayesianBeliefsNetworks)、語言產(chǎn)生概率模型(ProbabilisticModelingofProduction)等等,限于篇幅,在此不再贅述。

五、對我國語言學(xué)界的啟發(fā)

上面著重介紹了以概率為基礎(chǔ)的語言研究方法,絲毫沒有意思把它說成為一種主流的、唯一的研究方法,而只是想說明語言研究方法豐姿多采,必須結(jié)合我們自己的實(shí)際鼎新革故,吸收人家的先進(jìn)東西,走我們自己的道路。

1.理論語言學(xué)是我們的弱項(xiàng),而生成轉(zhuǎn)換語法以及其他語言理論模型在西方仍在不斷發(fā)展。借鑒它們的理論和方法建立一套確實(shí)能夠說明漢語的語言理論,是我國語言學(xué)家面臨的一大挑戰(zhàn)。我們的目標(biāo)不限于考察漢語有些什么參數(shù)設(shè)置,還要進(jìn)一步通過漢語來探討UG。

2.漢語語言學(xué)有其自身的傳統(tǒng),從小學(xué)(文字、音韻、訓(xùn)詁)到現(xiàn)代漢語研究都注重收集語言數(shù)據(jù)。胡樸安(1983)早在1937年就提出,“訓(xùn)詁學(xué)方法之新趨勢,惟有甲骨文金文之考證與統(tǒng)計(jì)學(xué)之推測,二法而已”。他有感于“瑞典人柯羅倔論著左傳真?zhèn)慰迹奂锤弑緷h(Karlgren),《左傳真?zhèn)慰肌窞殛戀┤缱g,新月書店出版]用統(tǒng)計(jì)方法統(tǒng)計(jì)左傳、論語、孟子中的助字,為考據(jù)學(xué)者辟一新門徑”。他也統(tǒng)計(jì)了《論語》中的“君子”的頻數(shù)(約六十有余),然后區(qū)分出孔子對君子之界說。胡樸安后,又有多少我國訓(xùn)詁學(xué)家使用了概率方法,筆者忝屬外行,不敢妄言。但概率方法在某個(gè)意義上不僅是一種方法,而且是一種思想。事物的出現(xiàn)(包括語言的使用)都是一種概率行為,但是我們立論求證時(shí)卻往往忽略這種特性,只注意收集有利于自己觀點(diǎn)的正面證據(jù),而把負(fù)面的證據(jù)置之不顧。在我國開展語言學(xué)研究,概率方法值得重視。

3.實(shí)施以概率為基礎(chǔ)的語言研究方法的一個(gè)基礎(chǔ)工程是收集和建設(shè)語料庫。這項(xiàng)工程已受到整個(gè)華語世界的重視,但力量分散,各自為政,甚至重復(fù)勞動。現(xiàn)在要考慮的是:(1)我國大陸、臺灣、港澳地區(qū)都在組織人力建設(shè)現(xiàn)代漢語的語料庫,應(yīng)該強(qiáng)調(diào)統(tǒng)一力量,加強(qiáng)協(xié)作,像ICE那樣制訂統(tǒng)一的抽樣方案、注釋格式、文本格式,甚至編制統(tǒng)一的、兼容簡繁體的檢索工具乃至語料庫工具,便于大家使用。(2)語料的收集和入庫雖然牽涉大量人力物力,語料本身卻是公共財(cái)富,應(yīng)該向公眾開放,如提供在線檢索或語料光盤。(3)古漢語語料庫的建立也應(yīng)提到議事日程。我國許多經(jīng)典著作和辭書都應(yīng)電子化,便于檢索。(4)漢語信息化和電子化的“攔路虎”是斷詞問題,大家都有不同的方案和處理方法,應(yīng)集中力量,共謀良策。斷詞問題解決不了,語料就無從進(jìn)行索引??煞窨紤]以“字”為單位,通過搭配字檢索來解決詞的問題?(5)統(tǒng)一和分散,齊頭并進(jìn)。既要考慮編制大型的語料庫,也要考慮編制各種專業(yè)化的語料庫。(6)建立語料庫雖是一項(xiàng)基礎(chǔ)研究,但其根本目的是對語言使用(包括漢語以及其他民族語言)進(jìn)行客觀的概率研究,因此必須大力訓(xùn)練掌握這種研究方法的人員。

4.在漢語心理語言學(xué)方面,雖有一些零碎研究(如對母語習(xí)得、二語習(xí)得),但我國還處在創(chuàng)始階段,任重道遠(yuǎn)。針對漢語使用而開展認(rèn)知心理模型的研究還比較少,關(guān)鍵問題是漢語研究和認(rèn)知心理學(xué)研究的結(jié)合問題。在西方有過兩次結(jié)合:首先是語言學(xué)家和心理學(xué)家的結(jié)合,如1951年在美國Cornell大學(xué)召開的暑期研討班、美國社會科學(xué)院的語言學(xué)和心理學(xué)委員會1953年在Indiana大學(xué)召開的學(xué)術(shù)討論會,訂出了所謂“心理語言學(xué)憲章”;其次是上世紀(jì)70年代以來心理語言學(xué)和認(rèn)知心理學(xué)的合流(桂詩春2000)。這使語言學(xué)通過心理語言學(xué)的媒介成為認(rèn)知科學(xué)的一個(gè)重要組成部分。

5.以概率為基礎(chǔ)的方法在二語習(xí)得研究中的影響更大,牽涉面更多,實(shí)用意義更大,是一個(gè)很重要的領(lǐng)域。筆者將另作專文討論。

【參考文獻(xiàn)】

1Aarts,B.2000.Corpuslinguistics,Chomskyandfuzzytreefragments[A].InC.Mair&M.Hundt(eds.).CorpusLinguisticsandLinguisticTheory[C].Amsterdam:Rodopi.

2Aitchison,J.1998.TheArticulateMammals:AnIntroductiontoPsycholinguistics[M].London:Routledge.

3Alien.J&Seidenberg.1999.Theemergenceofgrammaticalityinconnectionistnetworks[A].InB.MacWhinney(ed.).TheEmergenceofLanguage[C].NJ:LawrenceErlbaumAssociates,Inc.,Publishers

4Bates,E.,J.Elman,M.Johnson,A.Karmiloff-Smith,D.Parisi&K.Plunkett.1989.Innatenessandemergentism[A].InW.Bechtel&G.Graham(eds.).AComponiontoCognitiveScience[C].Oxford:BasilBlackwell.

5Beaugrande,R.1991.LinguisticTheory:TheDiscourseofFundamentalWorks[M].London:Longman.

6Bob,R.,J.Hays&S.Jannedy.2003.ProbabilisticLinguistics[M].Cambridge,Mass:MITPress.

7Chomsky,N.1957.SyntacticStructures[M].TheHague:Mouton&Co.

8Halliday,M.A.K.1973.ExplorationsintheFunctionofLanguage[M].London:Arnold.

9Halliday,M.A.K.1991.Corpusstudiesandprobabilisticgrammar[A].InK.Aijmeretal.(eds.).EnglishCorpusLinguistics[C].London:Longman

10Hymes,D.1972.Oncommunicativecompetence[A].InJ.B.Prideetal(eds.).Sociolinguistics[C].Harmondsworth:PenguinBooksLtd.

11Jurafsky,D.2003.Probabilisticmodelinginpsycholin-guistics:Linguisticcomprehensionandproduction[A].InR.Bobetal.(eds.).2003.

12LeechG.N.1992.Corporaandtheoriesoflinguisticperformance[A].InJ.Svartvik(ed).DirectionsinCorpusLinguistics.ProceedingsofNobelSymposium82,Stockholm,4-8August,1991[C].MoutondeGruyter,BerlinandNewYork.

13MacWhinney,B.,E.Bates&R.Kliegl.1984.CuevalidityandsentenceinterpretationinEnglish,German,andItalian[J].JournalofVerbalLearningandVerbalBehavior23.127-150.

14MacWhinney,B.&E.Bates.1989.TheCross-linguisticStudyofSentenceProcessing[M].Cambridge:CambridgeUniversityPress.

15MacWhinney,B.2001.TheCompetitionmodel:Theinput,thecontextandthebrain[A].InP.Robinson(ed.).CognitionandSecondLanguageAcquisition[C].Cambridge:CambridgeUniversityPress.

16Manning,C.&H.Schutze.1999.StatisticalNaturalLanguageProcessing[M].

17McEnery,T.&A.Wilson.1996.CorpusLinguistics[M].Edinburgh:EdinburghUniversityPress.

18Mey,J.1993.Pragmatics:AnIntroduction[M].Oxford:BlackwellPublishersLtd.

19Oakes,M.1998.StatisticsforCorpusLinguistics[M].Edinburgh:EdinburghUniversityPress.

20Sampson,G.1987.Probabilisticmodelsofanalysis[A].InR.Garsideetal.(eds.).TheComputationalAnalysisofEnglish[C].London:Longman.16-29.

21Sampson,G.1992.Probabilisticparsing[A].InSvartvik(ed.).DirectionsinCorpusLinguistics:ProceedingsofNobelSymposium82[C].Berlin:MoutonGruyter.

22Sampson,G.2001.EmpiricalLinguistics[M].London:Continuum.

23Simpson,R.&J.Swales.2001.Introduction:NorthAmericanperspectivesoncorpuslinguisticsatthemillennium[A].InR.Simpson&J.Swales(eds.).CorpusLinguisticsinNorthAmerica[C].Michigan:TheUniversityofMichiganPress.

24Svartvik,J.1996.Corporaarebecomingmainstream[A].InJ.Thomas&M.Short(eds.).UsingCorporaforLanguageResearch[C].London:Longman.

25Tognini-Bonelli,E.2001.CorpusLinguisticsatWork[M].Amsterdam:JohnBenjaminsPublishingCo.

26Widdowson,petenceandcapacityinlanguagelearning[A].InH.Widdowson(ed.).ExplorationsinAppliedLinguistics2[C].Oxford:OUP.

27桂詩春,2000,《新編心理語言學(xué)》[M]。上海:上海外語教育出版社。

28胡樸安,1983,《中國訓(xùn)詁學(xué)史》[M]。北京:中國書店(根據(jù)商務(wù)印書館1937年版影?。?/p>

29張風(fēng)芝等,2002,語言學(xué)科建設(shè)高級專家座談會綜述[J],《暨南大學(xué)華文學(xué)院學(xué)報(bào)》第4期。

荔浦县| 会宁县| 县级市| 盐源县| 宝丰县| 洪洞县| 威信县| 巢湖市| 浦城县| 石门县| 车致| 安徽省| 安远县| 永川市| 崇左市| 班戈县| 岳阳县| 筠连县| 日照市| 仪征市| 陆良县| 呼玛县| 益阳市| 三穗县| 昌邑市| 阳春市| 重庆市| 旌德县| 苍南县| 新巴尔虎右旗| 新绛县| 连南| 吐鲁番市| 白河县| 色达县| 东源县| 介休市| 筠连县| 库伦旗| 科尔| 镇平县|