前言:本站為你精心整理了新句法標(biāo)注模型范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢。
論文關(guān)鍵詞:語(yǔ)料庫(kù)語(yǔ)言學(xué)語(yǔ)義處理句法標(biāo)注模型
論文摘要:由于自然語(yǔ)言的語(yǔ)義存在不確定性,形式化很困難,因此語(yǔ)義處理成為自然語(yǔ)言處理的瓶頸所在?;诖笠?guī)模標(biāo)注語(yǔ)料庫(kù)的語(yǔ)義處理已經(jīng)成為發(fā)展趨勢(shì),語(yǔ)料標(biāo)注本質(zhì)上就是語(yǔ)言知識(shí)(包括語(yǔ)義)形式化?,F(xiàn)有句法標(biāo)注模型主要包括基于短語(yǔ)結(jié)構(gòu)語(yǔ)法(PSG)和基于依存語(yǔ)法(DG)的句法標(biāo)注模型,還存在一些局限性。文章在現(xiàn)有句法標(biāo)注模型的基礎(chǔ)上結(jié)合認(rèn)知語(yǔ)法(CG)的有關(guān)理論提出改進(jìn)思路,以探索新的句法標(biāo)注模型。
人類社會(huì)發(fā)展的基本軌跡是:原始社會(huì)—農(nóng)業(yè)社會(huì)—工業(yè)社會(huì)—信息社會(huì)。人工智能的目標(biāo)是用計(jì)算機(jī)模擬人的智能,以最大限度地解放和延伸人的智能,無(wú)疑是信息社會(huì)的制高點(diǎn)。語(yǔ)言是人思維的物質(zhì)外殼,人不可能離開(kāi)語(yǔ)言而具備真正屬于人的高級(jí)智能。因此,模擬人類語(yǔ)言智能的自然語(yǔ)言處理無(wú)疑是人工智能的重要研究方向。然而,迄今為止的研究表明,在可以預(yù)見(jiàn)的將來(lái),語(yǔ)義處理將是自然語(yǔ)言處理的瓶頸所在。原因是語(yǔ)義十分復(fù)雜,而基于現(xiàn)有計(jì)算機(jī)軟硬件的自然語(yǔ)言處理要求語(yǔ)義形式化。解決這一問(wèn)題的根本之道是:探索新的句法標(biāo)注模型,進(jìn)行大規(guī)模的語(yǔ)義標(biāo)注,基于語(yǔ)料庫(kù)進(jìn)行語(yǔ)義知識(shí)獲取和自然語(yǔ)言處理。
一、句法標(biāo)注模型
語(yǔ)言的復(fù)雜性在于語(yǔ)言與認(rèn)識(shí)的關(guān)系。語(yǔ)言具有意義,而意義是入對(duì)主客觀世界的認(rèn)識(shí)結(jié)果。主客觀世界的復(fù)雜性決定了意義的復(fù)雜性,進(jìn)一步?jīng)Q定了語(yǔ)言的復(fù)雜性。語(yǔ)言本身又可以視為人的主客觀世界中的一部分,因此語(yǔ)言研究是一種特殊的認(rèn)識(shí)活動(dòng),是人對(duì)語(yǔ)言的認(rèn)識(shí)。由此可見(jiàn),語(yǔ)言離不開(kāi)認(rèn)識(shí)。人對(duì)主客觀世界的認(rèn)識(shí)可以如此描述:認(rèn)識(shí)主體借助認(rèn)識(shí)工具按照認(rèn)識(shí)方法處理認(rèn)識(shí)對(duì)象獲得認(rèn)識(shí)結(jié)果。認(rèn)識(shí)是由多種認(rèn)識(shí)因素(主體、工具、方法、對(duì)象)共同作用的活動(dòng),認(rèn)識(shí)結(jié)果是這一活動(dòng)的產(chǎn)物,被多種認(rèn)識(shí)因素共同決定,任何一種認(rèn)識(shí)因素的改變必然導(dǎo)致認(rèn)識(shí)結(jié)果出現(xiàn)或大或小的差異。顯然,認(rèn)識(shí)結(jié)果與認(rèn)識(shí)對(duì)象不能等同,是認(rèn)識(shí)主體對(duì)認(rèn)識(shí)對(duì)象的選擇性反映,認(rèn)識(shí)具有主觀能動(dòng)性。從這個(gè)意義上講。認(rèn)識(shí)不可能也不應(yīng)該去被動(dòng)地還原認(rèn)識(shí)對(duì)象,而是從符合主體目的性出發(fā),力求簡(jiǎn)單有效地描述和預(yù)測(cè)認(rèn)識(shí)對(duì)象。借用模型的概念,認(rèn)識(shí)結(jié)果就是認(rèn)識(shí)對(duì)象的模型(model),認(rèn)識(shí)就是建立認(rèn)識(shí)對(duì)象的模型,簡(jiǎn)稱建模(modeling)。這是一種實(shí)用主義認(rèn)識(shí)觀。
模型一般分為心理模型(psychologicalmodel)、數(shù)學(xué)模型(mathematicalmodel)和物理模型(physicalmodel)。心理模型是認(rèn)識(shí)對(duì)象在人認(rèn)識(shí)中的定性關(guān)系,是數(shù)學(xué)模型的基礎(chǔ);數(shù)學(xué)模型是認(rèn)識(shí)對(duì)象在人認(rèn)識(shí)中的定量關(guān)系,是物理模型的基礎(chǔ);物理模型是人借助特定材料和工具按照認(rèn)識(shí)對(duì)象的數(shù)學(xué)模型實(shí)現(xiàn)的物質(zhì)結(jié)構(gòu)。傳統(tǒng)意義上的建模主要指建立數(shù)學(xué)模型和物理模型,一般意義上的建模還包括建立心理模型。人的認(rèn)識(shí)能力是有限的,表現(xiàn)在:人不能建立任意認(rèn)識(shí)對(duì)象的心理模型,也不能建立任意心理模型的數(shù)學(xué)模型,也不能建立任意數(shù)學(xué)模型的物理模型。由于具有明確的實(shí)用主義特點(diǎn),建模在理工科領(lǐng)域大行其道,在文科領(lǐng)域也逐漸受到青睞。人類將二進(jìn)制數(shù)學(xué)模型成功實(shí)現(xiàn)為晶體管物理模型,并開(kāi)發(fā)出越來(lái)越復(fù)雜和先進(jìn)的計(jì)算機(jī)軟件和硬件,從而進(jìn)入信息時(shí)代。20世紀(jì)以來(lái)一些主要或次要的語(yǔ)言理論都或多或少應(yīng)用了數(shù)學(xué)模型,特別是一些面向語(yǔ)言計(jì)算的語(yǔ)言理論。隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,人們對(duì)計(jì)算機(jī)自動(dòng)或輔助處理語(yǔ)言信息的需求越來(lái)越大。但計(jì)算機(jī)的根本缺陷在于,凡是不能建立數(shù)學(xué)模型的信息都無(wú)法處理。傳統(tǒng)語(yǔ)言理論往往只在心理模型層面定性研究,無(wú)法滿足這一需要。因此有必要引入數(shù)學(xué)模型研究語(yǔ)言,稱為語(yǔ)言數(shù)學(xué)模型,簡(jiǎn)稱語(yǔ)言模型(1anguagemodel)。統(tǒng)計(jì)語(yǔ)言模型(sta-tisticallanguagemodel)就是一個(gè)成功的例子。但統(tǒng)計(jì)語(yǔ)言模型的性能取決于訓(xùn)練語(yǔ)料的規(guī)模和質(zhì)量。目前,由于語(yǔ)料的不斷積累和計(jì)算機(jī)技術(shù)的不斷進(jìn)步,語(yǔ)料規(guī)模已不成問(wèn)題,語(yǔ)料中包含語(yǔ)言知識(shí)的數(shù)量和質(zhì)量才是關(guān)鍵。
計(jì)算機(jī)的語(yǔ)言知識(shí)主要來(lái)源于人。將語(yǔ)料中包含的語(yǔ)言知識(shí)標(biāo)注出來(lái),有助于計(jì)算機(jī)獲得更豐富、更有價(jià)值的語(yǔ)言知識(shí),從而提高語(yǔ)言處理水平,這就是語(yǔ)料標(biāo)注(corpustagging)。一般認(rèn)為主要包括詞匯標(biāo)注(1exicaltagging,分詞、詞結(jié)構(gòu)標(biāo)注、詞性標(biāo)注、詞義標(biāo)注等)、句法標(biāo)注(syntaxtagging,語(yǔ)法樹(shù)標(biāo)注、語(yǔ)義樹(shù)標(biāo)注等)、語(yǔ)篇標(biāo)注(discoursetagging,語(yǔ)體標(biāo)注、領(lǐng)域標(biāo)注等)等內(nèi)容。經(jīng)過(guò)標(biāo)注的語(yǔ)料還可以用于語(yǔ)言學(xué)研究、語(yǔ)言教學(xué)、語(yǔ)言測(cè)試、詞典編撰等諸多理論研究和實(shí)踐應(yīng)用領(lǐng)域,越來(lái)越受到人們重視,并形成一門新興學(xué)科——語(yǔ)料庫(kù)語(yǔ)言學(xué)(corpuslinguistics)。目前,相對(duì)句法標(biāo)注,詞匯標(biāo)注有更成熟的規(guī)范、準(zhǔn)確率更高的技術(shù)和更大的標(biāo)注規(guī)模。句法標(biāo)注的主要困難在于,沒(méi)有一個(gè)真正成熟的語(yǔ)法或語(yǔ)義標(biāo)注模型。句法結(jié)構(gòu)尤其是語(yǔ)義結(jié)構(gòu)很難統(tǒng)一描述,現(xiàn)有的句法理論還不完善,難以制定統(tǒng)一規(guī)范,標(biāo)注主觀性很大,自動(dòng)標(biāo)注準(zhǔn)確率比較低。因此,句法標(biāo)注成了語(yǔ)料標(biāo)注的瓶頸問(wèn)題。由于句法知識(shí)在語(yǔ)言知識(shí)中的重要地位,有理由相信:如果有了大規(guī)模、高質(zhì)量的句法標(biāo)注語(yǔ)料庫(kù),圍繞語(yǔ)料庫(kù)的各種研究和應(yīng)用有可能在現(xiàn)有基礎(chǔ)上產(chǎn)生質(zhì)的飛躍。因此,研究句法標(biāo)注模型應(yīng)是當(dāng)務(wù)之急。語(yǔ)料庫(kù)語(yǔ)言學(xué)屬于交叉學(xué)科,句法標(biāo)注模型是語(yǔ)料庫(kù)語(yǔ)言學(xué)的基礎(chǔ)理論,又與語(yǔ)言學(xué)的句法理論密切相關(guān)。一方面可以借鑒現(xiàn)有句法理論,另一方面,也可以從語(yǔ)料庫(kù)語(yǔ)言學(xué)的角度研究句法,提出新的句法標(biāo)注模型。
二、現(xiàn)有句法標(biāo)注模型
句法標(biāo)注(SyntaxTagging,ST)以句子的語(yǔ)法知識(shí)和語(yǔ)義知識(shí)為標(biāo)注對(duì)象,是語(yǔ)料標(biāo)注的重點(diǎn)、難點(diǎn)所在,要以一定的語(yǔ)法理論為基礎(chǔ)。根據(jù)語(yǔ)法理論制定的句法標(biāo)注規(guī)則、過(guò)程和結(jié)果,稱為句法標(biāo)注模型(SyntaxTaggingModel,STM)。短語(yǔ)結(jié)構(gòu)語(yǔ)法(PhraseStructureGrammar,PSG)和依存語(yǔ)法(DependencyGrammar,DG)是現(xiàn)有句法標(biāo)注的兩種基礎(chǔ)語(yǔ)法理論,彼此卻有很大的不同?;赑SG的句法標(biāo)注模型稱為短語(yǔ)結(jié)構(gòu)句法標(biāo)注模型(PSG—basedTaggingMod—el,PSGTM),基于DG的句法標(biāo)注模型稱為依存句法標(biāo)注模型(DG—basedTaggingModel,DGTM)。根據(jù)現(xiàn)有語(yǔ)料標(biāo)注的實(shí)踐結(jié)果來(lái)看,PSGTM與DGTM都存在一定缺陷。
美國(guó)語(yǔ)言學(xué)家喬姆斯基(NoamChomsky)于1957年出版專著《句法結(jié)構(gòu)》,從而奠定了短語(yǔ)結(jié)構(gòu)語(yǔ)法(PSG)的理論基礎(chǔ)。其后發(fā)展起來(lái)的許多語(yǔ)法理論可以直接或間接歸到這一流派,如中心詞驅(qū)動(dòng)的短語(yǔ)結(jié)構(gòu)語(yǔ)法(HPSG)、廣義短語(yǔ)結(jié)構(gòu)語(yǔ)法(GPSG)等。到目前為止,PSG仍然是最重要的句法標(biāo)注基礎(chǔ)理論,為世界上眾多語(yǔ)料庫(kù)項(xiàng)目所采用和發(fā)展。法國(guó)語(yǔ)言學(xué)家特思尼耶爾(LucienTesnire)于1959年出版專著《結(jié)構(gòu)句法基礎(chǔ)》,從而奠定了依存語(yǔ)法(DG)的理論基礎(chǔ)。其后發(fā)展起來(lái)的許多語(yǔ)法理論可以直接或間接歸到這一流派,如詞匯依存語(yǔ)法(WD)、概念依存理論(cD)、核心依存理論(KD)等。相對(duì)PSG而言,DG偏重于語(yǔ)義,在CD、KD上表現(xiàn)得十分明顯。另外,DG更簡(jiǎn)潔、直觀、經(jīng)濟(jì),適應(yīng)性更強(qiáng),因此反而有后來(lái)居上之勢(shì),目前已經(jīng)成為世界上較為通用的句法標(biāo)注基礎(chǔ)理論。不過(guò),在具體的句法標(biāo)注實(shí)踐中DGTM還是暴露出一些問(wèn)題,“對(duì)一些沒(méi)有明確依存關(guān)系的成分,標(biāo)注起來(lái)則有些力不從心”,存在“依存失敗”現(xiàn)象,最突出的是難以標(biāo)注缺省結(jié)構(gòu)。缺省結(jié)構(gòu)一直是句法標(biāo)注中經(jīng)常出現(xiàn)而且很難解決的問(wèn)題。
人類的自然語(yǔ)言符合經(jīng)濟(jì)性原則,而缺省結(jié)構(gòu)恰恰體現(xiàn)了這一原則。借助句子的前后上下文省略一些成分,人們?nèi)匀荒軌蚶斫?,但?duì)計(jì)算機(jī)來(lái)說(shuō)卻是一種挑戰(zhàn)。句法標(biāo)注的根本目的是讓計(jì)算機(jī)能夠正確提取句子的語(yǔ)法和語(yǔ)義知識(shí)。缺省結(jié)構(gòu)在真實(shí)語(yǔ)料中大量出現(xiàn),常常使得原本正常的句法結(jié)構(gòu)變得異常,難以按已有規(guī)則進(jìn)行標(biāo)注。這是任何句法標(biāo)模型都必須面對(duì)的問(wèn)題,目前PSGTM和DGTM都還沒(méi)能夠很好地解決。以DGTM為例,在很多情況下,DGTM不但不能正確標(biāo)注缺省結(jié)構(gòu),反而在一些語(yǔ)言規(guī)則的強(qiáng)制限定下給出違背真實(shí)語(yǔ)法或語(yǔ)義結(jié)構(gòu)的標(biāo)注結(jié)果,形成干擾信息。請(qǐng)看以下4個(gè)句子:
句1:我看一下下書
句2:(真是好書啊?)我看一下
句3:我看一本書
句4:(好多書啊!)我看一本
句2是句1的賓語(yǔ)省略句,句4是句3的賓語(yǔ)省略句。(為簡(jiǎn)便起見(jiàn),把“一下”、“一本”作為一個(gè)詞處理)。
問(wèn)題出在句4。句1和句3的依存結(jié)構(gòu)是不同的,然而句2和句4卻有了相同的依存結(jié)構(gòu)。因?yàn)榫?省略了“書”,根據(jù)DG理論,“一本”必須依存于獨(dú)立謂語(yǔ)成分“看”。于是“看一本”和“看一下”依存結(jié)構(gòu)相同,實(shí)際上違反了句3的正確結(jié)構(gòu)。當(dāng)然,我們可以采取補(bǔ)救措施,為d1標(biāo)注一個(gè)特殊的依存關(guān)系屬性Cerror(即依存失敗),但這不是好辦法。
三、改進(jìn)DGTM
美國(guó)認(rèn)知語(yǔ)言學(xué)家蘭蓋克(Ronaldw.Langach.er)分別于1987年、1991年出版專著《認(rèn)知語(yǔ)法基礎(chǔ)》一、二卷,開(kāi)創(chuàng)了認(rèn)知語(yǔ)法(CG)理論,關(guān)于語(yǔ)法結(jié)構(gòu)有如下觀點(diǎn):如果一個(gè)構(gòu)件A使另一構(gòu)件B的一部分抽象變?yōu)榫唧w,那么構(gòu)件A就叫做概念自主(coneep.tuallyautonomos)的構(gòu)件,構(gòu)件B就叫做概念依存(conceptuallydependent)的構(gòu)件。
舉例來(lái)說(shuō):獨(dú)立地看,“一本”隱含一個(gè)抽象的、可數(shù)的、可用“本”量化的事物,可表示為“一本(x)”?!皶笔埂皒”變得具體,因此“書”是概念自主的,“一本”是概念依存的。從信息表達(dá)的角度來(lái)看,“書”表達(dá)了相對(duì)完整而具體的信息,因此是概念自主的;“一本”表達(dá)了不完整不具體的信息,因此是概念依存的。從數(shù)學(xué)表達(dá)式的角度來(lái)看,“一本”類似函數(shù),“書”類似參數(shù),函數(shù)的地位顯然是第一位的,決定了對(duì)參數(shù)的處理過(guò)程和返回參數(shù)。例如,“舊書”與“一本書”的區(qū)別不在“書”,而在“舊”和“一本”。再?gòu)拈喿x認(rèn)知過(guò)程來(lái)看,當(dāng)人們讀到“一本”時(shí),實(shí)際上已經(jīng)在期待“一本”后面那個(gè)具體事物跟著出現(xiàn)。為什么我們覺(jué)得“我看一本”是缺省句?因?yàn)椤翱础焙汀耙槐尽毕鄬?duì)“書”都是概念依存的,因此人們會(huì)判定,“我看一本”的缺省成分可能是“書”。而讀到“我看書”時(shí),人們不會(huì)認(rèn)為這是一個(gè)省略句,因?yàn)椤皶北磉_(dá)的信息已經(jīng)自足了。
由此有足夠的理由認(rèn)為:在句法結(jié)構(gòu)中,“一本”應(yīng)是“書”的父結(jié)點(diǎn),而不是按傳統(tǒng)的補(bǔ)足中心原則,中心成分總是限定成分的父結(jié)點(diǎn)。依存成分是自主成分的父結(jié)點(diǎn),這一原則可以稱為依存中心原則(DependencyHeadPrinciple,DHP)。采取這種原則的DGTM必然會(huì)有不同的標(biāo)注結(jié)果。
深入研究發(fā)現(xiàn),僅僅采用DHP是不夠的,DGTM的其他參數(shù)也需要改變。例如,“看(x)”和“一本(x)”這兩個(gè)表達(dá)式在與其他詞語(yǔ)組合時(shí)是有區(qū)別的?!翱?x)”與“我”組合時(shí)由“看”與“我”產(chǎn)生聯(lián)系。“看”與“一本(x)”組合時(shí)卻是“x”(書)與“看”發(fā)生聯(lián)系。代表表達(dá)式與其他詞語(yǔ)組合的成分稱為返回參數(shù),不同表達(dá)式的返回參數(shù)是不同的。例如?!耙槐?x)”返回參數(shù)為“x”,“看(x)”返回參數(shù)為“看”。正因?yàn)槿绱?,表達(dá)式“看(一本(書))”成立,“一本(看(書))”不成立。另外,表達(dá)式“(x)一下”的返回參數(shù)為“x”,即“看”;表達(dá)式“(x)看”的返回參數(shù)為“看”。根據(jù)這些定義,句1、2、3、4的改進(jìn)DGTM。
根據(jù)函數(shù)、輸入?yún)?shù)、返回參數(shù)的關(guān)系,各句結(jié)構(gòu)的逆構(gòu)造過(guò)程如下:
句1:我看一下書:(((我)看(x))一下)(書)=((看(x))一下)(書)=看(x)(書)=看(x=書)
句2:我看一下:((我)看(x))一下=(看(x))一下=看(x)
句3:我看一本書:((我)看(x))(一本(書))=看(x)(書)=看(x=書)
句4:我看一本:(我)看(一本(x))=看(x)
句1和句3的x有明確取值,為完整句。句2和句4則是缺省句。基于看(x)和一本(x)的知識(shí),可以預(yù)測(cè)并判定缺省結(jié)構(gòu)及其成分。
直觀看來(lái),改進(jìn)DGTM與原DGTM的標(biāo)注結(jié)果有了很大的差異由于不采用補(bǔ)足中心原則,因此改進(jìn)DGTM標(biāo)注結(jié)果并不符合在補(bǔ)足中心原則影響下人們長(zhǎng)期以來(lái)形成的語(yǔ)感。但更符合人們閱讀認(rèn)知經(jīng)驗(yàn),而且可以按函數(shù)標(biāo)準(zhǔn)給出形式化地解釋,其解釋結(jié)果符合句子本身的語(yǔ)法和語(yǔ)義結(jié)構(gòu),沒(méi)有錯(cuò)誤和干擾信息。因此,改進(jìn)DGTM更適合計(jì)算機(jī)處理,更符合句法標(biāo)注的本來(lái)目的。
四、結(jié)語(yǔ)
PSGTM的語(yǔ)法理論基礎(chǔ)是PSG,DGTM的語(yǔ)法理論基礎(chǔ)是DG,改進(jìn)DGTM的DHP受CG的啟發(fā),其語(yǔ)法理論基礎(chǔ)應(yīng)該是CG。但CG只是從理論上提出了“概念自主”和“概念依存”的概念,并沒(méi)有嚴(yán)格定義和證明依存成分與自主成分之間的主從關(guān)系。在CG的實(shí)際應(yīng)用中,存在有時(shí)自主成分為短語(yǔ)中心語(yǔ),有時(shí)依存成分為短語(yǔ)中心語(yǔ)的情況。
根據(jù)CG理論,“above”是“abovethetable”的中心語(yǔ)?!發(fā)amp”是“l(fā)ampabovethetable”的中心語(yǔ)。然而,根據(jù)CG對(duì)概念自主和概念依存的界定,相對(duì)“ta-ble”和“l(fā)amp”,“above”是概念依存的,具有兩個(gè)抽象部分“(x)above(y)”,“l(fā)amp”使“x”具體化,“table”使“y”具體化。如果嚴(yán)格執(zhí)行DHP,“abovethetable”和“l(fā)ampabovethetable”的中心語(yǔ)都應(yīng)該是“above”。但這樣一來(lái),怎樣解釋“movethelampabovethetable”中“move”直接依存“l(fā)amp”的關(guān)系?根據(jù)改進(jìn)DGTM,可以定義“(x)above(y)”的返回參數(shù)是“x”以解決這一問(wèn)題,但CG不會(huì)這樣處理,而是將“l(fā)amp”限定為“l(fā)ampabovethetable”的中心語(yǔ),從而與“move”直接聯(lián)系,這樣就不符合DHP的要求。
因此,改進(jìn)DGTM的語(yǔ)法理論基礎(chǔ)不可能是CG,必須構(gòu)建一種新的語(yǔ)言模型。目前我們正融合哲學(xué)二元論與本體論、心理學(xué)、信息科學(xué)、網(wǎng)絡(luò)通信模型、離散數(shù)學(xué)、語(yǔ)言學(xué)(依存語(yǔ)法、認(rèn)知語(yǔ)法、范疇語(yǔ)法)、藝術(shù)學(xué)等理論的相關(guān)概念和原理,結(jié)合人的一般認(rèn)知經(jīng)驗(yàn),建立一種新的句法標(biāo)注模型,并初步用于經(jīng)典漢語(yǔ)句式的表征,取得了較好效果。