(以下為臨時文案,您可自由進行更換)自(zì)然語言處理是計算機科學領域與人(rén)工(gōng)智能領域中(zhōng)的一個重要方向。它研究(jiū)能實現人與計算機之間用自然(rán)語言進行(háng)有效通信的各種理論和方法。自然語言處理是一門(mén)融語言學、計算(suàn)機科學、數學於一體的(de)科學。因此,這一領(lǐng)域的研究將涉及(jí)自然語言,即人們日(rì)常(cháng)使用的語言,所以它與語言學(xué)的研(yán)究有(yǒu)著密切的(de)聯係,但又有重要的區別。自然(rán)語(yǔ)言處理並不是一般地研究自然語言,而(ér)在於研(yán)製能有效地(dì)實(shí)現自然語言(yán)通信的計算機係統,特別是其中的軟件係統。因而它是計算機科學(xué)的一部分。
自然(rán)語(yǔ)言處理(NLP)是(shì)計算(suàn)機科學,人工智能,語言學關注計算機和人類(自然)語言之間的相互作用的領域。
語言是人類區別其他(tā)動物的(de)本質特性。在所有生物中,隻有人類才具有語(yǔ)言(yán)能力。人類的多種智(zhì)能都與語言(yán)有著密切的關係。人類的邏輯思維以語(yǔ)言為形式,人類(lèi)的(de)絕大部分知識也是(shì)以語言(yán)文字的形式記載和流傳下來的。因而,它也是人工(gōng)智能的一個重(chóng)要,甚至核心部分。
用自然語言與計算機進行(háng)通信,這是人們長期以來(lái)所追求的(de)。因為它既有明顯(xiǎn)的(de)實際意義,同時也(yě)有(yǒu)重要的理論意義(yì):人們可以用自己較習慣的語言來使用計算機,而無(wú)需(xū)再(zài)花大量的時間和精力去學習不很自然和習慣的(de)各種(zhǒng)計算機語言;人(rén)們也可通過它進一步了解人類的語言能力(lì)和智能的機製。
實現人機間自然語言通信意味著要使計算機既能理解自然(rán)語言文本的意義,也能以自然語言文本來表達給定的意圖、思(sī)想等。前者稱為(wéi)自然語言理解,後者稱(chēng)為自然語言生成。因此,自然語言處理大體包括了自(zì)然語言理解和(hé)自然語言生(shēng)成兩個部分。曆史上對自然語言理解研究得較多,而對自然(rán)語言生成研究得較少。但這種狀況已有所改變。
無論實現自然語言理解,還是自然語言生成,都(dōu)遠不(bú)如人們原(yuán)來想象的那麽簡單,而是**困難的。從現有的理論和技術現狀看,通用的、高質量的自然語言處理係統,仍然是較長期的努力目標,但是針對一定(dìng)應用,具有相當自然語言處理能力的實用係統已經出現,有些(xiē)已商品化,甚至開始產(chǎn)業化。典型的例子有:多語種數據庫和專(zhuān)家係統的自然語言接口、各種機器翻(fān)譯係統、全(quán)文(wén)信息檢索係(xì)統、自動文摘係(xì)統等。
自然語言處理,即實現人機間自然(rán)語言通信(xìn),或(huò)實現自然語言(yán)理解和自然語言生成是**困難的。造成(chéng)困難的根本原因是自然語言文本和對話的各個(gè)層次上廣泛存在的各種各樣的歧義(yì)性或多義性(ambiguity)。
一個中文文本從形式上看是由漢字(包括(kuò)標點(diǎn)符號等(děng))組(zǔ)成的一個字符串。由字可組成詞,由詞可組成詞組,由詞組可組成句子,進而由一些(xiē)句(jù)子組成段、節、章、篇。無論在上述(shù)的各種層次(cì):字(符)、詞、詞組、句子、段,……還是在下一層(céng)次向上一層次(cì)轉變(biàn)中都存在著歧(qí)義和(hé)多義現象,即形式上一樣(yàng)的(de)一段字符串,在不同的(de)場景或不同的語境下,可以(yǐ)理解成不同的詞串、詞組串(chuàn)等,並有(yǒu)不同的意義。一般(bān)情況下,它(tā)們中的大多數都是可以根據相應的語境和場景的規定而得到解決的。也就是說,從總體上說,並不存在歧義。這也就是(shì)我們平時並不感(gǎn)到自然語言歧義,和能用自然語言進行正(zhèng)確交流的原因。但是一方麵,我(wǒ)們也看(kàn)到,為了消(xiāo)解歧義,是需要極其大量的知識和進行推理的(de)。如何將這些知識較完整地加以收集和整(zhěng)理出來(lái);又如何(hé)找到合適的(de)形式,將它們(men)存入計算機係統中去;以及如何(hé)有效地利(lì)用它們(men)來(lái)消除歧義,都是工作量極大(dà)且**困(kùn)難的工作。這不是少數人短時期內可以完成的,還有待(dài)長期的、係統的工作。
以上說的是,一個中文文本或一個(gè)漢字(含標點符號等)串可能有多個含義。它是自然語言理解中的主要困難和障礙。反過(guò)來,一個相(xiàng)同或相近的意義同樣可以用多個中文文本或多個漢字串來表(biǎo)示。
因此(cǐ),自然語言的形式(字符串)與其意義(yì)之間(jiān)是一(yī)種多對多的關係。其實這也正是自然語言的魅力所在。但從計算機處理的角度看,我們必須消除歧義,而且有(yǒu)人認為它正是自然語言理解中的中心(xīn)問題(tí),即要把帶有潛在歧義的自然語言輸入轉換成某(mǒu)種無歧義的計算機內部(bù)表示。
歧義現象的廣泛存在使得消(xiāo)除它們需要大量的知識和推理,這就給基於(yú)語言學的方法、基於知識(shí)的方法帶來(lái)了巨大的困(kùn)難,因而以這些方法為(wéi)主流的自然語言(yán)處理(lǐ)研究幾十年來一方麵(miàn)在理論和方法方麵取得了很多成就,但在能處理大規模真實文本(běn)的係(xì)統研製方麵,成績並不顯著。研製的一些係統大多(duō)數是小規模的、研究性的演示係統。
目前存在(zài)的問題有兩個方麵:一方麵,迄今(jīn)為止的語法都(dōu)限於(yú)分析一個孤立的句子,上下文(wén)關(guān)係(xì)和談話環(huán)境對(duì)本句的約束和影響(xiǎng)還缺乏係統的研究,因此分析歧(qí)義、詞(cí)語省略、代詞所(suǒ)指、同一句話在不同場合或由不同的人說出來所具有的不同含(hán)義等問題,尚無明確規律可循,需要加強語用學的研究才能逐步(bù)解決。另一方麵(miàn),人(rén)理解一個句子不是單憑(píng)語(yǔ)法,還運用了大量的有關知識,包括(kuò)生活知識(shí)和(hé)專門知識,這些知識無法全部貯存在計算機裏。因此一個書麵理解係統隻能建立在有限的詞匯、句型(xíng)和特定的主題(tí)範圍內(nèi);計(jì)算機的貯(zhù)存量和運轉速度大大提高之後,才有可能適當擴(kuò)大(dà)範圍.
以上存在的問題成為自然語言理(lǐ)解在機(jī)器翻譯(yì)應用中的主要難題,這也就是當(dāng)今機器翻譯係統(tǒng)的譯(yì)文質量離理(lǐ)想目標仍相差甚遠的原因之一;而譯文質量是機譯係統成敗的關鍵。中國數學家、語言學家周海中(zhōng)教授曾(céng)在**論文《機器翻譯五十年》中指出:要提高(gāo)機譯的(de)質量,首先要解決的是語言本身問題而不是程序設計問題;單靠若幹程序來做機譯係統(tǒng),肯定是無法提高機譯質量的;另外在人類尚未明了大腦是如何進行語(yǔ)言的模糊識別和邏輯判斷的情況下,機譯(yì)要想達到“信、達、雅”的程度是不可能的。