0833-2303365

當前位置:
· 數據治理
來源: | 作者:tpl-c50633d | 發布時間: 2020-10-23 | 784 次瀏覽 | 分享到:
(以(yǐ)下為臨時(shí)文案,您可自由進行更換)自(zì)然語言處理是計算機科學(xué)領域(yù)與(yǔ)人工智能(néng)領域中的一個(gè)重要方向。它研究能實現人與計(jì)算機(jī)之間用自然(rán)語言進行(háng)有效(xiào)通信的各種理論(lùn)和方法。自(zì)然語言處理是一門融語言學、計算機科學、數學於一(yī)體的科學(xué)。因此,這一領域的(de)研究將涉及自(zì)然語言,即人們日常使用的語言,所以它與語言學的(de)研究有著(zhe)密切的聯係,但又有重要的區別。自然語言處理並不(bú)是一(yī)般地研究自然語言,而在於研製能有效地實(shí)現自然語言通信的計算機係統,特別是其中的軟件係統(tǒng)。因而它是計算機科學的(de)一部分。
自然(rán)語言處理(NLP)是計算機科學,人工智能,語言學關注計算(suàn)機和人類(自然)語言之間的相互作(zuò)用的領域。

語言是人(rén)類(lèi)區別其他動物的本質特性。在所有生物中,隻有人類才具有(yǒu)語言(yán)能力。人類的多種智能都與(yǔ)語言有著密切的關係。人(rén)類的邏輯思維以(yǐ)語言為形式,人類的絕大部分知(zhī)識也是以語言文字的(de)形式記載和流傳下來的。因(yīn)而,它也是人工智能的(de)一個重(chóng)要(yào),甚至核心部分。
用自然語言與計算機進行通信,這(zhè)是人們長期以來所追求的。因為它既有明顯的實際(jì)意義,同時也有重要的理論意義:人們(men)可以用自己較習慣的語言來使用計算機(jī),而無需再花大量的時間和精力去學習不很自然和習慣的各種計算機語言;人們也(yě)可通過它進一步了解人類(lèi)的(de)語言(yán)能力和智能(néng)的機製。
實現人機間(jiān)自然語言通信意(yì)味著要使計算機既(jì)能理解自然語言文本的意(yì)義,也能(néng)以(yǐ)自然語言文本(běn)來表達給定(dìng)的意圖、思想等。前者稱為自然語言理解,後者稱(chēng)為自然語言生成。因此,自然語言處理大體包括了自然語言理解和(hé)自然語言生成(chéng)兩個部分。曆史上對自然語言理解研究得較多,而對自然語言生成研究得較少。但這種狀況已有所改變。
無論實現自然(rán)語言理解,還是自然語言生(shēng)成,都遠不(bú)如人(rén)們原來想象(xiàng)的那麽(me)簡單,而是**困難的。從現有的理(lǐ)論和技術現狀看,通(tōng)用的、高質(zhì)量的自然語言處理係統,仍然是較長期的努力目標,但是針對一定(dìng)應用,具有相當自然語言處理能力的實用係統已經出(chū)現,有些已商品化(huà),甚至開始(shǐ)產業化。典型的例子有(yǒu):多語種數據庫和專家係統的自然語言接口、各種機器翻譯係統、全文(wén)信息檢索係統、自動文摘係統等。
自然(rán)語(yǔ)言處理,即實現人機間自然(rán)語言通(tōng)信(xìn),或實現自(zì)然語言理解和自然語言生成是**困難的。造成困(kùn)難的根本原因是自然語言文本和對話的(de)各個層次上廣泛存在的各種各樣的歧義(yì)性或多義性(ambiguity)。
一個中文文本(běn)從形式上看是(shì)由漢字(包括標點符號等)組成的一個字符串。由(yóu)字可組成詞,由詞可組成詞組(zǔ),由詞組(zǔ)可組成(chéng)句子,進而(ér)由一些句子組成段、節、章、篇。無論在(zài)上述的各種層次:字(符)、詞、詞組、句子、段,……還是在下一層次向上(shàng)一層次轉變中都存在著歧義和多義現象,即形式上一樣的一段字符串,在不同的場景或不(bú)同(tóng)的語(yǔ)境下,可以理解成不同的詞串、詞組串等,並有不同的意義。一般情(qíng)況下,它們(men)中的(de)大多數都是可以(yǐ)根據相應的語(yǔ)境和場景的規定而得到解決的。也就是說,從總體上說,並不(bú)存在歧義。這也就是我(wǒ)們平時並不感到自然語言歧義,和能用自然語言進(jìn)行正確(què)交流的原因。但是一方麵,我們也看到,為(wéi)了消解歧義,是需要極其大量的知識和進行推理的。如何將這些知識(shí)較完整地加以收集和整理出(chū)來;又如何找到合(hé)適的形式,將它們存入(rù)計算機係(xì)統中去(qù);以及如何有(yǒu)效地利用它們(men)來消除歧義,都是工作量極大(dà)且**困難的工作。這不是少數人短時期(qī)內可以完成的,還有待長期的(de)、係統的工(gōng)作。
以上說的是(shì),一個中文文本或一個漢(hàn)字(含(hán)標點符號等)串可能有多個含義。它(tā)是自然語言理解(jiě)中的主要(yào)困(kùn)難和障礙(ài)。反過來,一個相同或(huò)相近的(de)意義(yì)同樣可以用多個中文文本或多個漢字串來表示。
因此(cǐ),自然語言的形式(字(zì)符串)與其意義之間(jiān)是一種多對多的關係。其實這也正是自然語言的魅力所在。但從計(jì)算機處理的角度看,我們必須消除歧義,而且有人認為它正是自(zì)然語(yǔ)言理(lǐ)解中的中心問題,即要把帶有潛在歧義的自然語言輸入轉換成(chéng)某(mǒu)種無歧義的計算(suàn)機內部表示。
歧義現(xiàn)象的廣泛存在使(shǐ)得消除它(tā)們需要大量的知識和推理,這就給基於語言(yán)學的方法、基(jī)於知識的方法帶來了(le)巨(jù)大的困難,因而以這些方法為主流的自然語言處理研究幾十(shí)年來一方麵在理論和方法(fǎ)方麵取(qǔ)得了很多成就,但在能處理大規模真實文本(běn)的係統研製方麵,成績並不顯著。研製的一些係統大(dà)多數是小規模的、研究性的演示係統。
目前存在的問題(tí)有兩個方麵:一方麵(miàn),迄今為止的語法都限於分析一個孤立的句子,上下文關係和談話環境對本句的約束和影響還缺乏係統的研究,因(yīn)此分析歧(qí)義、詞語省(shěng)略、代詞(cí)所指、同(tóng)一句(jù)話在不同場合或由不同的人說出(chū)來所具有的不同含義等問題(tí),尚無明確(què)規律可(kě)循,需要加強語用學的研究才能逐(zhú)步解決(jué)。另一(yī)方麵,人理(lǐ)解一個句子不是單(dān)憑語法,還運用了大量的(de)有關(guān)知識,包(bāo)括(kuò)生活知(zhī)識和專(zhuān)門知識,這些知識無法(fǎ)全部貯存在計算機裏。因此一個書麵理解係統隻能建立在有限的(de)詞匯、句型和(hé)特定的(de)主題範圍內;計算機的貯存量和運(yùn)轉速度大大提高之後,才(cái)有可能適當擴大範圍.
以(yǐ)上存在的問題成(chéng)為自然語言理解在機器翻譯應用中的主要難題,這也就是當今機器翻譯係統的譯文質量離理想(xiǎng)目標仍相差甚遠的原因之(zhī)一;而譯文質量是機(jī)譯係統(tǒng)成敗的關鍵。中國數學家、語言學(xué)家周海中教授曾(céng)在**論文《機器翻譯五(wǔ)十年》中指出:要提高機譯的質量,首先要解決的是語言本身問題而(ér)不是程序設計問題;單靠若幹程(chéng)序來做機譯係統,肯定(dìng)是無法提高機譯質量的;另外在人類尚未明了大腦是如何進行(háng)語言的模(mó)糊識別和邏輯判斷的情況下,機(jī)譯要想達到“信、達、雅”的程度是不可能的(de)。
麻豆md0049免费_麻豆传媒网站_麻豆福利视频_麻豆精品_麻豆免费入口_麻豆视频官网_麻豆视频网_麻豆视频在线免费观看_麻豆网站在线_免费观看www成人A片麻豆_午夜久久无码成人免费AV麻豆婷_豆麻视频在线免费观看