0833-2303365

當前位(wèi)置:
· 大(dà)數(shù)據平台
來源: | 作者:tpl-c50633d | 發布時間: 2020-10-23 | 317 次(cì)瀏覽 | 分享(xiǎng)到:
(以下為臨時文案,您(nín)可自由進行更換)自然語言處理是計算機科學領(lǐng)域(yù)與人工智能領域(yù)中的一個重要方向。它(tā)研究能實現人(rén)與計算機之間用自然語言進行有效通信的各種理論和(hé)方法。自然語言處理是一門融語言(yán)學、計算機科(kē)學、數(shù)學於一體的科學。因此,這一領域的研究(jiū)將涉及自(zì)然語言,即人們日常使用的語(yǔ)言,所以它與語言學的研究有著(zhe)密切的聯係,但又有重要的區(qū)別。自然語言處理並不是一般地研究自然語言,而在(zài)於研製(zhì)能有效地實現自然(rán)語言通信的計算機係統,特別是其中的軟件(jiàn)係統。因而它是計算機科(kē)學的一部分。
自然語言處理(NLP)是計算機科學,人工智能,語(yǔ)言學關注計算機(jī)和人類(lèi)(自然)語言之間的相互作用的領域。

語言是人類區別其他動物的本質特性。在所有生物中,隻有人類才具有語言能力。人類的(de)多種智能都與語言有著密切的關係。人類(lèi)的邏(luó)輯思維以語言(yán)為形(xíng)式(shì),人類的(de)絕大部分知識也是以語言文字的形式記載和流傳下來的。因而,它也是人工智能的一個重要,甚至核心部分(fèn)。
用自然語言與計算機進行通信,這(zhè)是人們長期(qī)以來所追求的。因為它既有明顯的實際意義,同時也有重要的理論(lùn)意義:人們可以用自己較習慣的語言來使用(yòng)計算機,而無(wú)需再(zài)花大量的時間和精(jīng)力去學(xué)習不很自然和習慣的各(gè)種計算機語言;人們(men)也可通過(guò)它進一步了解人類的語(yǔ)言能力和智能的機製。
實現(xiàn)人機(jī)間自(zì)然語言通信意味著要使計算機既能理解自然語言(yán)文本的意義,也(yě)能以自然語言文本來表達給定的意圖、思想等。前(qián)者(zhě)稱為自然(rán)語言理解,後者稱為自然語言生成(chéng)。因此,自(zì)然語言處理大體包括了自然語言理解和自然語言(yán)生成兩個部分。曆史上對自然語言理解研究得(dé)較多,而對自然語言生成研究得較少。但這種狀況(kuàng)已有所改(gǎi)變(biàn)。
無論實現自然語言理解(jiě),還是自然語(yǔ)言生成,都遠不(bú)如人們原來(lái)想象的那麽簡單,而是**困難的。從現有的理論和技術現(xiàn)狀看,通用的、高質量的自然語言處理係統,仍然是較長(zhǎng)期的努力目標(biāo),但(dàn)是針對一定(dìng)應用,具有相(xiàng)當自然語言處理能力的(de)實用係統已經出現,有些已商品化(huà),甚至開始產業化。典(diǎn)型的例子(zǐ)有:多語(yǔ)種數(shù)據庫和專家係統的自然語言接(jiē)口、各種機器翻譯係(xì)統、全文信息檢索係統、自動文摘係統等。
自然語言(yán)處理,即實現人機間自然語言通信,或實現(xiàn)自然(rán)語言理解和自然語(yǔ)言生成是**困難(nán)的(de)。造成(chéng)困難的根本原因是自然語言文本和對話的各個層次上廣泛存在的各種各樣的歧(qí)義性或多義性(ambiguity)。
一個中文文本(běn)從形(xíng)式上看是(shì)由漢字(包括標點符號等)組成的一個字符串(chuàn)。由字可組成(chéng)詞(cí),由詞可組成詞(cí)組,由詞組可組成句子,進而由一些(xiē)句子組成段、節、章、篇。無(wú)論在上述的各種層(céng)次:字(符)、詞、詞組、句子、段,……還是在下一層次向上一層次轉變中都存(cún)在(zài)著歧義(yì)和多義現象,即形式上一樣的(de)一段字(zì)符串(chuàn),在不同的場(chǎng)景或不同的語境下,可以理解成不同的詞串、詞組串等,並有不同的(de)意義。一般情況下,它們中的大多數都是可(kě)以根據(jù)相應的語境和場景的規定而得(dé)到(dào)解決的。也就是說,從總體上說,並不存在歧義(yì)。這也就是(shì)我們平時並不感到(dào)自然語言歧義,和能用自然語言進行正確交流的原因。但(dàn)是一方麵,我們也看到,為了消(xiāo)解歧(qí)義,是需要極其大量的(de)知識(shí)和進行推(tuī)理的。如何將(jiāng)這些(xiē)知(zhī)識較完整地加(jiā)以收集(jí)和整(zhěng)理出來;又(yòu)如何找到合適的形式,將它(tā)們存入計算機係統(tǒng)中(zhōng)去;以及如何有效地利(lì)用它們來消除歧義,都是工作量極大且**困難的工作。這不是少數人短時期內(nèi)可以完成的,還有待長期的、係統的工作。
以上說的是,一個中文文本(běn)或一個漢字(含標點符號等)串可能有多個含義。它是自然語言理(lǐ)解中的主要困難和障礙。反過來(lái),一個相同或相近的意(yì)義同樣可以用多個中文文本或多個漢字串來(lái)表(biǎo)示。
因此,自然語言的形式(字符串)與其意義(yì)之間是一種多對多的關係(xì)。其實這也(yě)正是自然語言的魅力所在。但(dàn)從計算機處理的角度看,我們必(bì)須消除歧義(yì),而且有人認為它(tā)正是自(zì)然語言理(lǐ)解中(zhōng)的(de)中心問題,即要把帶有潛在歧義的自然語言輸入轉換成某種無(wú)歧義的計(jì)算機內部表示。
歧(qí)義現象的廣泛存在使(shǐ)得消(xiāo)除它們需要大量的知識和推理,這就給(gěi)基於語言學的方(fāng)法、基於知識的方法(fǎ)帶來了巨(jù)大的(de)困難,因而以這些(xiē)方(fāng)法(fǎ)為主流的自然語言處理研究幾(jǐ)十年來一方麵在理論和方法方麵取得了很多成就,但(dàn)在能處理大(dà)規模真實文本(běn)的係(xì)統研製方麵,成績並不顯著。研製的一些係(xì)統大多數是小(xiǎo)規模的、研究性的演示係統。
目前(qián)存在的問(wèn)題(tí)有(yǒu)兩個方麵:一(yī)方麵,迄今為止的(de)語法都限於分析一個孤立的(de)句子,上(shàng)下文關係和談話環境對本句的約束(shù)和影(yǐng)響還缺乏係統的研究,因此分析歧義、詞語省略、代詞(cí)所指、同一句話在不同場(chǎng)合或由不同的(de)人說出(chū)來所具有的不同含(hán)義等問題,尚無明確規律可循,需要加強語用學的研究才能逐步解決。另一方麵,人理解一個句子不是單憑語法,還運用了大量的(de)有關知識,包括生活知識和專門知識,這些知識無法全部貯存在計算機裏。因此一個書麵理解係統隻能建立在(zài)有限的詞匯、句型和特定的主題範圍內;計(jì)算機的貯存量(liàng)和運轉速度大(dà)大提高之後,才有可能適當擴大範圍.
以上存在的問題成為自然語言(yán)理解在機器(qì)翻譯應用中的主要難(nán)題,這也就是當今機器翻譯係統的譯文質量離理想目標仍相(xiàng)差甚遠的原因之一;而譯文質量是機譯係統成敗的關鍵。中國數學家(jiā)、語(yǔ)言學家周海(hǎi)中教授曾(céng)在**論文《機器翻譯五十年》中指出(chū):要提高機譯的質量,首先要解決的是語言本(běn)身問題而不是程序設計問題;單靠若幹程(chéng)序來做機(jī)譯係統,肯定是無法提高機譯(yì)質量的;另外在人類尚未明了大腦(nǎo)是如何進行語言的模糊識別和邏輯判斷(duàn)的(de)情況下,機譯要想達到“信、達、雅”的程度(dù)是不可能的。
麻豆md0049免费_麻豆传媒网站_麻豆福利视频_麻豆精品_麻豆免费入口_麻豆视频官网_麻豆视频网_麻豆视频在线免费观看_麻豆网站在线_免费观看www成人A片麻豆_午夜久久无码成人免费AV麻豆婷_豆麻视频在线免费观看