0833-2303365

當前(qián)位置:
· 數字養豬解決方案
來源: | 作者:tpl-c50633d | 發布時間: 2020-10-23 | 305 次瀏覽 | 分享到:
(以下為臨時文案,您可自由進行(háng)更換)自然語(yǔ)言處理是計算機科學領域(yù)與人工智能(néng)領域中的(de)一(yī)個重要方向。它研究能實現人(rén)與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一(yī)門融語言學、計算機科學、數學於一體的科(kē)學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯係,但(dàn)又有重要的區別(bié)。自然語言處理並不是一般地研究自(zì)然(rán)語言,而在於研製能有效地實現自然語言通信的計算機係統,特別是其中(zhōng)的(de)軟件係統。因而它是計算機科學的一部分。
自然語言處理(NLP)是計算機科學(xué),人工智能,語言學關注計算機和人類(自然(rán))語言之間(jiān)的相互作(zuò)用的領域。

語言是人類區別其他動物的本質特性(xìng)。在所有生物中,隻有人類才具有語言能力。人類的多種智能都與語言有著密切的關係。人類的邏輯思維以語言為形式,人類的絕大部分知識也是以語(yǔ)言文字的形式記載和流傳下來的(de)。因而,它(tā)也(yě)是人工智能的一個重要,甚至核心部分。
用自然語言與計算機進行通(tōng)信,這(zhè)是人們長期以來(lái)所追求的。因為它既有明顯的實(shí)際意義,同時也(yě)有重要的理論意義:人們可以用自己較習慣的語言來(lái)使用(yòng)計算機(jī),而無需再花大量的時間和精力去學習不很自然(rán)和習慣的各種計算機語言;人們也可通過它進一步了解(jiě)人類的(de)語言能力(lì)和(hé)智能的機製。
實(shí)現人(rén)機間自(zì)然語言通信意味(wèi)著要使計算機既能理解自然語言文本的意義,也能以自(zì)然語言文本來表(biǎo)達給(gěi)定的意圖、思想(xiǎng)等。前者稱為自然語言(yán)理解,後者稱為自然語言生成。因此,自然語言處理大體包括了自然語言理解和自(zì)然(rán)語言生成(chéng)兩(liǎng)個部分。曆(lì)史上對自然語言理解研究得較多,而對自(zì)然語言生成研究得較少。但這種狀況已有所改變。
無論實現自然語言理解,還是自然語言生(shēng)成,都遠不如人們原來想象的那麽簡單,而是**困難的。從(cóng)現有的(de)理論和技術現狀看,通用的(de)、高質量的自然(rán)語言處(chù)理係統,仍然是較長期的努力(lì)目標,但是針對(duì)一定應用(yòng),具有相當自然語言處理(lǐ)能(néng)力的實用(yòng)係統已經出(chū)現,有些已商品化,甚至開始產業化。典型的(de)例子有:多(duō)語種數據庫和專家係統的(de)自然語言接口、各種機器翻譯係統、全文信息檢索係統、自動文摘係統等。
自然語言處理,即實現人(rén)機間自然語言通信,或實現自然語言(yán)理解和自(zì)然語言生成是**困難的。造成困難的根本原因是自然(rán)語言文本和對話的各個層次上廣泛存在的各種各樣的歧義性或多義性(ambiguity)。
一個中文文本從形式上看是由漢字(包括標點符號等)組成的一個字符(fú)串。由字可組成詞(cí),由詞可組成詞組(zǔ),由詞組可組成句子,進而由一些句子組成段、節、章、篇。無論在上述的各種層次:字(符(fú))、詞、詞組、句(jù)子、段,……還是在下一層(céng)次向上一層次(cì)轉變中都存在(zài)著歧義和多義現象,即形式(shì)上一樣的一段字符串,在不同的場景或不同的語境下,可以理解成(chéng)不同的詞串、詞組串等,並有不同的意義。一(yī)般情況下,它們中的大多數都是可以根據(jù)相(xiàng)應的語境和場景的規定而得到解決的。也就(jiù)是說,從總體上說,並不存(cún)在(zài)歧義。這也就是我(wǒ)們平時並不感(gǎn)到自然語(yǔ)言(yán)歧(qí)義,和(hé)能用自然語言進行正確交流的原因。但是一(yī)方麵,我們也(yě)看到,為了消解歧義,是需要極其大量的知識和進行推理的。如何將(jiāng)這些知識較完整地加以收集和(hé)整理出來;又如(rú)何找到合適的形式,將它們存入計算機係統中去;以(yǐ)及如何有效地利用它們來消除歧義,都是工作(zuò)量極大且**困難的工作。這不是少(shǎo)數(shù)人短時期內可以完成的,還有待長期的、係統的工作。
以上說的是(shì),一個中文文本或一個漢字(含標點符號等)串可能有多個含義(yì)。它是自然語言理解中的主要困難和障礙。反過(guò)來,一個相(xiàng)同或相近的意義同樣可以用多個中文文(wén)本或多(duō)個漢字串來表示。
因此,自然語言的(de)形式(字符串)與其意義之間(jiān)是一種多對(duì)多的關係。其實這也正是自然語言的魅力所在。但從(cóng)計算機處理的角度(dù)看,我們(men)必須消除歧義,而且有人認為它正(zhèng)是自然語言理解中的中心問題,即(jí)要把帶有潛在歧義的自然語言輸(shū)入(rù)轉換成某種無歧(qí)義的計算機內部表示。
歧義(yì)現象的廣泛(fàn)存(cún)在(zài)使(shǐ)得消除它們需要大量的知識和推理,這就給基於語(yǔ)言學的方法、基於知識的方法(fǎ)帶來了巨大的困難,因而以這些(xiē)方法為主流的自然(rán)語言處理研究(jiū)幾十年來一方麵在(zài)理論和方法方麵取得了(le)很多成就,但在(zài)能(néng)處理大規模真實文本的係統研製方麵,成績並不(bú)顯著(zhe)。研(yán)製(zhì)的一些係統大多數是小(xiǎo)規模的、研究性的演示係(xì)統。
目前存在的問題有兩個方麵:一方麵(miàn),迄今為止的語(yǔ)法都限於分(fèn)析(xī)一個孤立的句子,上下文關係和談話(huà)環境對本句的約束和影響還缺乏係統的研究,因此分析歧義、詞語省(shěng)略、代詞所指、同一句話在不同場合或由不同的人說出(chū)來所具(jù)有(yǒu)的不同含義等問題,尚無明確規律可循,需要加強語用學的研究才能逐步解(jiě)決。另一方麵,人理解一個句子不是單憑語法,還運用了大量的有關(guān)知識,包括生活知識和專門(mén)知識,這(zhè)些(xiē)知(zhī)識無法全部貯存(cún)在計(jì)算機裏(lǐ)。因此一個書(shū)麵理解係統隻能建立在有限的詞匯、句型和特定的主題範(fàn)圍內;計算機的貯存量和運轉速度大大提高之後,才有可能適當擴(kuò)大範圍.
以上(shàng)存在的問題成為自然語言理解在機(jī)器翻譯應用中的主(zhǔ)要難題,這也就是當(dāng)今機器翻譯係統的譯文質量離(lí)理想目標仍相差甚遠的原因之一;而(ér)譯文(wén)質量是機譯係統成敗(bài)的關鍵。中國數學家、語言學家周海(hǎi)中教授曾在**論文《機器翻譯五十年》中指出:要提高機譯的質量,首先要解(jiě)決的是語言本身問題而不是程序設計(jì)問(wèn)題(tí);單靠若幹程序(xù)來做機譯係統,肯定(dìng)是無法提高(gāo)機譯質量的;另外在人類尚未明了大腦是如何進(jìn)行語(yǔ)言的模糊識別和邏輯判斷的(de)情況下,機譯要想(xiǎng)達到“信、達、雅”的程度是不可能的。
麻豆md0049免费_麻豆传媒网站_麻豆福利视频_麻豆精品_麻豆免费入口_麻豆视频官网_麻豆视频网_麻豆视频在线免费观看_麻豆网站在线_免费观看www成人A片麻豆_午夜久久无码成人免费AV麻豆婷_豆麻视频在线免费观看