在非結構化數據中,文本量最大。雖然它占用的空間沒有圖片和視頻多,但是它的信息量是最大的。
為了能夠分析和使用這些文本信息,我們需要使用NLP技術,讓機器理解這些文本信息並加以使用。
每種動物都有自己的語言,機器也是!
自然語言處理是機器語言和人類語言之間的橋梁,以達到人機交流的目的。
人類通過語言交流,狗通過吠叫交流。機器也有自己的交流方式,也就是數字信息。
不同的語言無法相互交流。比如人類聽不懂狗叫,甚至不同語言的人也無法直接交流,需要翻譯來交流。
對於電腦來說更是如此。為了相互交流,人們讓所有的計算機都遵守壹些規則,而這些計算機的規則就是計算機之間的語言。
既然人類不同語言之間可以有翻譯,那麽人類和機器是否可以通過“翻譯”直接交流呢?
NLP是人類和機器之間的橋梁!
為什麽是“自然語言”處理?
自然語言是我們日常生活中常見的表達方式,也就是我們通常所說的“說人話”。
NLP有兩個核心任務:
自然語言理解是希望機器和人壹樣,擁有正常人的語言理解能力。因為理解自然語言有許多困難(下面將詳細描述),NLU還遠遠不及人類的表現。
自然語言理解中的五大難點;
如果妳想深入了解NLU,可以看看這篇文章《理解自然語言——NLU(基本概念+實際應用+3種實現方式)》。
NLG就是要跨越人機之間的交流鴻溝,將非語言格式的數據轉換成人類可以理解的語言格式,比如文章、報告等。
NLG的6個步驟:
如果妳想進壹步了解NLG,可以閱讀這篇文章《理解自然語言生成——NLG(6個實現步驟+3個典型應用)》。
情感分析
網上的短信很多,想表達的內容五花八門,但情緒都是壹樣的:積極/正面——消極/負面。
通過情感分析,可以快速了解用戶的輿情。
聊天機器人
以前只有Siri、蕭冰等機器人,大家使用的動力並不強,只是作為壹種娛樂方式。但是近年來智能音箱的快速發展,讓大家感受到了聊天機器人的價值。
而且隨著未來智能家居、智能汽車的發展,聊天機器人會有更大的使用價值。
語音識別
語音識別已經成為壹個國家的參考。微信可以把語音轉換成文字,車內導航可以直接說出目的地,老人也可以不用學拼音直接用輸入法說話…
機器翻譯
目前機器翻譯的準確率已經很高了,大家用谷歌翻譯就能明白文章大意。傳統的人肉翻譯很可能在未來失去工作。
NLP可以用傳統的機器學習方法或者深度學習方法來處理。兩種不同的方法也對應於不同的處理步驟。詳情如下:
模式1:傳統機器學習的NLP過程
模式2:深度學習的NLP過程
英語自然語言處理語料庫預處理的六個步驟
中文自然語言處理語料庫預處理的四個步驟
自然語言處理是機器語言和人類語言之間的橋梁,以達到人機交流的目的。
NLP的兩個核心任務:
NLP的五大難點:
自然語言處理的四個典型應用:
NLP的六個實施步驟:
百度百科版
自然語言處理是計算機科學和人工智能領域的壹個重要方向。它研究用自然語言實現人與計算機之間有效交流的各種理論和方法。自然語言處理是壹門集語言學、計算機科學和數學於壹體的科學。所以這方面的研究會涉及到自然語言,也就是人們日常使用的語言,所以和語言學的研究密切相關,但又有重要的區別。自然語言處理不是壹般的自然語言的研究,而是開發能夠有效實現自然語言交流的計算機系統,尤其是軟件系統。所以它是計算機科學的壹部分。
自然語言處理(NLP)是計算機科學、人工智能和語言學關註計算機與人類(自然)語言之間交互的壹個領域。
維基百科版本
自然語言處理(NLP)是計算機科學、信息工程和人工智能的壹個子領域,它涉及計算機和人類(自然)語言之間的交互,尤其是如何編程計算機來處理和分析大量的自然語言數據。自然語言處理中的挑戰通常涉及語音識別、自然語言理解和自然語言生成。