詞是可以獨立運動的最小的有意義的語言成分。英語單詞以空格為自然分隔符,漢語以單詞為基本書寫單位,單詞之間沒有明顯的區分標記。因此,中文分詞是中文分詞的基礎和關鍵。中文和英文都有分詞的需求,但相比較而言,英文單詞有空格可以分詞,處理起來相對方便。但是因為中文沒有分隔符,所以分詞的問題更重要。基於詞典的最長串匹配常用於分詞,據說可以解決85%的問題,但是歧義分詞比較困難。比如“美國將通過對臺軍售法案”,可分為“美國/國會/臺灣軍售法案”和“美國/國會/臺灣軍售法案”。
中文分詞技術可以分為三類:
在基於機器學習的方法中,往往需要標註單詞的詞性。詞性壹般指動詞、名詞、形容詞等。標註的目的是表示壹個詞的隱藏狀態,隱藏狀態的轉換構成了壹個狀態轉換序列。比如:我/r愛/v京/ns天安門/ns。其中ns代表名詞,v代表動詞,ns和v都是標簽,以此類推。
詞性作為詞的概括,在語言識別、句法分析、信息抽取等任務中起著重要的作用。
/s/qjpozo 8 mt 17 mtnc 7 eft 8 NQ
上一篇:寫家鄉欽州農產品的作文下一篇:冷軍作品有哪些呢?