當前位置:吉日网官网 - 傳統節日 - 人工智能技術的應用:情緒分析概述

人工智能技術的應用:情緒分析概述

與其他人工智能技術相比,情感分析有些特殊,因為其他領域都是基於客觀數據進行分析和預測,但它有很強的個人主觀因素。情感分析的目標是從文本中分析人們對實體及其屬性的情感傾向和看法。這項技術最早的研究始於2003年Nasukawa和Yi的《商品評論》壹文。

隨著Twitter等社交媒體和電子商務平臺的發展,產生了大量的觀點,為情感分析提供了必要的數據基礎。如今,情感識別已經廣泛應用於許多領域。例如,在商品零售領域,用戶的評論對於零售商和制造商來說是非常重要的反饋信息。通過對海量用戶評論的情感分析,量化用戶對產品及其競品的好評和批評,從而了解用戶對產品的訴求以及自身產品與競品的對比。在輿論領域,通過分析公眾對社會熱點事件的評論,可以有效地把握輿論走向。在企業輿情方面,運用情感分析可以快速了解企業的社會評價,為企業的戰略規劃提供決策依據,提升企業在市場中的競爭力。在金融交易領域,分析交易者對股票等金融衍生品的態度,為市場交易提供輔助依據。

目前大部分人工智能開放平臺都具備情感分析能力。如圖,是博森中文語義開放平臺情感分析功能的演示。可見,除了壹般領域的情感分析,還有汽車、廚具、餐飲、新聞、微博等特定領域的分析。

那麽到底什麽是情感分析呢?從自然語言處理技術的角度來看,情感分析的任務是從評論的文本中提取評論的實體,以及評論者對實體表達的情感傾向。自然語言的所有核心技術問題,如詞匯語義、指代消解、吝嗇服務、信息抽取、語義分析等,都會用到情感分析中。所以情感分析被看作是自然語言處理的壹個子任務,我們可以把人的情感統壹到壹個五元組格式的實體目標上:(e,a,s,h,t)。

以圖片為例。e指餐廳,A指其性價比屬性,S指其性價比評價,H指評論者本人,T為65438+2009年7月27日。所以這個評論的情感分析可以表達為壹個五元組(某餐廳,性價比,正面好評,評論人,65438+2009年7月27日)。

情感分析根據文本處理的粒度大致可以分為三個層次的任務,即篇章級、句子級和屬性級。我們分開來看壹下。

1.語篇層面的情感分析

文本級情感分析的目標是判斷整篇文檔表達的是正面情緒還是負面情緒,比如壹篇書評或者對某個熱點時事新聞的評論。只要待分析的文本超出壹句話的範圍,就可以視為文本級的情感分析。

文本層面的情感分析有壹個前提,即整篇文本中表達的觀點只針對單個實體E,且只包含壹個觀點持有人h的觀點,這種做法將整篇文檔視為壹個整體,不研究文本中包含的具體實體和實體屬性,使得文本層面的情感分析在實際應用中相對受限, 並且無法單獨分析壹個文本中的多個實體,也無法區分文本中多個觀點持有人的觀點。

比如評價的文字是:“我覺得這款手機很棒。”評價者對手機整體表達的是正面評價,但如果是類似“我覺得這款手機的拍照功能很好,但信號不太好”這樣的句子,在同壹個評價中有正面詞和負面詞,無法通過文本層面的分析來區分,只能整體分析。

幸運的是,有很多場景是不需要區分意見評價的實體和意見持有人的。比如在商品評論的情感分析中,可以默認評論的對象是被評論的商品,評論的意見持有人也是評論者本人。當然這也要看被評論的商品是什麽。如果是親子旅遊等旅遊服務,那麽評論中很可能包含不止壹個意見持有人。

在實際工作中,文本層面的情感分析無法滿足我們更細致的評價。如果需要對評論進行更準確、更細致的分析,就需要對章節中的每壹句話進行拆分,這就是句子層面的情感分析問題。

2.句子級情感分析

與文本層面的情感分析類似,句子層面的情感分析的任務是判斷壹個句子表達的是積極的還是消極的情感。雖然粒度達到了句子層面,但是句子層面的分析和文本層面的分析有壹個相同的前提,即壹句話只表達壹種觀點和壹種情感,觀點持有人只有壹個。如果壹個句子包含兩個以上的評價或多個意見持有人的意見,句子級分析是不可區分的。好在現實生活中,大部分句子只表達壹種情感。

既然句子級情感分析的局限性和文本級是壹樣的,那麽句子級情感分析的意義何在?在這個問題上,我們需要解釋壹下語言學上主觀句和客觀句的區別。在我們的日常語言中,根據句子是否包含說話人的主觀感受,句子可以分為主觀句和客觀句,比如:“我喜歡這個新手機。”是表達說話人內心感受或觀點的主觀性句子,還有:“這個APP昨天更新了新功能。”它是壹個客觀句,陳述壹個客觀的事實信息,不包含說話人的主觀感受。通過區分壹個句子是否是主觀的,可以幫助我們過濾掉壹些不帶感情的句子,讓數據處理更加高效。

但在實際操作中,我們會發現這樣的分類方法似乎並不是特別準確,因為壹個主觀的句子可能並不表達任何情感信息,知識表達的是期望或猜測,比如:“我想他現在正在回家的路上。”這句話是主觀句,表達說話人的猜測,但不表達任何情緒。而客觀句也可能包含情感信息,表明說話人不希望這壹事實發生,例如,“我昨天剛買的新車被刮花了。”這句話是客觀句,但結合常識,我們會發現這句話其實包含了說話人的負面感受。

因此,僅僅通過句子的主客觀分類來篩選數據是不夠的。我們需要的是對壹個句子是否包含情感信息進行分類。如果壹個句子直接表達或暗示情感信息,則認為該句子包含情感觀點,沒有情感觀點的句子可以被過濾掉。目前針對句子是否包含情感信息的分類技術大多采用監督學習算法,需要大量的人工標註數據,基於句子特征對句子進行分類。

簡而言之,我們可以把句子級的情感分析分為兩步。第壹步是判斷待分析的句子是否包含觀點信息,第二步是對這些包含觀點信息的句子進行分析,找出情感傾向,判斷是正面還是負面。分析情感傾向的方法類似於文本層面,仍然可以通過監督學習或者根據情感詞詞典來處理,我們將在下面的章節中詳細解釋。

與文本級相比,句子級的情感分析更加細粒度,但只能判斷整體情感,忽略了被評價實體的屬性。同時也不能判斷比較情緒的觀點,比如:“產品A的用戶體驗比產品b好很多”,對於這樣壹句話表達多種情緒的句子,我們不能簡單地將其歸類為正面情緒或負面情緒,而是需要進壹步細化粒度,提取評價實體的屬性,並將屬性與相關實體關聯起來,這就是屬性級的情緒分析。

3.屬性級情感分析

上面介紹的文本層面和句子層面的情感分析,無法確切知道評價者的喜惡,同時也無法區分被評價實體的A屬性傾向於正面,B屬性傾向於負面的情況。但在實際的語言表達中,壹句話可能包含很多帶有不同情感傾向的意見,比如:“我喜歡這家餐廳的裝修風格,但飯菜的味道很壹般。”類似這句話,很難通過文本層面和句子層面的情感分析來理解對象的屬性層面。

為了在句子級分析的基礎上更加細致,我們需要從文本中尋找或提取評價對象的主題信息,根據文本的上下文判斷評價者對每個屬性表達的是正面還是負面的情感,這就是所謂的屬性級情感分析。屬性級情感分析重點關註被評價實體及其屬性,包括評價者和評價時間。目標是挖掘和發現評論對實體及其屬性的意見信息,從而生成壹個完整的關於目標實體及其屬性的五元組意見摘要。具體到技術層面,屬性層面的情感分析可以分為以下六個步驟:

文中實體抽取和引用解析的問題,在知識圖譜的相關章節已經介紹過了,這裏不再贅述。針對文本級、句子級和屬性級三類情感分析任務,人們做了大量的研究,提出了許多分類方法。這些方法大致可以分為兩種:基於詞典的學習和基於機器的學習。下面我們來詳細解釋壹下。

情感詞是承載情感信息的最基本單位。除了基本詞之外,壹些含有情感意義的短語和成語也統稱為情感詞。基於情感詞典的情感分析方法主要是基於壹個包含有標記情感詞和短語的詞典,其中包含了情感詞的情感傾向和情感強度。壹般正面情緒標為正數,負面情緒標為負數。

具體步驟如圖。首先對待分析文本進行切分,對切分後的結果進行預處理,去除停用詞、無用詞等文本數據。然後將分詞的結果與情感詞典中的詞進行匹配,根據詞典中標註的情感分值添加文本。最終的計算結果如果是規則的就是正面情緒,如果是負面的就是負面情緒,如果是0或者情緒傾向不明確的分數就是中性情緒或者沒有情緒。

情感詞典是整個分析過程的核心,情感詞標註數據的質量直接決定了情感分類的結果。在這方面,可以直接使用現有的開源情感詞典,如BosonNLP基於微博、新聞、論壇等數據源構建的情感詞典,知網情感詞典,臺灣省立大學簡體中文情感極性詞典(NTSUSD),snownlp框架詞典等。,同時也可以使用哈工大編寫的同義詞詞林擴展詞典。

當然,我們也可以根據業務需要,訓練自己的情感詞典。目前,情感詞詞典的構建方法主要有三種:人工方法、基於詞典的方法和基於語料庫的方法。對於情感詞的情感賦值,最簡單的方法是將所有積極情感詞賦值為+1,消極情感詞賦值為-1,最後相加得到情感分析的結果。

但這種分配方式顯然不符合實際需要。在實際的語言表達中,有許多表達可以改變情感的強度,最典型的是程度副詞。程度副詞有兩種。壹類能強化情感詞原有的情感,稱為情感強化詞。比如“很好”會比“很好”情感程度更強,“很好”會比“很好”情感程度更強。另壹個是情感弱化的詞。比如,雖然“不太好”也是壹種積極傾向,但情緒強度要比“好”弱很多。如果有強化詞,則需要在原賦值的基礎上增加情感分,如果有弱化詞,則需要降低相應的情感分。

另壹個需要註意的情況是負面的話。負面詞的出現,壹般會改變情緒詞原有的情緒傾向,變成相反的情緒。比如“壞”就是在“好”前面加上否定詞“不”,使之成為貶義詞。在早期的研究中,帶有否定詞的情緒詞是直接倒置的,即如果“好”的情緒傾向是+1,那麽“壞”的情緒傾向是-1。然而,這種簡單粗暴的規則並不能對應情感的真實表達。比如“太好”就是壹個比“好”有更強積極傾向的詞。如果“好”的值是+1,那麽“太好”就可以賦給+3,在-3上加上“不太好”這個否定詞顯然有點太貶義了。

基於這種情況,我們也可以給否定詞加上壹個賦值度,而不是簡單的取反數。對於表達強烈否定的詞,比如“沒那麽糟”,賦值正負4。與褒義詞組合時,褒義詞取負數,與貶義詞組合時取正數。比如貶義詞“醜”的賦值是-3,否定詞變成“沒那麽醜”時的情緒得分會是(-3+)

第三種需要註意的情況是條件詞。如果壹個條件詞出現在壹個句子中,很可能不適合進行情感分析,比如“如果明天我能去旅行,我會很開心。”這句話裏有明顯的感情用事的贊美之詞,但由於有條件詞“如果”,這句話並沒有表達意見持有人的真實感受,而是壹種假設。

除了條件句,還有壹種語言表達需要在數據預處理階段排除,那就是疑問句。比如“這家餐廳真的有妳說的那麽好嗎?”盡管句子中有壹個強烈的情感詞“太好了”,但它仍然不能被歸類為稱贊句。疑問句通常有固定的結尾詞,如“...?"或者"...?"但是有些題會省略結尾詞,用標點符號“?”直接。比如“妳今天不開心嗎?”這句話包含了由否定詞和肯定詞組成的“不開心”,但不能歸為貶義。

最後壹個需要註意的情況是轉折,典型的詞是“但是”,轉折前的情緒傾向通常與轉折後相反,比如“上次在這家酒店住得很好,這次卻很失望。”在這個轉折句中,轉折詞前的“很好”是強烈的褒義,而轉折詞後真正的情感表達是“很失望”,最後應該歸為貶義情感。當然也有出現轉折詞,但句子本身的情感沒有變化的情況。比如“妳這次考試比上次進步很大,但我覺得妳可以做得更好。”這裏的轉折詞沒有轉折的意思,是遞進的意思。在實際操作中,我們需要判斷哪個是轉折句的真實情感表達,才能做出正確的分析和計算。

構建情感詞典是壹項勞動密集型任務。除了上述問題之外,還存在準確率不高,難以快速將新詞、網絡用語收入詞典等問題。同時,基於詞典的分析方法也有很多局限性,例如,壹個句子可能有情感詞,但它不表達情感。或者壹個句子不包含任何情緒化的詞語,卻包含了說話人的感受。而且有些情感詞的含義會隨著語境的變化而變化。比如“聰明”這個詞,既可以作為褒義詞,也可以作為貶義詞來批評別人。

雖然目前存在很多問題,但是基於詞典的情感分析方法也有不可替代的優勢,即這種分析方法具有普適性。大多數情況下,文本中表達的情感不需要專門的領域數據標註就可以進行分析,可以作為壹般領域情感分析的首選。

在機器學習算法壹章中,我們介紹了許多分類算法,如logistic回歸、樸素貝葉斯、KNN等。這些算法都可以用於情感識別。和機器學習壹樣,具體方法需要分兩步。第壹步是根據訓練數據建立算法模型,第二步是將測試數據輸入算法模型並輸出相應的結果,然後做出具體的解釋。

首先,我們需要準備壹些用於訓練的文本數據,並根據情感分類對這些數據進行人工標註。壹般有積極意義和消極意義兩種分類的,積極意義標註為1,消極意義標註為0;如果有正面意義、負面意義、中性意義三種分類,正面意義標註為1,中性意義標註為0,負面意義標註為-65433。

在這個環節中,如果采用純手工的方式進行標註,可能會受到個人主觀因素的影響。為了避免人為因素的影響,提高標註效率,還有壹些別出心裁的方法來自動標註數據。比如在電商領域,除了文字數據,商品評論通常會有5星的評分。我們可以用用戶的5星評價作為評分依據,如果是1-2星,就標記為貶義,如果是3星,就標記為中性,4-5星就標記為正面。比如社區領域,很多社區會有贊和踩帖的功能,這些數據也可以作為情感標註的參考。

第二步,對標註有情感傾向的文本進行切分,並對數據進行預處理。前面已經有很多分詞的介紹了,這裏就不贅述了。第三步,從分詞結果中標註出具有情感特征的詞。特別是對情感進行分類,可以參考情感詞典進行標註,也可以使用TF-IDF算法自動提取文檔的特征詞進行標註。如果分析的是特定領域,需要標註特定領域的詞語,比如商品名稱、品類名稱、屬性名稱等等。第四步,根據分詞的統計詞頻構建詞袋模型,形成特征詞矩陣,如表所示。在這個步驟中,可以根據業務需要給每個特征詞賦予壹個權重,用詞頻乘以權重就可以得到特征詞得分。最後壹步是利用特征詞矩陣作為輸入數據,根據分類算法得到最終的分類模型。

在訓練分類模型之後,可以對測試集進行分類。具體過程類似於建模過程。首先對測試文本數據進行切分和預處理,然後根據特征詞矩陣提取測試文本的特征詞,構建詞袋矩陣,將詞袋矩陣的詞頻數據代入之前訓練的模型作為輸入數據進行分類,得到分類結果。

基於機器學習的情感分析有幾個缺點。第壹,各個應用領域在語言描述上的差異,導致訓練好的分類模型無法應用於其他領域,需要單獨構建。第二是最終的分類效果取決於訓練文本的選擇和正確的情感標註,而人對情感的理解是主觀的,如果標註出現偏差,會對最終結果產生影響。

除了基於字典和基於機器學習的方法,也有學者將兩者結合起來彌補兩種方法的不足,分類效果比單獨使用壹種方法要好。此外,壹些學者試圖使用深度學習方法如LSTM來分析情緒。相信在未來,情感分析會應用到更多的產品中,幫助我們更好的了解用戶需求,提升用戶使用智能產品的體驗。

隨著深度神經網絡等算法的應用,情感分析的研究方向取得了很大進展,但仍存在壹些未解決的問題,在實際操作中應特別註意以下類型的數據:

情感輪在用戶體驗設計中應用廣泛,很多情感設計都是基於情感輪。然而,在人工智能領域,情感的多分類比情感分析的三分類任務困難得多,大多數分類方法的準確率不到50%。這是因為情感本身包含的範疇太多,不同的範疇可能有相似之處。壹個情感詞在不同的語境下可能表達不同的情感類別,算法很難對其進行分類。即使人工給文本標註了情感類別,也往往效果不佳,因為情感是非常主觀的,不同的人對不同的文本可能有不同的理解,這使得人工標註情感類比的過程異常艱難。如何讓機器理解真實的情感,還是壹個沒有解決的問題。

  • 上一篇:壹套ERP管理系統大概需要多少錢
  • 下一篇:學習武術套路需要註意什麽?
  • copyright 2024吉日网官网