1.財險:可自動填寫投保書、理賠申請表、醫療證明、合同審核。
2、大健康:公關發布資料、疾病處方審核、醫學論文、藥品說明書關鍵信息提取。
3.零售:產品說明對比,產品包裝糾錯;運輸單據的信息提取。
4.制造業:發票、采購和銷售訂單、運輸物流單和合同審查。
關鍵技術:
用向量空間模型描述文本。將非結構化文本轉換為結構化文本。
為什麽不用詞頻統計和分詞算法?因為這兩種方法得到的特征向量的維數都很大,而且後期向量處理的代價也很大,不利於後期的分類和聚類。
主流的方法是用特征詞來表示文本,特征詞必須滿足以下要求:能夠識別文本的內容,能夠區分其他文本,不要太多,容易實現。
特征詞選定後,要有相應的權重來表示不同的影響,最好能排序。