當前位置:吉日网官网 - 傳統美德 - OCR概述

OCR概述

OCR技術作為機器視覺領域壹個非常重要的研究方向,涉及到各個應用領域。現在各種應用領域都出現了很多產品,包括卡片識別、票據識別、文本信息的結構化視頻識別、自然場景中的文本識別等等。本文主要從數據和算法兩個方面總結OCR的成熟解決方案。

深度學習算法非常依賴數據的數量和質量,OCR也不例外。在壹般的OCR任務中,不僅需要識別具體的文本內容,還需要識別文本的具體位置,甚至需要對識別信息進行結構化的組織,所以圖像數據中的監管信息包括文本位置的坐標和對應的文本內容。通常標註數據的來源分為兩類:人工標註和程序(模型)自動生成。

壹般人工標註的成本比較高,需要先搭建壹個合適的標註平臺。好在github上有幾個針對目標檢測任務的開源標註平臺可供選擇(參見十個最常用的深度學習圖像/視頻數據標註工具或者深度學習圖像標註工具總結)。其次,打造專業的標註團隊,尤其是涉及垂直領域的任務。此外,還應設計數據質量監控機制,如標記數據的交叉驗證。

自動生成的數據數據量大,成本低。唯壹需要擔心的是生成的數據分布與真實的數據分布有明顯的不同。對於文本檢測和文本識別,目前的數據生成方案基本上都是模擬真實背景,平滑嵌入文本內容。

那麽標註或生成多少數據合適呢?當然,高質量的數據越多越好。如果非要給個下限的話,壹般的文字檢測任務的圖片數據量是壹萬張,文字識別任務有壹百萬張。

整體的OCR識別算法壹般分為兩部分:文字檢測和文字識別。

文本檢測與目標檢測算法的發展密切相關。目前,主流的目標檢測算法分為兩類:

普通的目標檢測算法對於壹般的文本檢測是不準確的。主要原因包括大部分文字沒有閉合邊緣,文字行方向隨意,文字排列不規則。需要根據文本的結構和分布特點對檢測模塊進行優化,包括CTPN、SegLink、Rotation RPN、Textboxes等。

文本識別模型壹般分為特征提取器(編碼器)和解碼器。

目前針對不同的識別場景都有相應的算法優化方案,模型擬合能力也有了長足的進步。與算法相比,如何獲取高質量的數據極大地影響著整個OCR項目的成敗。打通整個數據鏈將是深度學習項目的關鍵,也將成為企業的核心競爭力。

  • 上一篇:華佗的“五禽戲”模仿了哪五種動物?
  • 下一篇:pe估值是什麽意思?
  • copyright 2024吉日网官网