博奧智能通過領先的深度學習技術,對各種表格,圖片,文檔、證件、面單等多種通用場景、多種語言的文字進行快速、精準的檢測和識別,適用于印刷體、手寫體、傾斜、折疊、旋轉等場景的通用文本識別 、通用文字識別,提供定制開發服務。
OCR全稱是Optical Character Recognition,意思是“光學字符識別技術”,是最為常見的、也是目前最高效的文字掃描技術,它可以從圖片或者PDF中識別和提取其中的文字內容,輸出文本文檔,方便驗證用戶信息,或者直接進行內容編輯。
典型的OCR技術路線分為5個大的步驟,分別是輸入、圖像與處理、文字檢測、文本識別,及輸出。每個過程都需要算法的深度配合,因此從技術底層來講,從圖片到文字輸出,要經歷以下的過程:
1. 圖像輸入:讀取不同圖像格式文件;
2. 圖像預處理:主要包括圖像二值化,噪聲去除,傾斜校正等;
3. 版面分析:將文檔圖片分段落,分行;
4. 字符切割:處理因字符粘連、斷筆造成字符難以簡單切割的問題;
5. 字符特征提取:對字符圖像提取多維特征;
6. 字符識別:將當前字符提取的特征向量與特征模板庫進行模板粗分類和模板細匹配,識別出字符;
7. 版面恢復:識別原文檔的排版,按原排版格式將識別結果輸出到文本文檔;
后處理校正: 根據特定的語言上下文的關系,對識別結果進行校正