ocr識(shí)別引擎是什么? OCR引擎包含哪些部分?很多人知道ocr識(shí)別技術(shù),但是對(duì)于
ocr識(shí)別引擎并不是很了解,ocr識(shí)別引擎是ocr識(shí)別技術(shù)的核心,是ocr識(shí)別技術(shù)的關(guān)鍵,下面福昕全能王就來給大家相信介紹下吧。
ocr識(shí)別引擎是什么?
OCR引擎是指將OCR軟件的核心技術(shù)(不包含UI)整理成SDK(SOFTWARE DEVELOPMENT TOOLKIT)軟件開發(fā)包的形式,供各種應(yīng)用程序調(diào)用OCR核心技術(shù),開發(fā)OCR各種應(yīng)用軟件(如
文檔識(shí)別、名片識(shí)別、證件識(shí)別,車牌識(shí)別,移動(dòng)端識(shí)別應(yīng)用等)。
OCR引擎包含哪些部分?
OCR引擎核心技術(shù)模塊主要是由下面幾個(gè)部分組成:
圖像輸入:讀取不同圖像格式文件的算法。
圖像預(yù)處理:主要包括圖像二值化,噪聲去除,傾斜較正等算法
版面分析:將文檔圖片分段落,分行的算法就叫版面分析算法
字符切割:字符切割算法主要處理因字符粘連、斷筆造成字符難以簡(jiǎn)單切割的問題。
字符特征提?。簩?duì)字符圖像提取多維的特征用于后面的特征匹配模式識(shí)別算法。
字符識(shí)別:將當(dāng)前字符提取的特征向量與特征模板庫進(jìn)行模板粗分類和模板細(xì)匹配,識(shí)別出字符的算法。
版面恢復(fù):識(shí)別原文檔的排版,按原排版格式將識(shí)別結(jié)果輸出到word或pdf等格式文檔,叫做版面恢復(fù)算法。
后處理校正: 根據(jù)特定的語言上下文的關(guān)系,對(duì)識(shí)別結(jié)果進(jìn)行較正的算法。
OCR識(shí)別率受到哪些因素的影響?
1.圖片的質(zhì)量,一般建議150dpi以上。
2.顏色,一般對(duì)彩色識(shí)別很差,黑白的圖片較高,因此建議ocr的為黑白tif格式。
3.最重要的就是字體,如果是手寫識(shí)別率很低。
國內(nèi)
OCR識(shí)別簡(jiǎn)體差錯(cuò)率為萬分之三,如果要求更高的精度需要投入更大的人工干預(yù)。繁體識(shí)別由于繁體字庫的不統(tǒng)一性(民國時(shí)期的字庫和現(xiàn)在繁體字庫不統(tǒng)一),導(dǎo)致識(shí)別困難,在人工干預(yù)下,精度能達(dá)到90%以上(圖文清晰情況下)。
ocr識(shí)別引擎是什么? OCR引擎包含哪些部分?ocr識(shí)別引擎對(duì)于ocr識(shí)別技術(shù)來說很關(guān)鍵,通常分為圖像輸入、識(shí)別、校正等幾個(gè)方面,大家可以去福昕全能王官網(wǎng)上詳細(xì)了解哦。