Penpower

服務內容 ‹ 技術授權

光學文字辨識

 

在資訊爆炸的時代,一般人常常會需要閱讀大量的報章雜誌與書籍,遇到覺得值得保留的文章段落,或是重點佳句時,不是用筆標記下來,就是影印存檔,而對於數位工作者來說,可能會在閱讀完資料之後,再重新Key-in到電腦中歸檔,不但費力且耗時。

 

蒙恬科技自行研發的智慧型光學辨識技術,為需要處理大量書籍剪報的數位工作者以及企業用戶,提供即時辨識輸入解決方案。只要透過一般桌上型掃描器搭配蒙恬OCR辨識軟體認識王,或透過蒙恬筆式掃描輸入工具超級掃譯筆、迷你掃譯筆,即可將想保存的文件立即辨識到電腦中,文件將會以『圖文重現』的方式直接呈現,使用者可以迅速於軟體中編輯文件,甚至進行文件翻譯與語音朗讀文件等功能。

 

目前的光學辨識技術運用的領域已十分廣泛,像是圖書館大型文獻資料與剪報、企業內部文件等皆需要透過數位化的方式加以保存與管理。此外,像是電子表單、入學考試電腦卡與海關身份證確認等,皆可透過智慧型光學辨識技術,不但能精準辨識資料,更能省下大量資料比對與查核的人力與時間。

 

  • 功能介紹
  • 流程架構
  • 應用領域

功能介紹

光學文字辨識通常簡稱為『OCR』是英文Optical Character Recognition的縮寫。主要用途是針對既有書面的文件進行文字識別的工作。

 

首先文件需先透過平臺型掃描器或掌上型掃描器,將欲掃描的文件圖像先行掃描成圖形格式檔。由於輸入文件的表面可能不乾淨,或是掃描器本身掃描時造成失真現象,將可能使輸入的影像存在一些汙點或獨立點,因此在進行文字辨識前,光學文字辨識軟體會先針對掃描之文件進行傾斜校正、擦拭影像雜點或彩色處理。

 

接著光學文字辨識軟體會進行智慧型圖文分離的動作,先進的核心技術會將文件中所有的文字、圖形和表格分離出來,並且針對文件中部份文字筆劃不連接的情況,正確地文字切割或合併。

 

再來光學文字辨識軟體將進行文件辨識的工作,透過蒙恬領先的光學文字辨識核心技術,將迅速於文字資料庫中進行文字比對,並同時透過中文校正功能,進行詞庫、前後文相關字詞等再確認,最後精準的將辨識結果輸出。使用者若使用OCR辨識軟體認識王,可以指定辨識結果以中文繁體或簡體字輸出,並直接將辨識後結果儲存為Word、Excel、HTML、PDF、純文字等格式之檔案;或是使用筆式掃描輸入工具超級掃譯筆、迷你掃譯筆同步將掃描辨識結果輸出於Word、Excel、HTML等應用文件中。

 

這樣繁瑣與比對工作,透過蒙恬自行研發的光學文字辨識核心技術認識王,平均每1000字僅耗時數秒鐘的時間,並保有原書面文件之文字內容、文字字體大小、顏色、圖片、表格及其相對位置皆相同之電子化文件;透過超級掃譯筆、迷你掃譯筆,可將欲掃描的中文繁體/簡體字、香港字、英文、數字及符號直接辨識成可編輯的文字,還可掃描查詢中英文單字及英漢、漢英整個句子,甚至是整篇翻譯,不但减輕資料輸入的工作,並提高資料輸入的速度,加速文件數位化的效率。

 

蒙恬科技自行研發的光學文字辨識核心技術,包括光學辨識技術與掃描筆光學辨識技術,皆成功地解決文件辨識輸入的問題,未來蒙恬科技將更加強彩色文件的處理技術,以增加數位資料流通的方便性。
 

流程架構

應用領域

建立大型文獻與剪報資料庫

協助機構與圖書館,透過光學文件辨識技術,將大量報紙、中英文期刊、碩博士論文、雜誌、書籍等,進行數位化文件之建檔與文獻保存,以利未來資料之整合與搜尋。

 

數位出版

協助出版業、報業將過去出版的文章、圖書與報紙,利用光學文件辨識技術把文字輸入至電腦,可供未來重新編排出版與數位化管理。

 

證照辨識

透過光學文件辨識技術,協助海關、警政單位迅速確認身份。

 

資料辨識

透過光學文件辨識技術,協助企業用戶將銀行票據、工商報表進行辨識並建檔。

 

企業文件電子化

協助企業將文件電子化,例如醫院將檢驗記錄電子化、證照業將證照資料電子化、企業用戶將稅務表單電子化。

 

整合電腦自動文件翻譯系統

將欲翻譯的文章透過光學文件辨識技術輸入電腦後,再配合蒙恬電腦自動即時翻譯技術,進行文件即時翻譯的功能。

 

整合語音文字朗讀

將欲朗讀的文章透過光學文件辨識技術輸入電腦後,再配合蒙恬電腦語音朗讀(TTS)技術,進行文件即時朗讀的功能,可再次確認文件辨識的資料無誤。

 

嵌入式系統OCR辨認應用

藉由與照相技術的整合,利用拍攝的方式取得影像,以進行未來OCR延伸應用。