一個(gè)專門用來OCR(光學(xué)字符識別)Vobsub格式字幕的軟件,能夠?qū)dx/sub格式的字幕轉(zhuǎn)成srt格式,并提供srt格式校對功能。OCR引擎為微軟Office 2003所帶的Microsoft Office Document Imaging (MODI),支持英文、簡體中文、繁體中文、日文。
動(dòng)機(jī): 目前已經(jīng)有一些免費(fèi)的字幕OCR軟件,英文的可以用Subresync,中文的可以用SubOCR。但是在使用了這些軟件后,我還是決定開發(fā)IdxSubOcr,理由如下:
希望能夠使用方便性方面有所改善。Subresync自帶的OCR引擎的識別率很棒,但是每次都要敲幾十個(gè)字母實(shí)在太麻煩;而且還不支持中文、日文字符。
SubOCR實(shí)在太龐大,而且在某些機(jī)器上運(yùn)行出錯(cuò)。
使用說明
一、軟件安裝/刪除
本軟件安裝非常簡單:創(chuàng)建一個(gè)目錄,用WinZip將下載下來的ZIP包解壓縮到該目錄即可。
本軟件的刪除也很簡單:直接刪除從ZIP包中解壓縮出來的所有文件及運(yùn)行過程中生成的文件即可。
ZIP包中包括下列文件:
IdxSubOcr.exe。這是軟件的主程序。
IdxSubOcr.htm。本幫助文件。
如果您下載到的ZIP包中還包括其它文件,毫無疑問不是我放進(jìn)去的,有廣告之嫌疑,請立即刪除。
另外程序運(yùn)行過程中還會(huì)生成以下文件:
IdxSubOcr.ini。這個(gè)是參數(shù)保存文件,第一次更改參數(shù)后生成。退出IdxSubOcr,刪除此文件,再重啟IdxSubOcr,即可恢復(fù)缺省參數(shù)。
二、軟件使用
軟件的使用比較簡單:
點(diǎn)擊“打開idx文件”按鈕,選擇需要OCR/校對的idx文件。 或直接從資源管理器拖拽idx文件。
如果有必要,設(shè)置“毫秒分隔符”選項(xiàng),即毫秒用小數(shù)點(diǎn)還是句號分隔。
如果有必要,勾選“OCR前先加粗處理”,避免因?yàn)楣P畫過細(xì)影響OCR質(zhì)量。但如果文字筆畫本來就不細(xì),勾選此選項(xiàng)后可能造成筆畫粘連,反而影響質(zhì)量。
在“操作選項(xiàng)”里,選擇需要OCR/校對的字幕,及究竟是要OCR還是校對。
如果是OCR,在接下來的“OCR”選項(xiàng)中,需要選擇OCR語言及字幕顏色。注意這兩個(gè)選項(xiàng)直接關(guān)系到OCR效果,所以必須認(rèn)真選擇:語言好說,顏色必須保證文字為實(shí)心字,空心字沒法識別。 如果字幕第一行為空,則文字顏色可能不能選擇,可以選擇字幕其他行,直到能夠選擇顏色。OCR識別結(jié)束后,自動(dòng)進(jìn)入校對模式。
如果是校對,界面上方顯示字幕圖像,下方顯示文字,用戶可以直接對文字進(jìn)行編輯。在編輯框中可以使用上下箭頭、PgDn、PgUp滾動(dòng)。校對完成后,點(diǎn)擊“保存srt文件”按鈕存盤。
在校對過程中,可以用“輔助功能”進(jìn)行輔助,包括:
文本替換。通常用來替換OCR中的一些習(xí)慣性錯(cuò)誤。
英文句首字母大寫。某些英文字幕全是大寫,看起來比較費(fèi)勁,用這個(gè)可以轉(zhuǎn)成小寫。
繁體轉(zhuǎn)簡體。繁體中文字幕OCR后的結(jié)果是GBK編碼的繁體字,如果覺得麻煩,可以用這個(gè)功能轉(zhuǎn)換成GB編碼的簡體字。
另外如果想改變已有srt文件中的毫秒分隔符,可以選擇“校對”,然后剛剛“毫秒分隔符”選項(xiàng),再存盤即可。
更新日志:
IdxSubOcrvVersion 1.14
功能增強(qiáng):支持從資源管理器拖拽打開idx文件,便于使用。
Version 1.13
新增功能:增加“OCR前先加粗處理”選項(xiàng)。此選項(xiàng)使用得當(dāng)可以提高OCR識別率,使用不當(dāng)則會(huì)降低識別率,請仔細(xì)閱讀FAQ部分的相關(guān)說明。
功能增強(qiáng):提高英文OCR的識別準(zhǔn)確率。
錯(cuò)誤修正:遇到某些格式錯(cuò)誤的字幕文件,會(huì)報(bào)告“內(nèi)存不足”。
Version 1.12
錯(cuò)誤修正:某些中文標(biāo)點(diǎn)前后會(huì)加入空格。
Version 1.11
新增功能:在列表中增加“序號”列。
功能增強(qiáng):在OCR簡、繁、日字幕時(shí),如果字符間距大于字高的一半,則在字間插入空格。
Version 1.10
新增功能:增加“毫秒分隔符”,允許選擇毫秒分隔符是小數(shù)點(diǎn)還是逗號。
Version 1.09
錯(cuò)誤修正:OCR某些字幕時(shí)會(huì)中斷退出。
Version 1.08
功能增強(qiáng):對含無效字符的文件路徑能夠給出提示。
Version 1.07
錯(cuò)誤修正:如果原始字幕文件有錯(cuò),會(huì)中斷退出。
錯(cuò)誤修正:如果原始字幕文件信息有錯(cuò),OCR后出現(xiàn)無時(shí)間軸的空白行,導(dǎo)致結(jié)果文件被截?cái)唷?br/>
Version 1.06
功能增強(qiáng):加強(qiáng)繁簡轉(zhuǎn)換時(shí)的糾錯(cuò)能力。
Version 1.05
重寫OCR后處理部分,減小文字錯(cuò)位、錯(cuò)行的概率。