大家好,怎么把PDF格式 的文件轉(zhuǎn)換成TXT文件,想把中醫(yī)書籍轉(zhuǎn)成TXT格式的,可以在手機里看,那樣文件可以變小,主要是書的內(nèi)容,PDF格式的文件的書皮,那些彩色圖案可以不要,主要是文字,大家說說,大家是怎么做的,用什么軟件,什么方式,
-----------第一種方法:用SnagIt工具進行文字提取。
首先使用SnagIt的文字捕捉功能將文字提取出來。SnagIt當前版本為7.02,大小為8903KB,下載地址可以在http://www。skycn。com/soft/2290.html 找到,漢化補丁可以在http://www。skycn。com/soft/2291.html 找到。啟動SnagIt,選擇菜單“輸入/區(qū)域”,選擇菜單“工具/文字捕獲”,然后我們打開要捕捉的文件窗口,按下捕捉快捷鍵,選定捕捉區(qū)域即可捕捉到文字。
接著用相應工具重排文字。此時我們發(fā)現(xiàn)提取的文字可能會有很多空格或段落錯亂等現(xiàn)象,而且字號、字體等不合自己的心意。這時我們可以用熟悉的WPS或Word軟件進行重新編排。我們以WPSOffice2003為例看看如何對付提取后文章的編排。
用WPSOffice2003打開提取文章;然后選擇“工具”菜單下的“文字”/“段落重排”,這時你會看到提取文章重新進行排版;接下來選擇“工具”菜單下的“文字”/“刪除段首空格”命令,使得文章的每段參差不齊的行首空格被刪除;再選擇“工具”菜單下的“文字”/“增加段首空格”,文章變?yōu)檎5臅鴮懜袷剑惶崛∥恼乱话愣剂粲锌斩,為刪除這些空段,繼續(xù)選擇“工具”菜單下的“文字”/“刪除空段”命令,這時文章完全變?yōu)槲覀兯男问剑挥媚闶煜さ慕缑嫒我饩庉嬑恼掳伞?
第二種方法:用屏幕截圖然后讓OCR軟件識別。
打開帶有文字的圖片或電子書籍,翻到你希望提取的頁面,點擊鍵盤上的打印屏幕鍵(PrintScreen)進行屏幕捕獲;打開Windows自帶的畫圖工具,將剛才捕獲的屏幕截圖,粘貼進去,保存為一個.bmp文件;接著打開剛才保存的文件,在編輯器中進行修正,根據(jù)你所要提取的文字進行裁剪,盡量去除不要的部分;最后啟動OCR軟件,在OCR中打開剛才保存的修改文件,進行文字識別,然后可隨心所欲進行編輯。
-----------實在不行,有專門的將pdf的文件轉(zhuǎn)成word的軟件,再貼到txt里去吧
-----------這個問題分2種情況:
1、如果pdf文件里面的內(nèi)容是圖像,比如掃描書形成的pdf文檔,那就只能用OCR軟件去識別,效果不會太好。
2、如果是文字的,那從網(wǎng)上下載個pdf 轉(zhuǎn)txt格式的軟件轉(zhuǎn)就可以了。
怎么看是那種格式的,通常掃描出來的文字邊緣比較毛糙。
-----------就是那種掃描書形式的PDF文件,難以處理,怎么做啊,我找了半天,很廠時間了,都沒有找到,請大家說說,詳細點,尤其是1、如果pdf文件里面的內(nèi)容是圖像,比如掃描書形成的pdf文檔,那就只能用OCR軟件去識別,效果不會太好。,,,,這個方法說點詳細點,謝謝大家
-----------[介紹使用Microsoft Office 2003識別超星格式(其它圖像格式電子文檔相同)一法:使用超星自帶的文字識別模塊識別的亂碼很多,本文使用Microsoft Office 2003識別,效果不錯。具體說明如下:Microsoft Office 2003安裝后生成一個名為Microsoft Office Document Image Writer的打印機,將超星文件打印到此打印機中會生成一個文件,可以用Microsoft Office Document Imaging直接打開,然后點工具→使用OCR識別文本→“頁面范圍”選所有頁面,即開始識別,識別完畢后點工具→將文本發(fā)送到Word,一切OK,還能保持文檔格式,不用刪多余的換行符了。]
...