PDF文本提取器(PDF-Text Extractor)

这是一个用来提取PDF文件中的文本内容的简单工具。

Text extract tool screenshot

页面范围(Page range) 区域可以输入想要提取文本的页码,留空则默认为全文提取。

页面分割字符串(Page break string )区域可以指定输出文本中用来标示页面分割的字符串。可以使用 [p]控制字指代所在的页码,[P]指代总页数。

使用输出目录(Output folder )选项框可以指定提取出的文本文件保存的目录位置。

编码选项框可以指定文本的编码标准,可以在ANSI, UTF8 和 UNICODE之间选择。

命令行格式:

功能名称: TextExtract
选项: [] 内为可选参数
[PageRange=] 定义要提取文本的页码范围。 如果没有提供,则提取所有页面。 关于页面定义规则,请参看上图。
[PageBreak=] 定义分割页面的字符串,使用[p]插入页码,[P]插入总页数。
[Encoding=] - 输出文本的编码方式.
  0 - ANSI
  1 - UTF8
  2 - Unicode
[OutputPath=] 存放所建立的文本文件的目录的完整路经。如果没有指定,则使用和源文件相同的目录。
[-s] 安静模式. 运行时不显示执行窗口,(只对注册用户可用)。
FilesList PDF文件列表; 使用分号";"分割各个PDF文件. 必须为最后一个参数。
 
示例:
Rundll32 "c:\Program Files\PDF-ShellTools\PDFShellTools.dll",TextExtract "pagerange=1,3-5" encoding=0 "pagebreak=-- [p]/[P]--" "c:\somefolder\file1.PDF;c:\somefolder\file2.PDF"

 

(c) 2006-2009 RTT