XPath2Doc(通用网站数据采集及Doc生成工具)绿色版
星级

4.8

XPath2Doc(通用网站数据采集及Doc生成工具)绿色版

更新时间:2020-10-23 当前版本:V1.0.0.0 大小:14.8MB
软件类别:网络工具 软件平台:Win7/Win8/Win10
已下线 1047人安装1463人喜欢
应用介绍

XPath2Doc 是一款通用网站数据采集及Doc文档生成工具,它的的作用是半自动采集网页数据并生成DOC或DOCX文档文件,支持企查查和天眼查配置文件,你可以通过配置文件修改里面的设置参数,使用时需要先注册,支持升级程序、操作演示等功能。用户通过XPath2Doc需要手动登录,然后点击采集按钮就能够将网页中的内容采集生成doc文件。能够为用户的工作提供极大的便利,非常方便实用,欢迎需要的朋友来本站免费下载使用!~

工作原理

网页的每个元素,都可以表示成为XPath语句,所以我们可以读取浏览器打开的网站页面源代码,通过我们这个语句得到网页元素中的文本。
这个语句的获取办法:
通常我们可以使用谷歌的Chrome浏览器打开网站页面,按F12调出开发者工具界面,在ELements选项卡下,随着鼠标的移动可以看到网页内容被阴影覆盖,点开三角符号,可以更进一步定位准确的位置,直到找到最终需要的数据位置。在找到的文本上点鼠标右键,在弹出的菜单中,选择Copy-Copy XPath,然后粘贴到记事本即可得到需要的语句。
这里需要说明一点:如果拷贝出来的语句中有/tbody会影响采集,程序内部对此问题进行了处理,但可能会在某些特殊情况下还是会影响数据采集,可以手工去掉。

运行环境

Windows7 Sp1操作系统请安装下面的组件(重要:VC库如果不安装,本程序无法启动):
VC2017往上
.net framework 4.5.2
在Windows10系统下上述组件一般自带,不需要单独安装。Windows10 1903运行通过。
不支持Windows XP操作系统。

操作说明

1、本程序工作需要三个配置文件:General.ini,自定义.ini,自定义模板.docx。后两个文件名自己定义。
General.ini文件中定义了INI文件和Docx模板文件的存放目录,可以不填,默认是程序所在目录。
自定义.ini、自定义模板.docx是软件使用者自己创建的网页采集这个语句及最后生成文件所用的Docx模板,具体设置方法请看ini文件中的说明。注意,Docx模板文件中的“@