WordPress 采集插件 WP-JPost

本插件使用需要一定的html、css 基础.

本插件开发纯属兴趣~~~插件已发布到wordpress官方插件中心

老季提供有偿 WordPress或相关网站 速度SEO优化等服务

本插件已收费,在线购买链接直达:WordPress 采集插件 WP-JPost – 高考小语种 (gkxyz.com)

更新日志

2021.6.4【版本号:1.2.0】

  • 修正cron定时任务的bug
  • 添加授权功能(测试中)
  • 增加标题中添加随机关键词
  • 修复xPath模式下去除标签元素的bug(暂不支持xPath去除标签元素功能)
  • 解决日文使用随机插入关键词功能后插入失败的问题。
  • 修复其他若干bug

2021.5.24更新【版本号:1.1.0】

  • 增加XPath可视化功能,适合小白使用。鼠标点击即可选中对应的元素。
  • 修复了之前 ?& 重定向的bug。
  • 修改之前未知的bug。
  • 去除多余无用的字段显示及功能。
  • 在文章列表中增加“来源”字段显示,并依据此字段来决定文章是否重复已存在。
  • 增加“检查更新”菜单。
  • 插件从官网下架,并组建新的扣扣VIP群。

成功案例

名称网址描述
股票指标公式网https://www.dzhtdx.com大智慧策略投资终端ACE破解版,股票软件破解,大智慧软件破解,通达信软件破解,沪深10档L2数据,全息盘口,同花顺金融大师,通达信超赢版,通达信通赢版,通达信MVP交易终端,通达信研究版,通达信iTrend,拓赢,超赢,BBD,DDE,ai,深一度,ai形态

主要功能

  1. 定向采集目标网站内容,并直接发布。
  2. 可以设置对应入库的分类。
  3. 可以自定义文章的标签。
  4. 可以自定义替换标题、文章内容。
  5. 自动另存为图片到本地。
  6. 自动删除内容中的所有链接。
  7. 加入百度翻译,可以将内容翻译成英文。
  8. 脚本定时自动增量功能。

插件截图如下

红色部分为鼠标可视化选中的元素
红色覆盖部分为鼠标可视化选中的元素

如何安装WordPress采集插件WP-JPost?

方法一:在后台插件中直接搜索“wp-jpost”

方法二:在WordPress插件官网下载,然后上传安装

https://wordpress.org/plugins/wp-jpost/

如何添加采集任务?

任务名

命名请使用英文字母数字组合.

例:douban。

抓取目标网站域名(网址以/结束)

这里填写目标网站首页的地址,以/结束。

例:https://www.douban.com/

抓取目标网站列表页

列表页一般都是二级页面,是栏目的具体展示页,一般是用页内跳转的链接。

例如:https://www.douban.com/group/meituikong/

入库目标分类ID

WordPress 后台 — 文章 — 分类目录 — 编译你想入库到的分类 — 查看浏览器地址栏的地址。

例:/wp-admin/term.php?taxonomy=category&tag_ID=38…

这里的tag_ID=38,这个38就是我们需要填写的值。

标签

WordPress 入库时,写入文章的标签值。多个标签请使用,分割(英文状态的逗号分隔)

例:WordPress,LaoJi,wp-jpost。

目标网站a链接元素

列表页中到二级目录的链接地址,同jQuery/CSS选择器方法。

分页格式

列表页中第二页区别列表页的地方。例:

列表页地址:https://www.douban.com/group/meituikong/

翻页后变成:https://www.douban.com/group/meituikong/discussion?start=8850

那么这里就填写:discussion?start={page}

这里的 {page} 就是翻页变化的地方。

分页最大值

这里填写翻页后最后的page值。例:

http://gkxyz.com/page/2052

这里翻页的最大值,即填写:2052

获取单页标题、目标单页获取元素 :title

内容页中标题、内容的标签值。同jQuery选择器方法。下面我们具体得讲述一下怎么选择元素。首先我们需要使用chrome、firefox之类的浏览器。这些浏览器都具有调试等功能。我们这里以Firefox为例。

首先分析代码,以下元素标签可以是div , h3 ,title ,span , p 等。

例:<元素标签 class=”classname”>…</元素标签>,那么我们应该则填入:元素标签.classname。

例:<元素标签 id=”classname”>…</元素标签>,那么我们应该则填入:元素标签#classname。

学习更多CSS选择器可以参考:http://www.w3schools.com/cssref/css_selectors.asp

步骤:

1、网页空白处右击 — 查看元素 。 下面会弹出一个调试器出来。

填入到对应的输入框中即可。

内容搜索值 、内容替换值(可以批量多个替换)

比如标题正文中带有一些原来的字符串,我想替换成我的,或者不要了。

注意:这里如想替换成一样的值,可以直接写一个。如每个替换成不同的则需要对应填。例:

搜索值:- 摔角资料, – 赛事新闻 – 摔角网, – 赛事战报, – 摔角网

替换值:

搜索值:搜索1,搜索2,搜索3

替换值:替换1,替换2,替换3

注意这里要一一对应。例如搜索2去要替换成空则替换值也需要留空(替换1,,替换2),否则就不能对应替换了。

如何保存远程图片?

如果是相对路径,可以使用搜索替换功能先替换成绝对路径。

文章采集完成后可以配合“QQWorld Auto Save Images”等插件,批量扫描将图片本地化。

curl设置

我们在采集时,会遇到一些网站带有https,或者做了防采集。这时我们就需要curl来帮忙。具体方法请移步:WordPress 采集插件 WP-JPost 在Windows/Linux 系统环境下安装curl 采集 带ssl的https网站 图文教程


如有任何意见、建议,请在这里留言!

WordPress 采集插件 wp-jpost 任务列表 已知规则

WordPress 采集插件 wp-jpost 问答总结