此文档已废弃,请参考新的检测方法:百度网盘链接有效性检测工具
蜜蜂采集器使用教程 - 检测百度网盘链接是否有效
建站过程中,可能需要使用到百度网盘等第三方网盘。而不少情况下,网盘分享链接可能已经失效。如果网站长期存在大量失效链接,对网站用户留存的影响非常大。对此,比较好的处理方法,就是检测链接是否有效。
本文以蜜蜂采集器为例,调用百度网盘链接有效性验证插件,实现链接有效性检测功能。
插件介绍
蜜蜂采集器的插件功能,分为列表页网址插件、数据处理插件、标签数据处理插件、文件上传插件、内容发布插件、消息通知插件。每一种插件都支持PHP、Python、Nodejs、Go四种编程语言。
其中,标签数据处理插件是在数据采集过程中对单个标签字段进行标签数据二次处理时调用的,针对的是单条数据记录的单个标签字段。
对于链接有效性检测功能,一般是在内容采集阶段,对标签内容进行处理。所以,这里是采用标签数据处理插件实现的。
插件使用说明
使用方法
- 添加外部程序(Python)。
- 添加或导入标签数据处理插件,添加标签数据处理配置。
- python需要安装urllib3组件: pip install urllib3 。 如安装后还是提示找不到组件,可重启采集器进程。
返回内容
以网址链接形式 + 检测结果 组合返回,一行显示一条检测结果。
返回结果可能包含以下字符串:检测失败,没有找到百度网盘链接 ,检测失败,xxx ,检测成功,链接状态正常 。因此,如果希望所有链接必须全部有效,可以添加内容过滤:不得包含检测失败 ;如果希望至少一个链接有效,可以添加内容过滤:必须包含检测成功 ;如果对没有网盘链接的,也作为成功处理,则可以先字符串替换,替换检测失败,没有找到百度网盘链接 为检测成功 ,再添加内容过滤:必须包含检测成功 。
插件返回结果示例:
.../s/abcdabcdabcdabcdabcdabcdabcd?pwd=1234 : 检测成功,链接状态正常
.../s/abcdabcdabcdabcdabcdabcdabcd?pwd=1234 : 检测成功,链接状态正常
.../s/abcdabcdabcdabcdabcdabcdabcd?pwd=1234 : 检测成功,链接状态正常
功能实现
关于采集规则的编写,这里略过。主要说一下链接有效性检测功能。
打开主菜单“帮助”——“应用市场”。类型选择“标签数据处理插件”。搜索“百度网盘链接有效性”,可以看到“百度网盘链接有效性验证公共版”。“百度网盘链接有效性验证公共版”无需申请百度网盘开放平台接口权限,但有使用频次限制。选择对应插件,点击“下载”导入。
如上图,导入时,需要指定外部程序。该插件采用Python语言实现,如果还没有安装Python,请先到外部程序管理器中,下载安装Python,再添加Python到外部程序中。导入时,建议选择“同时自动创建标签数据处理配置”。创建标签数据处理配置后,可以在“标签数据处理配置管理”列表中找到对应的配置项。
转到采集规则的编辑窗口。对某个标签,启用“标签数据二次处理”,并添加“调用插件”处理项,选择刚刚配置好的标签数据处理配置,即可。点击下方的“测试”,测试是否正常执行。如图:
这里调用插件后,会替换标签内容的,所以,用于检测链接的标签应该是单独的“检测”标签,仅仅用于检测有效性,不用于采集内容输出。对此检测标签,还可以添加内容过滤,比如,不得包含检测失败 ,则要求所有提取的网盘链接都是有效的。
至此,我们就可以在自己的采集规则中检测百度网盘链接是否有效了。
|