蜜蜂采集器的使用教程 - 使用JavaScript内置脚本引擎进行加减乘除运算
采集器对加减乘除等运算功能支持不够,一般通过调用插件实现复杂功能。也有的采集器支持内置脚本引擎实现加减乘除运算。蜜蜂采集器在当前版本中增加了内置JavaScript脚本的支持,采用V8引擎执行JavaScript脚本,从而实现加减乘除等运算。
本文以高赞评论的采集与分析为例,演示如何使用蜜蜂采集器的内置JavaScript脚本功能。
需求说明
很多短视频或文章评论下,都会有一些高赞评论。那么,这些高赞评论都有哪些特征呢?如何才能使得评论获得较多的点赞量?不妨做一些假设。可能发帖时间点较好,刚好同时有很多人浏览,而最新的几条评论会被优先显示,大部分人更习惯于点赞而不是自己评论,从而更容易在短时间获得更高的点赞;可能发帖的头像、昵称等吸引了浏览者;也可能发帖者自己就有很多的关注者,评论会被自己的关注者看到并点赞;等等。因此,就有了这样一个想法,能否采集一些高赞评论,再对评论者及其评论进行数据分析,找出高赞评论的共同点?而这些,首先要解决的就是高赞评论的采集。
由于评论往往数量庞大,且会不断更新。所以,只能快速采集,且数量尽量少。否则,采集过程持续几个小时以上的话,新的评论不断涌现,点赞量也不是同一个时间点的,就不太好分析了。当然,也可以等热点过去,评论数量和点赞量基本稳定之后再采集。所以,这里就得筛选掉多余的,只采集和统计高赞评论的。
那么,如何判断是否高赞评论呢?这个从平常的角度考虑,会觉得很简单,比如点赞1000+的就算高赞。但是,采集器往往无法进行这样的数量比较运算和判断。所以,一般情况下,就得借助插件了。
蜜蜂采集器的插件,都是采用外部程序方式,开启新进程实现的。如果使用插件进行这样的判断,效率略低。所以,蜜蜂采集器提供了一种新的方式解决此问题,即:内置JavaScript脚本。
编写脚本
打开蜜蜂采集器,菜单“采集”----“JavaScript脚本”页面,添加一个“JavaScript脚本测试”的JavaScript脚本,并添加代码如下:
(function(url, tag, content, arguments){
if(content.length <= 0 || content.length > 10) return "格式不合法";
let num = 0;
if(content.indexOf("千") > 0)
num = parseFloat(content)*1000;
else if(content.indexOf("万") > 0)
num = parseFloat(content)*10000;
else if(content.indexOf("亿") > 0)
num = parseFloat(content)*100000000;
else
num = parseInt(content);
if(num < arguments["最低点赞"]) return "点赞数太低,忽略";
return num.toString();
})
脚本输入参数中,添加一项“最低点赞”,默认值为1000。
注意:这里采用的是JavaScript匿名函数的方式,因此,建议按系统自带的模板填写代码即可。系统也支持从文件加载JavaScript脚本文件。函数参数中,url为采集页的网址,tag为标签名称,content为标签内容。arguments为脚本输入参数,关联数组格式,可以通过arguments['参数名'] 访问各参数。
以上示例代码的含义:如果有“千”、“万”、“亿”等字符,就将前面的数字乘以相应的数量;判断点赞数是否满足条件,不满足则返回错误。
调用示例
打开蜜蜂采集器,新建一个采集规则,名称就是“JavaScript脚本测试”。
简单设置一下采集规则。标签“内容”为固定值,方便测试。然后添加标签数据二次处理项“JavaScript脚本”,选择上面刚刚添加的脚本,即可。
我们可以在标签的“内容过滤”中,过滤掉字符串"格式不合法"和"点赞数太低,忽略"。
以上就是JavaScript脚本的使用方法。 |