Discuz! Board

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 490|回复: 0

使用蜜蜂采集器进行高赞评论的采集与分析

[复制链接]

63

主题

63

帖子

683

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
683
发表于 2023-6-28 23:48:29 | 显示全部楼层 |阅读模式

蜜蜂采集器的使用教程 - 使用JavaScript内置脚本引擎进行加减乘除运算

采集器对加减乘除等运算功能支持不够,一般通过调用插件实现复杂功能。也有的采集器支持内置脚本引擎实现加减乘除运算。蜜蜂采集器在当前版本中增加了内置JavaScript脚本的支持,采用V8引擎执行JavaScript脚本,从而实现加减乘除等运算。

本文以高赞评论的采集与分析为例,演示如何使用蜜蜂采集器的内置JavaScript脚本功能。

需求说明

很多短视频或文章评论下,都会有一些高赞评论。那么,这些高赞评论都有哪些特征呢?如何才能使得评论获得较多的点赞量?不妨做一些假设。可能发帖时间点较好,刚好同时有很多人浏览,而最新的几条评论会被优先显示,大部分人更习惯于点赞而不是自己评论,从而更容易在短时间获得更高的点赞;可能发帖的头像、昵称等吸引了浏览者;也可能发帖者自己就有很多的关注者,评论会被自己的关注者看到并点赞;等等。因此,就有了这样一个想法,能否采集一些高赞评论,再对评论者及其评论进行数据分析,找出高赞评论的共同点?而这些,首先要解决的就是高赞评论的采集。

由于评论往往数量庞大,且会不断更新。所以,只能快速采集,且数量尽量少。否则,采集过程持续几个小时以上的话,新的评论不断涌现,点赞量也不是同一个时间点的,就不太好分析了。当然,也可以等热点过去,评论数量和点赞量基本稳定之后再采集。所以,这里就得筛选掉多余的,只采集和统计高赞评论的。

那么,如何判断是否高赞评论呢?这个从平常的角度考虑,会觉得很简单,比如点赞1000+的就算高赞。但是,采集器往往无法进行这样的数量比较运算和判断。所以,一般情况下,就得借助插件了。

蜜蜂采集器的插件,都是采用外部程序方式,开启新进程实现的。如果使用插件进行这样的判断,效率略低。所以,蜜蜂采集器提供了一种新的方式解决此问题,即:内置JavaScript脚本。

编写脚本

打开蜜蜂采集器,菜单“采集”----“JavaScript脚本”页面,添加一个“JavaScript脚本测试”的JavaScript脚本,并添加代码如下:

(function(url, tag, content, arguments){
    if(content.length <= 0 || content.length > 10) return "格式不合法";
    let num = 0;
    if(content.indexOf("千") > 0)
        num = parseFloat(content)*1000;
    else if(content.indexOf("万") > 0)
        num = parseFloat(content)*10000;
    else if(content.indexOf("亿") > 0)
        num = parseFloat(content)*100000000;
    else
        num = parseInt(content);

    if(num < arguments["最低点赞"]) return "点赞数太低,忽略";
    return num.toString();
})

脚本输入参数中,添加一项“最低点赞”,默认值为1000。

注意:这里采用的是JavaScript匿名函数的方式,因此,建议按系统自带的模板填写代码即可。系统也支持从文件加载JavaScript脚本文件。函数参数中,url为采集页的网址,tag为标签名称,content为标签内容。arguments为脚本输入参数,关联数组格式,可以通过arguments['参数名']访问各参数。

以上示例代码的含义:如果有“千”、“万”、“亿”等字符,就将前面的数字乘以相应的数量;判断点赞数是否满足条件,不满足则返回错误。

编写脚本

 

调用示例

打开蜜蜂采集器,新建一个采集规则,名称就是“JavaScript脚本测试”。

简单设置一下采集规则。标签“内容”为固定值,方便测试。然后添加标签数据二次处理项“JavaScript脚本”,选择上面刚刚添加的脚本,即可。

调用示例

 

我们可以在标签的“内容过滤”中,过滤掉字符串"格式不合法"和"点赞数太低,忽略"。

以上就是JavaScript脚本的使用方法。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|DiscuzX

GMT+8, 2024-5-20 20:42 , Processed in 0.038720 second(s), 22 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表