Discuz! Board

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 1691|回复: 0

如何使用蜜蜂采集器采集北京新发地市场农产品价格行情

[复制链接]

81

主题

81

帖子

951

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
951
发表于 2023-4-5 09:34:09 | 显示全部楼层 |阅读模式

蜜蜂采集器的使用教程 - 采集北京新发地市场农产品价格行情

本文以北京新发地市场农产品价格行情采集为例,介绍列表页网址中的时间格式化参数的使用方法。

页面分析

数据来源:北京新发地市场官网。

使用浏览器打开北京新发地市场官网,按F12打开浏览器的开发者工具。设置时间范围为当天,点击“查询”。可以看到.../getPriceData.html这样的POST请求,返回内容为JSON格式。我们试着将POST请求的网址和参数改装成GET方式,发现也可以正常访问,因此,就以此地址的GET请求来采集。

采集规则实现

格式化网址源:.../getPriceData.html?limit=1000&current=1&pubDateStartTime=[参数]&pubDateEndTime=[参数]&prodPcatid=&prodCatid=&prodName=,两个参数都是时间变化格式,且时间格式为yyyy-MM-dd,从0到0天,也就是只采集当天数据。这里将limit改为1000,因为一天的数据是469条,我们一次获取完毕,避免频繁请求。勾选“列表页网址即为内容页网址”。

列表页时间格式化网址

内容采集。各标签均勾选“页内循环采集标签内容”,提取方法为JsonPath。在“循环采集”设置页面,勾选“每个循环采集的结果以新记录保存”。这里,因为是Json方式获取的,所以采用循环采集的方式,将每个子项都采集为一个新纪录。

  • id:JsonPath提取规则为["list"][*]["id"]
  • 一级分类:JsonPath提取规则为["list"][*]["prodCat"]
  • 一级分类id:JsonPath提取规则为["list"][*]["prodCatid"];添加标签数据二次处理项“字符串替换”,将null替换为空,因为这里会出现null值;
  • 二级分类:JsonPath提取规则为["list"][*]["prodPcat"]
  • 二级分类id:JsonPath提取规则为["list"][*]["prodPcatid"];添加标签数据二次处理项“字符串替换”,将null替换为空,因为这里会出现null值;
  • 品名:JsonPath提取规则为["list"][*]["prodName"]
  • 最低价:JsonPath提取规则为["list"][*]["lowPrice"]
  • 平均价:JsonPath提取规则为["list"][*]["avgPrice"]
  • 最高价:JsonPath提取规则为["list"][*]["highPrice"]
  • 规格:JsonPath提取规则为["list"][*]["specInfo"]
  • 产地:JsonPath提取规则为["list"][*]["place"]
  • 单位:JsonPath提取规则为["list"][*]["unitInfo"]
  • 发布日期:JsonPath提取规则为["list"][*]["pubDate"]
内容采集
内容采集测试

运行采集任务,查看采集数据结果。

采集数据展示

至此,就实现了北京新发地市场农产品价格行情数据的采集。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|DiscuzX

GMT+8, 2024-11-23 18:24 , Processed in 0.034969 second(s), 21 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表