问答媒体

 找回密码
 立即注册
快捷导航
搜索
热搜: 活动 交友 discuz
查看: 138|回复: 20

百度搜索指数的爬取方法及代码

[复制链接]

1

主题

2

帖子

4

积分

新手上路

Rank: 1

积分
4
发表于 2023-3-6 13:22:33 | 显示全部楼层 |阅读模式
最近几年经常在各平台看到有关「搜索指数动态排行」的视频,比如「青春有你2」决赛前一周,我在B站上传了一段「青你2」和「创造营2020」的人气选手指数动态榜的视频:

「青春有你2」VS「创造营2020」
https://www.zhihu.com/video/1251285599131856896
后台看到的视频播放量、弹幕数、评论数等数据如下:


​居然被播放了近 4w 次,评论里有问视频怎么做的,也有质疑数据来源的,这篇文章先讲一下数据是怎么来的。
全部数据都来自百度搜索指数,就是这个玩意儿:


网上关于百度指数的爬取方案有很多种,测试下来最方便快捷的是通过 Cookies 登录后爬取,这个场景不太适合用模拟浏览器的方式。基于开源代码(https://github.com/longxiaofei/spider-BaiduIndex)进行了一些 DIY,就满足我的需求了。
(原开源代码可能由于久未更新,局部存在一些问题,已做处理)
在查找爬虫方法过程中,大家提到次数最多的问题就是如何找到自己的 Cookies。登录百度后,在首页右键打开「开发者工具」,然后点击「Application」:


​然后在 Name 那一列找「BDUSS」,复制后面对应的 Value,很长的一串字符~
把这段字符串赋值给 demo.py 中的变量 cookies,别忘了前面加 "BDUSS=",然后就可以实现自动登录了。接下来就可以在 keywords 填写你要爬的关键词列表了,设置要爬取指数的起始时间 start_date 和结束时间 end_date,如下:
cookies = "BDUSS=你的Cookies"

keywords = ['刘雨昕', '虞书欣', '喻言', '许佳琪', '孔雪儿', '赵小棠', '金子涵', '安崎', '谢可寅', '乃万']

baidu_index = BaiduIndex(
    keywords=keywords,
    start_date='2020-03-10',
    end_date='2020-05-27',
    cookies=cookies,
    )按你的需求修改好各个变量后,运行 demo.py,然后你就可以获得像这样的数据了:


<hr/>如需代爬数据,请私信联系。
回复

使用道具 举报

1

主题

4

帖子

6

积分

新手上路

Rank: 1

积分
6
发表于 2023-3-6 13:22:48 | 显示全部楼层
请问要先装什么库呢,我报错了哈哈哈
回复

使用道具 举报

1

主题

5

帖子

3

积分

新手上路

Rank: 1

积分
3
发表于 2023-3-6 13:23:05 | 显示全部楼层
具体报的什么错?
回复

使用道具 举报

1

主题

6

帖子

12

积分

新手上路

Rank: 1

积分
12
发表于 2023-3-6 13:23:52 | 显示全部楼层
给厷众呺「数据池塘」回复「百度指数」,获取代码
回复

使用道具 举报

0

主题

8

帖子

12

积分

新手上路

Rank: 1

积分
12
发表于 2023-3-6 13:24:27 | 显示全部楼层
哈哈哈封装的库没下全,感谢!已经解决了!
回复

使用道具 举报

1

主题

8

帖子

13

积分

新手上路

Rank: 1

积分
13
发表于 2023-3-6 13:24:55 | 显示全部楼层
哈哈哈哈已经爬到了也关注了!表示感谢!
回复

使用道具 举报

1

主题

3

帖子

3

积分

新手上路

Rank: 1

积分
3
发表于 2023-3-6 13:25:27 | 显示全部楼层
你好 还想问一下 如果算每月的百度指数,把每日的相加有统计意义吗~
回复

使用道具 举报

1

主题

5

帖子

9

积分

新手上路

Rank: 1

积分
9
发表于 2023-3-6 13:25:48 | 显示全部楼层
看你的需求了,这个指数目前是基于每天的搜索情况计算的,累加一个月的话可能在趋势的体现上就比较粗了
回复

使用道具 举报

0

主题

6

帖子

10

积分

新手上路

Rank: 1

积分
10
发表于 2023-3-6 13:26:14 | 显示全部楼层
您好,,,我报错cannot import name 'test_cookies' from 'utils'
回复

使用道具 举报

0

主题

2

帖子

0

积分

新手上路

Rank: 1

积分
0
发表于 2023-3-6 13:26:52 | 显示全部楼层
还有,baidu_index这个模块怎么下载呀?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver| 手机版| 小黑屋| 问答媒体

GMT+8, 2025-7-18 14:23 , Processed in 0.176921 second(s), 22 queries .

Powered by Discuz! X3.4

Copyright © 2020, LianLian.

快速回复 返回顶部 返回列表