本项目利用python对微博话题和用户进行爬取,同时利用FastAPI进行API的搭建。
配置文件为config.json
- headers 不需要更改
- cookies 获取方式:进入微博官网(https://weibo.com/), 登录后,F12进入开发者模式,选取Network,Ctrl+R 重新加载,在Name中点击第一个weibo.com,就会有cookies
- page (int 类型) 代表要爬取的页数
- user_id (int类型):用户的Id
- query :要查询的话题
首先安装环境依赖库,对于FastAPI,推荐安装所有的可选依赖及对应功能
- BeautifulSoup
pip install beautifulsoup4
- FastAPI
pip install "fastapi[all]"
Clone the repo
git clone https://github.com/CUTEPKQ/Web-Spider.git
-
在config.json文件中
- 将weibo_cookies更换为自己的cookies
- query修改为要查询的话题
- page 代表要爬取的页数(一页十条数据)
- user_id 微博用户的id,点击用户主页(以浙江大学为例,进入主页,查看网址为https://weibo.com/u/1851755225,所以user_id为1851755225)
-
运行
-
API服务(暂未更新user,仅支持话题)