Skip to content

CUTEPKQ/Web-Spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

36 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation


Logo

Weibo_Spider

^_^对微博话题和用户进行爬取^_^

About The Project

本项目利用python对微博话题和用户进行爬取,同时利用FastAPI进行API的搭建。

配置文件为config.json

  • headers 不需要更改
  • cookies 获取方式:进入微博官网(https://weibo.com/), 登录后,F12进入开发者模式,选取Network,Ctrl+R 重新加载,在Name中点击第一个weibo.com,就会有cookies
  • page (int 类型) 代表要爬取的页数
  • user_id (int类型):用户的Id
  • query :要查询的话题

Getting Started

Prerequisites

首先安装环境依赖库,对于FastAPI,推荐安装所有的可选依赖及对应功能

  • BeautifulSoup
    pip install beautifulsoup4
  • FastAPI
    pip install "fastapi[all]"

Installation

Clone the repo

git clone https://github.com/CUTEPKQ/Web-Spider.git

Usage

  1. config.json文件中

  2. 运行

    • 运行main.py文件,可以得到爬取的数据(评论内容、评论时间)
      • 爬取的话题信息为 [话题内容,时间,用户昵称,话题网址]
      • 爬取的用户信息为 [话题内容,时间]
  3. API服务(暂未更新user,仅支持话题)

    • 运行api.py文件,启用api服务(默认host为localhost,端口号为9394,使用前请确保该端口未被占用
    • 运行api_test.py文件,验证api

Acknowledgments

About

爬取微博话题和用户信息

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages