web-crawler

西*邮电教务网，方正教务网成绩爬虫

利用python语言抓取教务网成绩

抓包工具：CHrome自带的抓包工具

原理：

1.抓包工具抓包看需要提交哪些数据

2.将所要提交的数据，进行下面的字典排序

3.排序完成后将数据传送给后台

4.在此过程中，验证码的处理，即转换成文字，是一件难事

5.验证码利用机器学习，切割，去噪点，然后比对，得出数据

6.期间用一个session打开，访问其他网页时，防止冲突

7.利用一个session打开成绩所在的网页，

8.正则表达式提取出成绩，

9.将成绩分装成joson，提供给其他Api用

10.将学生的账号和密码保存在数据库里，记录下来，比如和我们的微信id绑定时，进行更快的查询

ps：

也可以利用，百度里的echarts库，对成绩进行图表化，将成绩进行分析，然后发送给用户，这样看起来非常的美观。

from collections import OrderedDict

**********这个库处理form表单里的数据时用的

data = OrderedDict()

data['__VIEWSTATE']=__VIEWSTATE

data['txtUserName']=studentnumber

data['Textbox1']=""

data['TextBox2']=password

data['txtSecretCode']=code

data['RadioButtonList1']=RadioButtonList1

data['Button1']=""

data['lbLanguage']=""

data['hidPdrs']=""

data['hidsc']=""

直接使用字典的话，在进行字符串转化时，参数就会乱序，而使用这个就会依次转化，不会乱序

要建立一次session,因为那样的的cookie访问一次，

进入了教务网，自己就可以编写自己想要的模块来实现自己想要的模板

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
model		model
.gitattributes		.gitattributes
.gitignore		.gitignore
IMG_20170708_174701.jpg		IMG_20170708_174701.jpg
IMG_20170824_210352.jpg		IMG_20170824_210352.jpg
README.md		README.md
YouDian.py		YouDian.py
YouDian.pyc		YouDian.pyc
predict.py		predict.py
predict.pyc		predict.pyc

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

web-crawler

About

Releases

Packages

Languages

XuanmoFeng/web-crawler

Folders and files

Latest commit

History

Repository files navigation

web-crawler

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages