CampassCrawler (大學課程爬蟲)

爬蟲爬取清單

單元測試:

cd UCrawler; python test.py 學校名稱

執行指令:

中科:scrapy crawl NUTC -o NUTC.json -t json
中山:scrapy crawl NSYSU -o NSYSU.json -t json

Getting Started

Prerequisities

OS：Ubuntu / OSX would be nice
environment：need python3

Linux：sudo apt-get update; sudo apt-get install; python3 python3-dev
OSX：brew install python3

Installing

使用虛擬環境：
創建一個虛擬環境：virtualenv venv
啟動方法
1. for Linux：. venv/bin/activate
2. for Windows：venv\Scripts\activate
pip install -r requirements.txt

Schema

建立一份課程類別的清單。api會以此清單做課程的分類
類別固定這三種:通識類, 體育類, 其他類
此變數定義在spider的class variable裏面
參考中科大的scrapy範例

class NutcSpider(scrapy.Spider):
    name = '某某學校'
    allowed_domains = [某某學校網址]


    genra = {
        '通識':'通識類',
        '體育類':'體育類',
        '語言':'其他類',
        'xxxx':'通識類',
        'yyyy':'體育類',
        'zzzz師培':'其他類',
        'zzzz軍訓':'其他類',
        ...
    }

    def start_requests(self):
        ....
        ....
        ....

需要欄位：
- department: 開課系所
- for_dept: 上課系所
- grade: 年級
- title_parsed: 課名
- time: 上課時間
- credits: 學分
- obligatory_tf: 必修或選修
- professor: 教授
- location: 上課地點
- code: 課程id
- note: 備註
- campus: 校區
- discipline: 通識領域類別 e.q. 自然科學領域, 社會科學領域...
- category: 課程類別，會根據1.的genra變數，去判斷，把體育類的課程分類給體育類，軍訓、師培課程分為其他類* ，資工、資管、法律等正常系所的課程，分為大學部
  - 程式碼統一這樣寫:courseItem['category'] = self.genra.get(courseItem['department'], '大學部')

爬蟲輸出 JSON 格式：參考網址

{
  "note": "---",
  "for_dept": "通識",
  "title": "心理學與自我成長",
  "time": [
    {
      "day": 1,
      "time": [
        5,
        6
      ]
    }
  ],

"professor": "楊淳斐、林清標", "location": [ "(3304)" ], "campus": "NUTC", "grade": "三Ａ", "department": "通識", "category": "通識類", "code": "D19009", "obligatory_tf": false, "credits": 2.0, "discipline": "社會科學領域" } ```

例外： 1. 欄位為空值：統一填 None

Built With

python3.5

Contributors

邱冠喻 - Initial work - Pastleo
戴均民 - Initial work - taichunmin
黃川哲 - Initial work - CJHwong
張泰瑋 david
王選仲
蔡鬆鬆

Acknowledgments

感謝colorgy，部份爬蟲參考自他們的open source
感謝中興大學計資中心提供協助
感謝黃川哲大大開的坑，讓學弟學了不少的Python，學長們的 code 也讓我受益良多~
感謝Pastleo大大開的坑，讓學弟學了不少的Python，學長們的 code 也讓我受益良多~

License

This project is licensed under the GNU 3.0 License - see the LICENSE.md file for details

Name		Name	Last commit message	Last commit date
Latest commit History 99 Commits
CampassCrawler		CampassCrawler
UCrawler		UCrawler
crawler-ASIA-course		crawler-ASIA-course
crawler-CCU-course		crawler-CCU-course
crawler-CGU-course		crawler-CGU-course
crawler-CJCU-course/crawler		crawler-CJCU-course/crawler
crawler-CNU-course/crawler		crawler-CNU-course/crawler
crawler-CSMU-course		crawler-CSMU-course
crawler-CTU-course/crawler		crawler-CTU-course/crawler
crawler-CYCU-course		crawler-CYCU-course
crawler-CYUT-course/crawler		crawler-CYUT-course/crawler
crawler-DILA-course		crawler-DILA-course
crawler-DYU-course		crawler-DYU-course
crawler-FCU-course		crawler-FCU-course
crawler-FGU-course/crawler		crawler-FGU-course/crawler
crawler-FJU-course		crawler-FJU-course
crawler-HCU-course		crawler-HCU-course
crawler-ISU-course		crawler-ISU-course
crawler-KNU-course/crawler		crawler-KNU-course/crawler
crawler-KUAS-course		crawler-KUAS-course
crawler-MCU-course		crawler-MCU-course
crawler-MDU-course/crawler		crawler-MDU-course/crawler
crawler-MMC-course/crawler		crawler-MMC-course/crawler
crawler-MUST-course/crawler		crawler-MUST-course/crawler
crawler-NCU-course		crawler-NCU-course
crawler-NCUE-course		crawler-NCUE-course
crawler-NCUT-course/crawler		crawler-NCUT-course/crawler
crawler-NCYU-course		crawler-NCYU-course
crawler-NDHU-course		crawler-NDHU-course
crawler-NFU-course/crawler		crawler-NFU-course/crawler
crawler-NHU-course		crawler-NHU-course
crawler-NHUE-course		crawler-NHUE-course
crawler-NIU-course		crawler-NIU-course
crawler-NKMU-course		crawler-NKMU-course
crawler-NKUHT-course		crawler-NKUHT-course
crawler-NPTU-course/crawler		crawler-NPTU-course/crawler
crawler-NPUST-course		crawler-NPUST-course
crawler-NQU-course		crawler-NQU-course
crawler-NTHU-course		crawler-NTHU-course
crawler-NTNU-course		crawler-NTNU-course
crawler-NTSU-course		crawler-NTSU-course
crawler-NTTU-course		crawler-NTTU-course
crawler-NTUB-course		crawler-NTUB-course
crawler-NTUE-course		crawler-NTUE-course
crawler-NTUNHS-course		crawler-NTUNHS-course
crawler-NTUST-course		crawler-NTUST-course
crawler-NTUT-course		crawler-NTUT-course
crawler-NUK-course		crawler-NUK-course
crawler-NUTN-course		crawler-NUTN-course
crawler-PCCU-course		crawler-PCCU-course
crawler-PU-course		crawler-PU-course
crawler-SHU-course		crawler-SHU-course
crawler-SJU-course/crawler		crawler-SJU-course/crawler
crawler-STU-course		crawler-STU-course
crawler-TCU-course		crawler-TCU-course
crawler-THU-course/crawler		crawler-THU-course/crawler
crawler-TKU-course		crawler-TKU-course
crawler-TMU-course/crawler		crawler-TMU-course/crawler
crawler-TNUA-course		crawler-TNUA-course
crawler-TOKO-course/crawler		crawler-TOKO-course/crawler
crawler-TSU-course/crawler		crawler-TSU-course/crawler
crawler-TTU-course		crawler-TTU-course
crawler-USC-course/crawler		crawler-USC-course/crawler
crawler-USCKH-course		crawler-USCKH-course
crawler-UTAIPEI-course		crawler-UTAIPEI-course
crawler-YUNTECH-course		crawler-YUNTECH-course
crawler-YZU-course		crawler-YZU-course
.gitignore		.gitignore
.travis.yml		.travis.yml
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt
win_requirements.txt		win_requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CampassCrawler (大學課程爬蟲)

爬蟲爬取清單

單元測試:

執行指令:

Getting Started

Prerequisities

Installing

Schema

Built With

Contributors

Acknowledgments

License

About

Releases

Packages

Contributors 3

Languages

License

Stufinite/CampassCrawler

Folders and files

Latest commit

History

Repository files navigation

CampassCrawler (大學課程爬蟲)

爬蟲爬取清單

單元測試:

執行指令:

Getting Started

Prerequisities

Installing

Schema

Built With

Contributors

Acknowledgments

License

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages