Skip to content

한국사데이터베이스 한국근현대잡지자료 종합월간지 『개벽』(開闢) 본문 + 메타데이터 스크래퍼

License

Notifications You must be signed in to change notification settings

Esantomi/gaebyeok-scraper

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 

Repository files navigation

gaebyeok-scraper

『개벽(開闢)』 전문 스크래퍼 v.0.3

개요

URL 규칙

  • http://db.history.go.kr/item/level.do?sort=levelId&dir=ASC&start=4&limit=77&page=1&pre_page=0&setId=-1&totalCount=0&prevPage=4&prevLimit=&itemId=ma&types=&synonym=off&chinessChar=on&brokerPagingInfo=&levelId=ma_013_' + 호(volume) 넘버 4자리_텍스트 넘버 4자리
    • 개벽 제28호는 1부, 2부로 나뉘며, 호 넘버도 각각 271, 272이므로 별도 처리함.
    • 호 처음에 실린 글은 텍스트 넘버가 0 또는 1인 경우가 있으니 별도 처리함.
    • 호 마지막에 실린 사고·편집후기는 텍스트 넘버 끝자리가 1인 경우가 있으니 별도 처리함.
  • div 태그의 #cont_view에 본문 삽입됨.
  • metadata는 tbody > tr > td 안에 있고, tbody는 4개의 tr(순서대로 잡지명, 발행일, 기사제목, 기사형태)을 가짐
    • metadata가 잡지명, 발행일, 기사제목, 필자, 기사형태의 다섯 요소를 갖는 경우도 있으므로, 이에 대한 대처가 필요함. (v0.3)

참고

  • connection reset by peer error가 뜰 경우, 적당히 time.sleep(round(random.uniform(3, 5), 2)) 삽입 요망.

데이터 미리 보기

image

About

한국사데이터베이스 한국근현대잡지자료 종합월간지 『개벽』(開闢) 본문 + 메타데이터 스크래퍼

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published