GitHub - posavinova/scraping-prose: A crawler for scraping texts from any section of the proza.ru web-site.

Crawler for www.proza.ru

Start the spider from its root directory with the following command:

$ scrapy crawl stories

To specify which sections to scrape set desired value for start_urls instories_spider.py file.

topic = "02"
start_urls = [f"https://proza.ru/texts/list.html?topic={topic}"]

List of web-site's topics:

05 - миниатюры

21 - новеллы

02 - рассказы

30 - репортажи

01 - повести

04 - романы

13 - драматургия

07 - детективы

23 - приключения

06 - фантастика

24 - фэнтези

25 - ужасы

26 - киберпанк

03 - эротическая проза

08 - юмористическая проза

16 - ироническая проза

09 - фельетоны

27 - анекдоты

28 - байки

31 - история и политика

10 - литературоведение

32 - естествознание

11 - публицистика

33 - философия

34 - религия

35 - мистика

18 - мемуары

12 - критические статьи

41 - литературные обзоры

42 - музыкальные и кинообзоры

17 - литература для детей

51 - рассказы о детях

52 - сказки

50 - детское творчество

39 - стихи

43 - стихотворения в прозе

15 - литературные переводы

44 - проза на других языках

Database storing

A pipeline for saving scraped literary pieces to SQLite database is enabled.

CONNECTION_STRING = "sqlite:///proza_ru.db"

DB schema:

Test database file with 4k short stories is among the project files (proza_ru_short_stories.db)

Scrapy - https://docs.scrapy.org/
SQLAlchemy - https://docs.sqlalchemy.org/

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
images		images
proza_scraping		proza_scraping
.gitignore		.gitignore
README.md		README.md
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Crawler for www.proza.ru

List of web-site's topics:

Database storing

About

Releases

Packages

Languages

posavinova/scraping-prose

Folders and files

Latest commit

History

Repository files navigation

Crawler for www.proza.ru

List of web-site's topics:

Database storing

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages