-
Notifications
You must be signed in to change notification settings - Fork 44
Arxiv.org
Что уже есть:
- сайт http://sciexplore.org/, сделаный на основе abstracts из arxiv.org
- исходники этого сайта есть тут: https://github.com/romovpa/arxiv-topics
- https://github.com/romovpa/arxiv-dataset - набор скриптов, с помощью которых скачивался и обрабатывался arXiv
- предобработанная коллекция arxiv.org и инструкция, как работать с этими данными (см. ниже).
From: Peter Romov
Date: 2016-01-31 10:35 GMT+01:00
Subject: Arxiv: датасет и exploratory search
To: "[email protected]"
Привет всем любителям карт науки!
Во-первых зацените вот инструмент для обзора proceedings: http://cs.stanford.edu/people/karpathy/nips2014/ Осторожно, там внутри LDA!
От того же автора — сервис обзора новых статей arXiv: http://www.arxiv-sanity.com/ Он опенсорсный, его можно запустить у себя и каким угодно образом переделать: https://github.com/karpathy/arxiv-sanity-preserver
Вообще, arxiv — достаточно популярная свалка научных статей. В нашей области (характеризующейся такими конференциями как ICML, NIPS) практически ни одна хорошая статья не проходит мимо arXiv. В этом смысле, можно считать arxiv уменьшенной копией всей науки. Карта arxiv-а может быть первым шагом к "карте науки".
Статьи из arXiv окрыты, доступны и даже подготовлены для ваших экспериментов. Далее — руководство по тому, как начать работать с датасетом arXiv.
Файл с метаинформацией: https://s3-eu-west-1.amazonaws.com/artm/arXiv/arXiv_metadata_2015-12-12.jsonlines.bz2 (400Мб) В нем перечислены все статьи из корпуса с указанием все метаинформации (которая обычно пишется на странице статьи: пример). Всего чуть меньше 1М статей.
Метаинформацию в питоне можно прочитать вот так: import json import bz2 with bz2.BZ2File('arXiv_metadata_2015-12-12.jsonlines.bz2') as f: for line in f: record = json.loads(line) # record — запись с метаинформацией о статье, там есть поле title, abstract, authors, categories, ...
Plain-тексты статей, извлеченные из pdf-ок
Вот в этом архиве: https://s3-eu-west-1.amazonaws.com/artm/arXiv/arXiv_txt_2015-12-12.tar.bz2 (12Gb)
В архиве каждый файл называется <id-статьи>.txt, id-статьи берется из поля arxiv_id
в метаинформации.
-- Best regards, Peter Romov.