Skip to content
Oleksandr Frei edited this page Sep 26, 2016 · 3 revisions

Что уже есть:

  • сайт http://sciexplore.org/, сделаный на основе abstracts из arxiv.org
  • исходники этого сайта есть тут: https://github.com/romovpa/arxiv-topics
  • https://github.com/romovpa/arxiv-dataset - набор скриптов, с помощью которых скачивался и обрабатывался arXiv
  • предобработанная коллекция arxiv.org и инструкция, как работать с этими данными (см. ниже).
From: Peter Romov 
Date: 2016-01-31 10:35 GMT+01:00
Subject: Arxiv: датасет и exploratory search
To: "[email protected]"

Привет всем любителям карт науки!

Во-первых зацените вот инструмент для обзора proceedings: http://cs.stanford.edu/people/karpathy/nips2014/ Осторожно, там внутри LDA!

От того же автора — сервис обзора новых статей arXiv: http://www.arxiv-sanity.com/ Он опенсорсный, его можно запустить у себя и каким угодно образом переделать: https://github.com/karpathy/arxiv-sanity-preserver

Вообще, arxiv — достаточно популярная свалка научных статей. В нашей области (характеризующейся такими конференциями как ICML, NIPS) практически ни одна хорошая статья не проходит мимо arXiv. В этом смысле, можно считать arxiv уменьшенной копией всей науки. Карта arxiv-а может быть первым шагом к "карте науки".

Статьи из arXiv окрыты, доступны и даже подготовлены для ваших экспериментов. Далее — руководство по тому, как начать работать с датасетом arXiv.

Файл с метаинформацией: https://s3-eu-west-1.amazonaws.com/artm/arXiv/arXiv_metadata_2015-12-12.jsonlines.bz2 (400Мб) В нем перечислены все статьи из корпуса с указанием все метаинформации (которая обычно пишется на странице статьи: пример). Всего чуть меньше 1М статей.

Метаинформацию в питоне можно прочитать вот так: import json import bz2 with bz2.BZ2File('arXiv_metadata_2015-12-12.jsonlines.bz2') as f: for line in f: record = json.loads(line) # record — запись с метаинформацией о статье, там есть поле title, abstract, authors, categories, ...

Plain-тексты статей, извлеченные из pdf-ок Вот в этом архиве: https://s3-eu-west-1.amazonaws.com/artm/arXiv/arXiv_txt_2015-12-12.tar.bz2 (12Gb) В архиве каждый файл называется <id-статьи>.txt, id-статьи берется из поля arxiv_id в метаинформации.

-- Best regards, Peter Romov.

Clone this wiki locally