Model per a spaCy de la llengua catalana generat a partir de:
- Vectors de paraules de fastText
- Gramàtica, morfologia i sintaxi fent servir dades del corpus d'AnCora
- Annotacions per a l'extracció d'entitats derivades de la wikipedia (Cross-lingual Name Tagging and Linking for 282 Languages)
Degut a la mida final del model (2.5GB) i dels vectors de paraules (1.1GB) aquests no s'inclouen al repositori però podeu descarregar-vos el model final a la secció Publicacions (Releases).
Podeu instal·lar el model i fer-lo servir amb spaCy executant les següents ordres a l'interfície de línia d'ordres:
> pip install https://github.com/ccoreilly/spacy-catala/releases/download/v0.0.2/ca_fasttext_wiki-0.0.2.tar.gz
> python -m spacy link ca_fasttext_wiki ca
spaCy NLP model for the Catalan language generated from:
- fastText word vectors
- The AnCora corpus for parts of speech, morphological features, and syntactic dependencies.
- Wikipedia annotations for named entity extraction (Cross-lingual Name Tagging and Linking for 282 Languages)
The final model is around 2.5GB and the fastText vectors over 1GB which is why they are not included in this repository. You can download the model under the Releases tab.
You can install and use the model in spaCy by executing the following commands:
> pip install https://github.com/ccoreilly/spacy-catala/releases/download/v0.0.2/ca_fasttext_wiki-0.0.2.tar.gz
> python -m spacy link ca_fasttext_wiki ca