Deep_Learning_Practice_Python

NLP基础

#词向量：50-300维，有两个策略 #CBOW模型：由上下文词预测中心词 #skip-gram模型：由中心词预测上下文词（更常用） #负采样：输入一些不存在的组合，然后赋标记为0 #窗口大小：窗口数为2，则上下文各取两个 #glove是word2vec的拓展，是基于全局词频统计的此表示工具 #可以捕捉到全局语料的统计信息，综合了word2vec的局部上下文窗口，和LSA的全局矩阵分解（有点像LDA） #LSA不擅长做词语类比（men->women=king->queen）,而word2vec擅长将上下文词把词语映射到向量空间中，进行类比 #LSA能够捕捉到全局语料的统计信息 #共现矩阵：对称矩阵，一来表达出两个词语共现的概率，二来表现出两个词语在共现时的距离 #共现矩阵的元素计算=共现次数*权重递减函数 #权重递减函数表现出两个词语在共现时的距离 #Glove将单词表达成实数组成的向量，可以捕捉到单词之间的一些语义特性，如相似性、类比性 #而且这些向量可以通过向量运算计算（如欧氏距离、余弦）出其相似度

#语言模型：计算一个句子是句子的概率 #前向语言模型：强调当前词语出现的概率对于前面出现词语的依赖关系 #还有后向语言模型 #双向语言模型（也就是ELMO，基于bi-LSTM,双向LSTM），就是同时包含前向和后向语言模型 #ELMO的缺点：运行速度

#BERT, Bidirectional Encoder Representations from Transformers #相对于RNN而言（按照顺序处理：会导致前后依赖，梯度消失/爆炸，处理速度受限） #Transformer是序列转换模型，可以并行运算，速度快，能够捕捉上下文的信息 #序列转换模型：讲一个序列转化成另一个序列（Encoder*-*Decoder），如机器翻译 #attention提取上下文信息的方式：基于赋权重

Name		Name	Last commit message	Last commit date
Latest commit History 55 Commits
BERT		BERT
CNN		CNN
ELMO		ELMO
LDA		LDA
RNN_Prediction		RNN_Prediction
glove		glove
pic		pic
word2vec		word2vec
NLP		NLP
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Deep_Learning_Practice_Python

NLP基础

About

Releases

Packages

Languages

Eineananas/Deep_Learning_Practice_Python

Folders and files

Latest commit

History

Repository files navigation

Deep_Learning_Practice_Python

NLP基础

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages