GitHub

V1/

处理数据集，完成关联分析，聚类分析，预测问题。

将需要关联的列数据放入同一个list中，创建相关项，得到类似如下的数据集： [ ['color', 'James Cameron', ...], ['black and white', 'Gore Verbinski'], ] 然后使用apriori算法来找出频繁项集

将文本数据转为onehot向量，主要是导演，电影类型，电影关键词等本实验尝试了三种聚类方法：层次聚类，划分聚类，密度聚类最终结果只有kmeans算法的效果可以接受，其他情况都似乎很糟糕

采用神经网络来实现评分预测：主要是将所有列的文本数据集拼接成句子，然后进行分词后embedding，输入到cnn模型中进行预测，采用均方根误差作为损失函数。

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
.idea		.idea
data		data
model		model
.gitignore		.gitignore
README.md		README.md
cluster.ipynb		cluster.ipynb
pre_processing.ipynb		pre_processing.ipynb
preprocess.ipynb		preprocess.ipynb