-
Notifications
You must be signed in to change notification settings - Fork 82
Home
Wang Cheng-Jun edited this page May 20, 2017
·
21 revisions
- 授课人:王成军
- 联系方式:[email protected]
- 计算传播网:http://computational-communication.com
- 36学时,两学分
时间 | 上午 | 下午 | 晚上 | 课时数量 |
---|---|---|---|---|
2017-05-12 周五 | 9:00-12:00 | 14:00-17:00 | 作业&答疑 | 6学时 |
2017-05-13 周六 | 9:00-12:00 | 14:00-17:00 | 作业&答疑 | 6学时 |
2017-05-14 周天 | 9:00-12:00 | 14:00-17:00 | 作业&答疑 | 6学时 |
2017-05-19 周五 | 9:00-12:00 | 14:00-17:00 | 作业&答疑 | 6学时 |
2017-05-20 周六 | 9:00-12:00 | 14:00-17:00 | 作业&答疑 | 6学时 |
2017-05-21 周天 | 9:00-12:00 | 14:00-17:00 | 作业&答疑 | 6学时 |
-
Deadline: 2017年7月3日 23:59:59 (每迟交一天,降低百分之十的分数)
-
分组要求:最好三个人一组,因人数限制可以有四个人一组,不能超过四个人。
-
要求在notebook中完成,包括文字的介绍和数据分析的代码。格式如下:
- 项目题目
- 项目摘要
- 引言
- 研究思路:要有对于研究项目的系统的描述
- 研究发现
- 结论:总结研究的发现
-
必选:OWS推特数据分析
- 对数据进行清洗和描述
- 文本分析
- 选取部分数据建立主题模型或情感分析的模型
- 构建给用户推荐Hashtag的推荐系统:
- 将数据整理为以下格式:人、hashtag、次数
- 对以上数据构建基于物的相似性的推荐系统
- 构建转发网络
- 对转发网络进行描述和分析
-
可选加分项目:自己抓取其他数据或者使用二手数据进行相应的数据分析。
- 下载www数据
- WWW Data download http://www3.nd.edu/~networks/resources.htm World-Wide-Web: [README] [DATA] Réka Albert, Hawoong Jeong and Albert-László Barabási: Diameter of the World Wide Web Nature 401, 130 (1999) [ PDF ]
- 构建networkx的网络对象g(提示:有向网络),将www数据添加到g当中
- 计算网络中的节点数量和链接数量
- 计算www网络的网络密度
- 绘制www网络的出度分布、入度分布
- 使用BA模型生成节点数为m取值为2,N取值分别为10、100、1000、10000时,绘制平均路径长度d与节点数量的关系
-
- 练习实现UserCF和ItemCF的python代码
-
- 使用graphlab对于音乐数据或电影数据构建推荐系统
- 使用graphlab进行主题模型分析
- 作业1: 使用另外一种sklearn的分类器来对tweet_negative2进行情感分析
- 作业2: 使用https://github.com/victorneo/Twitter-Sentimental-Analysis 所提供的推特数据进行情感分析,可以使用其代码 https://github.com/victorneo/Twitter-Sentimental-Analysis/blob/master/classification.py
政府工作报告文本挖掘,分词、词云、时间序列三个部分
- 天涯论坛数据的统计分析部分
- 泰坦尼克号数据的机器学习部分,要求尝试使用新的算法建立机器学习的模型。
- 运行notebook
- 抓取政府工作报告
- 清洗tweets数据
- 附件上传到issue里,提交方式:
- 苹果用户download as html,压缩为zip文件提交
- windows用户download as markdown,压缩为zip提交
- 注册Github账号
- 在这里 https://github.com/computational-class/cjc/issues 发起issue提交作业
- 关于markdown的介绍 https://en.wikipedia.org/wiki/Markdown
- 介绍自己:名字、学号、个人网站等
- 运行 GitHub/cjc/code/03.python_intro.ipynb中的python代码,
- 从%matplotlib inline开始执行代码
%matplotlib inline
import random, datetime
import numpy as np
import matplotlib.pyplot as plt
import matplotlib
import statsmodels.api as sm
from scipy.stats import norm
from scipy.stats.stats import pearsonr
- 将生成的.ipynb文件另存为html文件;
- 将html文件压缩为zip作为附件上传到issue里。
说明:所有的代码可以在这里快速浏览 http://nbviewer.jupyter.org/github/computational-class/cjc/tree/gh-pages/code/