原文:
www.kdnuggets.com/2016/07/visiting-famous-movie-locations-san-francisco.html
作者:Juraj Kapasny,Knoyd
让数据科学向您展示通过旧金山著名电影拍摄地点的最佳路线
1. 谷歌网络安全证书 - 快速入门网络安全职业。
2. 谷歌数据分析专业证书 - 提升您的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持您的组织的 IT 工作
在这篇博客中,我们查看了旧金山的电影拍摄地点。通过使用谷歌地点 API 和 IMDb API,我们选择了黄金之城中每个电影爱好者在城里时应该参观的地方。
原数据集下载自 SF OpenData 网站,该网站提供关于旧金山的许多数据集。除了之前提到的电影地点外,您还可以在那里找到例如旧金山机场举办的所有展览、移动食品设施许可、航空噪音投诉数据、航空旅客统计等信息。
我们的基础数据集包括以下列:
-
标题(电影名称)
-
发布年份
-
地点(地点标识)
-
趣闻(如果有的话)
-
制作公司
-
发行商
-
导演
-
作者
-
演员 1(电影的主角)
-
演员 2(电影的第二主角(如果有的话))
-
演员 3(电影的第三主角(如果有的话))
包含了唯一标识地点的地点特征。然而,关于经纬度的信息缺失,所以我们无法立即将这些地点绘制到地图上。我们通过谷歌地点 API 找到了所有地点的地理坐标,并使用 Python 库 gmplot 将它们绘制在地图上。
接下来,我们只关注了拍摄了更著名电影的地点。为了确定这些电影,我们使用了 IMDb API。关于这些电影的所有信息,包括平均评分和总票数,均从 imdb.com 下载。根据平均评分,拍摄于旧金山的顶级电影有:
电影 | 评分 | 投票数量 |
---|---|---|
阿甘正传 | 8.8 | 1,234,615 |
Sense8 | 8.4 | 63,164 |
十三号星期五 | 8.3 | 82,126 |
寻找 | 8.3 | 10,696 |
我记得妈妈 | 8.3 | 3,857 |
另一方面,IMDb 上投票数量最多的电影是:
电影 | 评分 | 投票数 |
---|---|---|
福雷斯特·甘普 | 8.8 | 1,234,615 |
印第安纳·琼斯与最后的十字军 | 8.3 | 509,609 |
猩球崛起:黎明之战 | 7.6 | 313,938 |
蚁人 | 7.4 | 301,246 |
哥斯拉 | 6.5 | 299,385 |
利用这些评分和投票的组合,我们选择了前 7 部电影:福雷斯特·甘普、印第安纳·琼斯与最后的十字军、猩球崛起:黎明之战、蚁人、游戏、哥斯拉和毕业生。这些电影与旧金山的 36 个电影拍摄地点相关联。
为了对这些位置进行图形分析,我们需要找到一种方法来相应地设置图的边。为此,我们使用了一个叫做 Google API 的便利工具,它可以计算任何两个地理位置之间的驾车、骑行或步行距离。这些旅行时间被作为每对位置(节点或顶点)之间的边值。我们使用前 7 部电影中的地点,结合这些地点之间的骑行和驾车距离来构建图。此外,每个位置只创建了 2 条边,即到 2 个最近地点的边。这样做的逻辑是避免使用长时间旅行的路径。
在下面,你可以看到图的可视化和简单分析。这个图的边是根据位置之间的骑行距离创建的。
作为分析电影位置的下一步,我们研究了特定位置的中介中心性。中介中心性等于从所有顶点(在我们的情况下是位置)到所有其他顶点经过该节点的最短路径数量。一个中介中心性高的位置对在顶级电影位置网络中人员的转移有很大的影响,假设人们总是寻找最短路径。我们使用基于驾车和骑行距离的边来比较具有最大中介中心性的地点。我们得出了以下结果:
骑行时中介中心性最高的地点:
-
美国银行大楼(555 加州街)
-
301 霍华德街
-
海滨大道与华盛顿街
-
使命街与比尔街
-
海湾大桥
驾车时中介中心性最高的地点:
-
美国银行大楼(555 加州街)
-
华盛顿街与韦弗利广场(中国城)
-
城市俱乐部(155 桑索姆街)
-
海滨大道与华盛顿街
-
海湾大桥
我们可以看到,当使用驾车距离时,有两个地方发生了变化:301 霍华德街和使命街与比尔街被华盛顿街与韦弗利广场(中国城)以及城市俱乐部(155 桑索姆街)分别替代。这意味着电影迷在驾车出行时更可能经过旧金山的中国城。
最后,我们研究了旅行商问题(TSP),并将其应用于我们的数据集。TSP 是一个优化问题,旨在寻找访问给定地点集合的最短可能路线。使用随机起点和迭代算法,我们得出了一个电影爱好者应该沿着的路线,如果他们想访问所有著名电影中的有趣地点。
你可以在下面看到最佳路线的可视化。谷歌仅支持 1 条路线中的 10 个地点,因此创建了四层。每层的描述以 A 开头,以 J 结束,J 与下一层的 A 重叠。每层的开始部分用数字标记,以便更易读。
这是最佳路线行程,从哈里森街(码头街)开始,到使命街与比尔街结束:
-
0(A) - 哈里森街 - 码头街(游戏)
-
1(B) - 使命街与弗里蒙特街交汇处(哥斯拉)
-
2(C) - 霍华德街 301 号(游戏)
-
3(D) - 海湾大桥(毕业生)
-
4(E) - 行政大楼 - 宝岛(印第安纳·琼斯与最后的十字军)
-
5(F) - 加州街与鲍威尔街交汇处(猩球崛起:黎明之战)
-
6(G) - 码头 1(哥斯拉)
-
7(H) - 百老汇街在鲍威尔街与戴维斯街之间(蚁人)
-
8(I) - 加州街与戴维斯街交汇处(哥斯拉)
-
9(J-A) - 市政厅(猩球崛起:黎明之战)
-
10(B) - 波特雷罗街与圣布鲁诺街交汇处(哥斯拉)
-
11(C) - 阿里奥托公园(猩球崛起:黎明之战)
-
12(D) - 市场街在斯图尔特街与 VData Science 之间(蚁人)
-
13(E) - 艾迪街与泰勒街交汇处(哥斯拉)
-
14(F) - 乔治街 420 号与艾利斯街交汇处(蚁人)
-
15(G) - 波士顿街与乔治街交汇处(哥斯拉)
-
16(H) - 总统公园 - 金门国家休闲区(游戏)
-
17(I) - 康泽尔曼路在麦考洛赫路与康泽尔曼路下方(蚁人)
-
18(J-A) - 梅森街与加州街交汇处 - 诺布山(游戏)
-
19(B) - 百老汇街与哥伦布街交汇处(哥斯拉)
-
20(C) - 萨克拉门托街与前街交汇处(哥斯拉)
-
21(D) - 码头 7 - 码头街(哥斯拉)
-
22(E) - 码头街与华盛顿街交汇处(哥斯拉)
-
23(F) - 布什街与基尔尼街交汇处(哥斯拉)
-
24(G) - 加州街从梅森到基尔尼(猩球崛起:黎明之战)
-
25(H) - 基尔尼街与松树街交汇处(哥斯拉)
-
26(I) - 斯托克顿街与克雷街交汇处(哥斯拉)
-
27(J-A) - 大学俱乐部(猩球崛起:黎明之战)
-
28(B) - 松树街在基尔尼街与戴维斯街之间(蚁人)
-
29(C) - 华盛顿街与韦弗利广场 - 中国城(游戏)
-
30(D) - 哥伦布街在湾区与华盛顿街之间(蚁人)
-
31(E) - 美国银行大楼 - 555 加州街(游戏)
-
32(F) - 城市俱乐部 - 155 桑索姆街(游戏)
-
33(G) - 格兰特街在布什街与百老汇街之间(蚁人)
-
34(H) - 松树街与戴维斯街交汇处(哥斯拉)
-
35(I) - 使命街与比尔街交汇处(哥斯拉)
在更详细的旧金山市中心地图上:
如果你感兴趣,可以自己查看来自海湾城市的其他数据源 - 我们肯定会去做的。
简介: Juraj Kapasny 是 Knoyd 的联合创始人和数据科学家,数据挖掘爱好者,曾任职于 Teradata(维也纳,奥地利)。他曾参与过许多客户特定项目,涉及电信、金融或汽车等行业,帮助客户从数据中获取额外的见解和价值。
相关内容:
-
OpenText 数据可视化 – 红地毯版
-
哪些电影续集真的更好?数据科学的答案
-
大数据如何在推荐系统中改变我们的生活