Quantcast
Channel: CodeSection,代码区,Python开发技术文章_教程 - CodeSec
Viewing all articles
Browse latest Browse all 9596

我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么丨数据工匠简报(Feb. 13)

$
0
0
我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么
我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么丨数据工匠简报(Feb. 13)
听了这么多年民谣,我有一种感觉,就是很多歌都似曾相识,但是仔细一想,又哪一首都想不起来,为了搞清楚这群流浪在祖国大地的现代游吟诗人们都在唱些什么,我做了一些数据分析的工作。

我选取了大约30个或比较大众,或比较小众的民谣歌手和乐队,包括李志,夭十三,赵雷,宋冬野,周云蓬,逃跑计划等等,为了设立参照,我还取了一些其他风格的乐队,比如老一些的汪峰,窦唯,朴树和新一些的低苦艾,谢天笑,反光镜,草东等等。

我首先写了一个爬虫,它可以根据歌手或乐队的名字来自动抓取这个歌手的所有歌,为了保证平衡,我最多只抓取前50首歌,老实说,大多数歌手被人熟知的歌并不会超过这个数字。


我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么丨数据工匠简报(Feb. 13)
德州扑克被 AI 攻克的背后:一个产业的危机和几个人的 20 年
我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么丨数据工匠简报(Feb. 13)
世界上最好的职业扑克选手中的 4 位在一月的时候在匹兹堡参加了一项比赛,然而他们输了。他们每天早上 11 点出现在电脑前,穿着运动裤和球鞋,玩的是 1500 手的一对一无限下注德州扑克,然后一直玩到晚上,这意味着他们每天的比赛时间超过 10 个小时。在一天的过程中,咖啡和水瓶都堆放在玩家的键盘旁边,而吃的 Chipotle 袋子则散落一地。

每当这些玩家发出一个动作,它就会被传送到位于 5 英里外的卡内基梅隆大学处的计算机服务器上。在那里,一个信号将再旅行 12 英里到他们的对手――一个名为 Libratus 的软件处,它运行在位于郊区的匹兹堡超级计算中心。Libratus 一次发出 8 个动作――每个对手应对两个。它刻意把自己的速率降低,这让它的人类对手们有点蛋疼,其中一位 Jason Les 表示:「这让一天的时间变得更长了」。在 Les 这位运动男看来,「等待确实不应该影响我,但有时就像是,『好吧,这还有完没完了?』」


我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么丨数据工匠简报(Feb. 13)
GraphLab Create API 中文文档 - 数据工程 - graphlab.SFrame
我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么丨数据工匠简报(Feb. 13)
一个列数可变的表格型数据框架对象,可以适应大数据。SFrame中的数据在GraphLabServer 中以列优先的方式存储,并且存储在持久性存储媒介(例如磁盘)中,避免了被内存大小所限制。SFrame中的每一列都是一个大小不可变的SArray,但是SFrame可以通过增加或者减少列来轻松地改变。一个SFrame基本上表现为SArray的一个有序dict。

目前,我们支持从下列方式建立SFrame。

csv 文件 (逗号分隔值) sframe存档路径 (一个已经保存了SFrame的路径。) 普通文本文件(解析CSV选项,参见read_csv()) 一个python词典类 pandas.DataFrame JSON Apache Avro PySpark RDD

以及下列数据来源:

你的本地文件系统 GraphLab Server文件系统 HDFS Amazon S3 HTTP(S)

下面仅给出了基本的示例。更多的信息和示例,请参考用户手册,API Translator,How-Tos, 和 数据科学Gallery。


我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么丨数据工匠简报(Feb. 13)

以上简讯由数据工匠提供,感兴趣的小伙伴可以通过扫描简报后的二维码链接原文,更多数据科学资讯尽在数据工匠,扫码关注 Datartisan 数据工匠公众号!如果你看到什么与“数据科学”有关的好文或者信息科技优质的文章,可以随手转发给我们,让更多热爱数据科学的小伙伴一起成长!


我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么丨数据工匠简报(Feb. 13)

Viewing all articles
Browse latest Browse all 9596

Trending Articles