本文设计内容如下:
![爬虫Selenium&bs4 + Miku分享]()
2、然后进入每首歌曲的地址,找到评论以及下一页位置。(步骤同上) 3、Ok找到以后就可以安心的写代码了
![爬虫Selenium&bs4 + Miku分享]()
语言:python(3.x),R
工具:Spyder,Jupyter
内容:爬虫
模块/库/包:Python(selenium, bs4,rpy2)
DateBase :网易云音乐、bilibili
本人互联网行业分析师一枚,由于现在分析&挖掘界限不是很明显,同时爱好写代码,所以喜欢每个方面都接触一下,技多不压身嘛。
最近想练习一下爬虫,之前使用R的时候接触过RCurl ,Rvest等包,但是当时并没有接触太深入,只能爬一些简单的静态页面。之后换了套路:python + R。而python目前也就使用过selenium,bs4,所以也没法对比效率神马的,不过个人感觉爬虫python相对比起R来说更便捷,更效率,毕竟R是用来做数据科学的嘛。
一、数据采集&清洗两种数据采集,本人使用了两种思路,第一种是完全selenium.webdriver;第二种是selenium.webdriver + bs4. BeautifulSoup。
首先从网易云音乐采集Miku的歌曲评论数据及评论明细,此处使用selenium.webdriver:
1、首先在歌手页面找到每首歌的地址(此处借助Chrome DevTools)
2、然后进入每首歌曲的地址,找到评论以及下一页位置。(步骤同上) 3、Ok找到以后就可以安心的写代码了

不过此处有个小问题,就是频繁抓取会被网易弹到首页强制登录。(V纾