Quantcast
Channel: CodeSection,代码区,Python开发技术文章_教程 - CodeSec
Viewing all articles
Browse latest Browse all 9596

python爬取百度新闻:分析共享单车火爆背后有哪些规则?

$
0
0
python爬取百度新闻:分析共享单车火爆背后有哪些规则?

一点号复旦大数据2天前

从12月份起,“共享单车”作为新生事物开始大量进入人们的视野,并且越来越多的上班族愿意接受、尝试。

本文将教与大家利用python爬虫抓取新闻页面,从媒体反映角度去了解,“共享单车”为何有井喷式发展,前景又是如何?


php?url=0FJybRlwcS" alt="python爬取百度新闻:分析共享单车火爆背后有哪些规则?" />

一、百度新闻页面抓取

进入百度新闻页面

http://news.baidu.com/ns?ct=1&rn=20&ie=utf-8&bs=%E5%8D%95%E8%BD%A6+%E6%8A%95%E8%B5%84&rsv_bp=1&sr=0&cl=2&f=8&prevct=no&tn=news&word=%E5%85%B1%E4%BA%AB%E5%8D%95%E8%BD%A6&rsv_sug3=9&rsv_sug4=679&rsv_sug1=4&inputT=6133&rsv_sug=1


python爬取百度新闻:分析共享单车火爆背后有哪些规则?

我们选定的关键词为“共享单车”,“网约+单车”,“网约+自行车”,“单车+投资”,“单车+融资”。在python爬虫的url代码中依次更换这几个关键字分别爬取。


python爬取百度新闻:分析共享单车火爆背后有哪些规则?

红框内为我们需要提取的内容,即新闻标题,发布媒体,发布时间三个字段。

python2.7 爬虫代码如下:

#coding:utf-8importurllib2 importcsv importre frombs4importBeautifulSoup #设置默认encoding方式importsys reload(sys)sys.setdefaultencoding('utf-8')#此处需要注意,最好查看一下最大网页数,如果填超过了会报错 forkinrange(138):url ='http://news.baidu.com/ns?word=单车+融资&pn=%s&cl=2&ct=1&tn=news&rn=20&ie=utf-8&bt=0&et=0'% ((k-1)*20) csvfile =file('rongzi.csv''ab+')writer = csv.writer(csvfile)content = urllib2.urlopen(url).read#获取网页的html文本#使用BeautifulSoup解析htmlsoup = BeautifulSoup(content,'lxml')list0 = list1 = list2 = list3 = #识别热点新闻foriinrange(020):hotNews = soup.find_all('div', {'class''result'})[i]a1=hotNews.find(name="a"attrs={"target": re.compile("_blank")})list0.append(a1.text)a2=hotNews.find(name="p"attrs={"class": re.compile("c-author")})t1=a2.text.split[0]list1.append(t1)t2 = a2.text.split[1]list2.append(t2) ift2.find(u'年') ==4:t3 = a2.text.split[2]list3.append(t3) else:list3.append(' ')#将数据写入csvdata = foriinrange(020):data.append((list0[i], list1[i], list2[i],list3[i]))writer.writerows(data) csvfile.close print"第"+str(k) +"页完成"代码中需要注意的地方是开头的最好查看一下百度搜索的最大网页数,如果填写超过了会报错
python爬取百度新闻:分析共享单车火爆背后有哪些规则?
另外,数据爬取下来后保存的是csv格式,需要先用记事本打开,点另存为 设置编码格式,不然直接打开会是一堆乱码。(坑都为你指出来了~)
python爬取百度新闻:分析共享单车火爆背后有哪些规则?
本次爬取的数据如下,共计2400多条。数据稍加清洗便可做分析。
python爬取百度新闻:分析共享单车火爆背后有哪些规则?
二、文本数据分析“共享单车”萌芽于何时?
python爬取百度新闻:分析共享单车火爆背后有哪些规则?
最早提及“共享单车”一词的报道是腾讯科技于2015年11月9日发布。当时的经济背景是创投遇冷,共享经济火热。 2015年末,在移动互联网红利将尽,O2O项目接连倒闭的情况下,共享汽车、房子、自行车成为了最热门的项目。共享经济的代表Uber和Airbnb连续几年都是美国创业公司估值排行中的第一和第二,而在中国遇见了太多的现实问题。网约车新政、房屋出租的管理条例、以及地方性的城市管理条例都会对共享经济的发展造成巨大的影响。 腾讯科技推出系列文章《共享经济这一年》第三期:公共自行车入局,共享单车开启混战模式,谁能笑到最后?引起媒体对“共享单车”的关注。据原文介绍,自2015年9月以来,宣布进入共享单车领域的新厂商至少已有十几家,入局者遍及互联网公司、单车制造商、公共自行车运营方等。一些厂商为了能在冬天继续开展业务,一反此前将北京上海作为首站的常态,将目标首先投向温暖的广东,以争取珍贵的几个月时间。不过,老玩家们也不是没有想到这一点。原本在领域内占据最大的份额的摩拜与ofo两家已经布局了广州深圳两座南方城市。至此,布局五座城的摩拜与布局四座城的ofo已在北上广深四座城开战,加上新入局的玩家,广深两地的共享单车市场预计将变得越发热闹。 使用在线词频分析工具进行统计
python爬取百度新闻:分析共享单车火爆背后有哪些规则?
词频 TOP10去掉搜索关键词 “单车”、“共享”、“自行车”,从统计结果看,行业内前十的关键字,80%都跟“钱”有关。媒体非常关注资本市场,换句话说,共享单车兴起不久,现在已演变为资本驱动市场,在资本领域的角逐异常激烈。“大战”一词的比重颇高,不由得联想到前几年网约车刚兴起,滴滴与快滴之间为争夺市场而引发激烈的价格战。从词云结果看,“烧钱”、“融资”,“火拼”,“混战”占据着头条。
python爬取百度新闻:分析共享单车火爆背后有哪些规则?
python爬取百度新闻:分析共享单车火爆背后有哪些规则?
以下为节选的近期共享单车行业融资消息:2016年9月,滴滴出行数千万美元战略投资ofo共享单车;

2016年9月,摩拜单车宣布获得腾讯、红杉等战略投资,一亿美金的C轮融资;

2016年10月,ofo共享单车获1.3亿美元投资 小米顺为资本等领投;

2016年11月,优拜单车获1.5亿元A轮融资;

2016年12月,优拜单车再获1亿元B融资;

2016年12月“1步单车”A轮融资2亿元,投资方为恒基浦业和众驰投资

。。。。 简直白热化的融资速度。如果一个市场不能快速建立核心竞争力,建立行业壁垒,待资本加入进来,争夺将是残酷的值得一提的是,前十关键字中,为何有“尴尬”一词?查看原文~~
python爬取百度新闻:分析共享单车火爆背后有哪些规则?
不禁让人哑然,与“尴尬”一词联系紧密的有“损毁”、"上锁",“频遭”,“骗钱”,“难觅”。。。这行业缺乏有力监管,市场混乱可想而知。从下面搜索结果看,单车还被扔到河里也是没谁了。。。
python爬取百度新闻:分析共享单车火爆背后有哪些规则?
下面来看品牌热度
python爬取百度新闻:分析共享单车火爆背后有哪些规则?

过去一年以来,媒体中报道的共享单车品牌在十家左右,其中ofo、摩拜两个品牌出现报道最早,现在的用户份额也最大,优拜、小鸣单车、小蓝单车为最近入行,资本实力不容小觑。其中,优拜在206年11月份获1亿元A+轮融资,“小鸣单车”在2016年9月份获联创永宣冯涛等数千万人民币天使融资,2016年10月20日,宣布1亿元A轮融资消息12天后,小鸣单车又顺利完成了B轮融资,融资额和投资方都暂未透露。

地域热度


python爬取百度新闻:分析共享单车火爆背后有哪些规则?
可以看出,共享单车现在未在全国内推广,多数中小城市仍为空白,各品牌现在都是“先入者”,格局未定,处于“自由生长”阶段。待行业“领导者”出现,将迎来一场大规模的市场洗牌。

媒体特征


python爬取百度新闻:分析共享单车火爆背后有哪些规则?

关注媒体共计438家,其中网易新闻以163条居首,前十家的媒体发布量占整体的26%。发布媒体类型的占比如下,其中财经类占半数。


python爬取百度新闻:分析共享单车火爆背后有哪些规则?
发布日期
python爬取百度新闻:分析共享单车火爆背后有哪些规则?

很明显,进入206年7月后,共享单车市场逐渐火热,直到12月份达到顶峰,一个月内新闻发布量达700篇。


python爬取百度新闻:分析共享单车火爆背后有哪些规则?
从发布时间点来看,上午9点至11点间的发布量最大,一天之内有两个峰值,分别为上午10点左右,下午15:30左右。而媒体是倾向于第一时间发布消息的,0点至上午12点以前的发布量占54%。

本文至此结束。如借助微博等社交平台,爬取到用户评论信息,舆论的挖掘将更全面,这个留到下次再探究。


Viewing all articles
Browse latest Browse all 9596

Latest Images

Trending Articles