使用Python抓取美团数据存于Excel中

使用python抓取美团数据存于Excel中

一点号数据分析精选2小时前

关键词：美团 Python Excel

0.程序是针对美团中的美食部分数据按好评排序采集。

要抓取保存的数据为：

商家名类型地理位置评论人数均价最低价格

1.首先编写网页数据采集函数，使用request采集网页源码，具体实现如下

def getHtml(url):

headers = ('User-Agent',

'Mozilla/5.0 (windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11')

opener = urllib.request.build_opener

opener.addheaders = [headers]

htmldata = opener.open(url).read

htmldata=htmldata.decode('utf-8')

return htmldata

2.根据网页源码解析获取已上线城市的url

class GetCityUrl(HTMLParser):

part = ('gaevent''changecity/build')

urldic = {}

def handle_starttag(self, tag, attrs):

if tag=='a' and (self.part in attrs):

for att,value in attrs:

if att=='href':

self.urldic.__setitem__(value, value+'/category/meishi/all/rating')

def getUrl(self):

return self.urldic

3.获取分页url

class GetPages(HTMLParser):

pagelist = list

temphref = str

flg = 0

initurl = str

def setInitUrl(self,url):

self.initurl = url

def handle_starttag(self, tag, attrs):

if tag=='a':

for attr,value in attrs:

if attr=='href' and ('page' in value):

self.temphref = self.initurl + value

if self.temphref not in self.pagelist:

self.pagelist.append(self.temphref)

def getList(self):

return self.pagelist

4.解析网页源码获取有效信息

class MyHTMLParser(HTMLParser):

tempstr = str

divsum = int

def handle_starttag(self, tag, attrs):

if tag=='div':

for attr,value in attrs:

if attr=='class' and value.find('poi-tile-nodeal')!=-1:

self.tempstr=''

self.divsum = 0

def handle_data(self, data):

if(data.isspace==False):

data = data.replace('', '')

if data=='':

if '' not in self.tempstr:

self.tempstr+='无' +'\t'

self.tempstr+=data

elif data=='':

if '' not in self.tempstr:

self.tempstr+='无' +'\t'

self.tempstr+=''

elif data=='人评价':

self.tempstr=self.tempstr[0:-1]+data+'\t'

elif data=='人均 ':

self.tempstr+='人均'

elif data[0]=='起':

使用Python抓取美团数据存于Excel中

Trending Articles

SM3268AB 8CE三星量产无法格式化

[下载工具]Think4V utubedown(Youtube高清视频下载工具) v2.1.6 官方版2.1.3

出售: SINE Othello 電源線

博讯｜张磊帮助下，李源潮的儿子被耶鲁录取

FullEventLogView 1.73 免安裝中文版 - 事件檢視器取代工具

同門四角戀？李沛旭喇舌「小郭雪芙」曾智希，蔡淑臻拍完婚紗...怒毀婚

五代RAV4 降車身（機械車位因素）

[攻略] 《魔獸世界》6.2.2 白色魚人蛋再現！來去收編魚人寶寶特基！

jetBrains Product crack 2024 Java based

2013 KUGA 6G轉動方向盤會聽到摳摳摳的異音，有人知道原因嗎?

【豌豆字幕組】[藥屋少女的呢喃（藥師少女的獨語）/ Kusuriya no Hitorigoto][25][繁體][1080P][MP4]

好用的照片后期处理软件【DxO PhotoLab Elite 5.4.0.4765 (x64) 多语言便携版】..

出售: Thixar Silence Plus 啫喱板

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

三條崙討海人故事…重建烏倉寮憶43年前船難

致喬立建設道歉聲明

[一般] 神州全地圖掉寶資料

方易通7862 8/128G 無360 刷機

動感校園小記者・瑪利諾修院學校｜採訪王瑋駿陳晞文帶領試玩風帆

有藍電流行車紀錄器分享文嗎