这里的web编程不是指用python开发web程序,而是指用python与web交互,获取web信息。无论哪一种语言,与web进行交互,都是hack必不可少的技能。
嗯,这节课包括三部分,我会尽量写的有趣一点,以便大家能够欢乐的看完这篇笔记。
01
urllib,urllib2,requests
举个栗子,首先进入py环境。
[Python] 纯文本查看 复制代码import urllib.urllib2
#这样导入库有可能会出错,如果报错的话,可以分别导入:
[Python] 纯文本查看 复制代码 import urllibimport urllib2
url = 'http://http://www.ichunqiu.com'
r = urllib.urlopen(url)
print r.read()

这样就愉快的返回了ichunqiu首页的源代码
urllib和urllib2虽然是两个双胞胎兄弟,但他们的功能还是有差别的。
[Python] 纯文本查看 复制代码 urllib.urlopen(url)urllib.urlretrieve('域名',filename = '目录及名称')
urllib2.urlopen(url)

requests是第三方库,使用前需要使用
[Python] 纯文本查看 复制代码pip install requests
安装,
如果没有pip,可以使用
[Python] 纯文本查看 复制代码easy_install requests
进行安装

02 爬虫的小介绍
网络爬虫,又称为网络蜘蛛,是一种按照一定规则,自动抓取网路信息的程序或脚本。想象一下,用你自己编写的python爬虫在教务系统爬下全校女生的学籍信息的场景吧,或者去爬下乌云Zone的文章,唉,希望乌云能早日回归。
03 How to use python to write a 爬虫。。
这个也是我比较疑惑的地方,我就不在这里以其昏昏,使其昭昭了。