#coding:utf-8#爬虫基础,需要两个模块urllib和reimport urllib,re#获取网页源码def get_html(): page = urllib.urlopen('http://www.baidu.com') html = read(page) #用read方式读取网页源代码 return htmlx=0#匹配url的图片地址,然后下载 def getp_w_picpaths(): #编译成正则表达式对象,compile提高效率 p_w_picpath_re=re.compile(r'src="(.*?)" class=') #找到re匹配的所有字串,通过列表返回 p_w_picpath_list = re.findall(p_w_picpath_re,html) for p_w_picpath_url in p_w_picpath_list: print p_w_picpath_url global x #全局变量,后面可以跟上一个或多个变量 #将url定位到的html下载到本地 urllib.urlretrieve(p_w_picpath_url,'/tmp/python/%s.jpg'%x)