python爬虫案例

爬虫之批量下载美国环境局的空气质量数据
import numpy as np
import urllib.request
import os
#该批量下载针对同一页面的以时间为区别的多类数据。年份用YYYY来代替，然后利用replace来实现年份的替换来连续下载。
url_templat = "https://aqs.epa.gov/aqsweb/airdata/annual_conc_by_monitor_YYYY.zip"
download_path = r"D:\pycharm\spider\airdata"
for year in np.arange(2015,2020):
    this_url = url_templat.replace("YYYY",str(year))
    #python os.path.basename(path/file)方法 。返回path最后的文件名。如果path以／或\结尾，那么就会返回空值。
    this_basename = os.path.basename(this_url)
    #os.path.join() 函数用于拼接文件路径。
    this_target = os.path.join(download_path,this_basename)
    # urllib.request.urltrieve(url, filename=None, reporthook=None, data=None)
    # url: 远程服务器地址（即需要获取数据的地址）
    # filename: 将远程获取的数据存放入的文件名
    urllib.request.urlretrieve(this_url,this_target)
Python