爬虫之批量下载美国环境局的空气质量数据
import numpy as np
import urllib.request
import os
#该批量下载针对同一页面的以时间为区别的多类数据。年份用YYYY来代替,然后利用replace来实现年份的替换来连续下载。
url_templat = "https://aqs.epa.gov/aqsweb/airdata/annual_conc_by_monitor_YYYY.zip"
download_path = r"D:\pycharm\spider\airdata"
for year in np.arange(2015,2020):
this_url = url_templat.replace("YYYY",str(year))
#python os.path.basename(path/file)方法 。返回path最后的文件名。如果path以/或\结尾,那么就会返回空值。
this_basename = os.path.basename(this_url)
#os.path.join() 函数用于拼接文件路径。
this_target = os.path.join(download_path,this_basename)
# urllib.request.urltrieve(url, filename=None, reporthook=None, data=None)
# url: 远程服务器地址(即需要获取数据的地址)
# filename: 将远程获取的数据存放入的文件名
urllib.request.urlretrieve(this_url,this_target)