1. 数据来源
智能交通系统(ITS)车辆检测站( Vehicle Detector Stations: VDS);流量统计站: Traffic Census Stations;Weight-In-Motion (WIM)传感器;加州公路巡警(CHP)事故数据;交通事故监测和分析系统(TASAS)事故数据;······
2. 数据特点
超过44,681个检测器每30秒报告一次数据;一旦完成编译30秒的数据集,没有任何间隙,数据就会被聚合成5分钟的增量。各种性能数据可用,如容量、速度、延迟、车辆行驶里程(VMT)、车辆行驶小时(VHT)、行驶时间和年平均日交通流量(AADT);3. 数据诊断与处理
基于局部系数的邻接线性回归——数据空白是通过来自同一位置邻近车道的检测器以及直接上下游位置的检测器的信息来填充的;基于全局系数的邻居线性回归——当PeMS确定某些检测器从未报告合理的数据时,系统会查看整个区域的检测器数据中的一般关系,以填补空白;临时中间值——pem查看长时间内相似时间和每周天数的数据值。这些数据值的中位数用于填补空白;集群中值——PeMS检查一周内来自具有类似流量模式的检测器的数据,以填补数据空白。4. PeMS数据格式
DashboardsMapsPlots and graphsTablesExport to text/spreadsheet fileAnimation video.部分数据解释如下:
PeMS中有四个不同的地图:实时地图、性能地图、库存地图和搜索地图(Real-Time Map, the Performance Map, the Inventory Map, and the Search Map)。
(2)Plots and Charts
PeMS允许用户将大多数报告中的数据导出到单独的文本文件或电子表格文件(Microsoft Excel . xls)。
(4)Animation Videos
1. 相关数据链接
2. 数据爬虫下载
#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2019/11/14 21:23# @Author : Chenchen Wei# @Description: 下载PeMS流量数据,一次下载一周数据,并将下载的周数据进行合并import timeimport osimport numpy as npimport pandas as pdimport requestsdef time_2_timestamp(input, lags=True): """默认True: 时间转化为时间戳, 包含时差计算""" if lags: timeArray = time.strptime(input, "%Y-%m-%d %H:%M") # 转换成时间戳 return int(time.mktime(timeArray) + 8 * 60 * 60) # 时差计算 else: time_local = time.localtime(input - 8 * 60 * 60) return time.strftime("%Y-%m-%d %H:%M", time_local)def download(save_path, vds, start_time, end_time): """时间转化为时间戳""" start_stamp, end_stamp = time_2_timestamp(start_time), time_2_timestamp(end_time) i = 1 for begin in range(start_stamp, end_stamp, 60 * 60 * 24 * 7): url = get_url(vds, begin) down_load_data(save_path, url, i) i += 1 print('Sleeping...') time.sleep(15) # 下载完成休息五秒def down_load_data(save_path, url, i): headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) " "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"} data = {"redirect": "", "username": "账号", "password": "密码", "login": "Login"} session = requests.session() response = session.post(url, headers=headers, data=data) response = session.get(url) with open(save_path + '\\' + str(i) + '.xlsx', 'wb') as f: f.write(response.content) print('下载成功')def get_url(vds, begin): str_begin = time_2_timestamp(begin, False) s_begin = str_begin[5:7] + '%2F' + str_begin[8:10] + '%2F' + str_begin[:4] + '+00%3A00', end = begin + 60 * 60 * 24 * 7 - 60 str_end = time_2_timestamp(end, False) s_end = str_end[5:7] + '%2F' + str_end[8:10] + '%2F' + str_end[:4] + '+23%3A59', url = 'http://pems.dot.ca.gov/?report_form=1&dnode=VDS&content=loops&export=xls&station_id=' \ + str(vds) + '&s_time_id=' + str(begin) + '&s_time_id_f=' + str(s_begin) + '&e_time_id=' + str( end) + '&e_time_id_f=' + str(s_end) + '&tod=all&tod_from=0&tod_to=0&dow_0=on&dow_1=on&dow_2=on&dow_3=on&dow_4=on&dow_5=on&dow_6' \ '=on&holidays=on&q=flow&q2=&gn=5min&agg=on&lane1=on&lane2=on&lane3=on&lane4=on' # print(url) print('获取url: vds[%s] %s --- %s' % (str(vds), str_begin, str_end)) return urldef combine_download_data(vds, path): num = len(os.listdir(path)) dfs = pd.read_excel(path + '\\1.xlsx', index_col=None).values for i in range(2, num + 1): df = pd.read_excel(path + '\\' + str(i) + '.xlsx', index_col=None).values dfs = np.row_stack((dfs, df)) pd.DataFrame(dfs).to_csv(path + '\\' + str(vds) + '_combine.csv', index=None, header=None) print('合并文件保存成功')if __name__ == '__main__': save_path = r'G:\文档\交通数据集\加州数据集\自动下载数据' # 文件保存路径 vds_list = [602467, 602468] # 需要下载的VDS列表 start_time, end_time = '2019-01-01 00:00', '2019-01-14 23:59' # 数据下载开始于结束时间,每次下载一周,无数据则下载为空文件 for vds in vds_list: name = start_time[2:10] + '_' + end_time[2:10] save_paths = save_path + '\\' + name + '\\' + str(vds) # 创建文件保存路径 if not os.path.exists(save_paths): os.makedirs(save_paths) print('开始下载:%s %s---%s' % (str(vds), start_time, end_time)) download(save_paths, vds, start_time, end_time) # 下载文件 combine_download_data(vds, save_paths) # 将单个VDS下载文件进行合并
3. 部分路网数据集(持续更新中···)