Use o TransBigData para processar, analisar e minerar dados de GPS de táxi com rapidez e eficiência

foto

01. Introdução ao TransBigData

TransBigData é um pacote Python desenvolvido para processamento, análise e visualização de big data espaço-temporal de tráfego. O TransBigData fornece um método rápido e conciso para o processamento de grandes dados espaço-temporais comuns de tráfego (como dados de GPS de táxi, dados de bicicletas compartilhadas e dados de GPS de ônibus, etc.). TransBigData fornece uma variedade de métodos de processamento para vários estágios de análise de big data espaço-temporal de tráfego. O código é conciso, eficiente, flexível e fácil de usar. Ele pode realizar tarefas de dados complexas com código conciso.

Atualmente, TransBigData fornece principalmente os seguintes métodos:

❖Pré -processamento de dados: fornece métodos para calcular rapidamente informações básicas, como volume de dados, período de tempo e intervalo de amostragem para conjuntos de dados e fornece métodos de limpeza correspondentes para vários ruídos de dados.

Rasterização de dados: fornece um sistema de método para gerar e combinar vários tipos de grades geográficas (grades retangulares, triangulares, hexagonais e geohash) na área de pesquisa e pode converter rapidamente dados de pontos espaciais de maneira vetorizada mapeados em uma varredura geográfica.

❖Visualização de dados : Com base no pacote de visualização keplergl, os dados podem ser exibidos de forma interativa e visual no Jupyter Notebook com código simples.

❖Processamento de trilha : gere o tipo de linha de trilha a partir de pontos de GPS de dados de trilha, densificação de ponto de trilha, desbaste, etc.

Mapa base do mapa, conversão de coordenadas e cálculo: carregue e exiba a conversão de coordenadas entre o mapa base do mapa e vários sistemas de coordenadas especiais.

❖Métodos de processamento específicos : Forneça métodos de processamento correspondentes para vários dados específicos, como extrair a origem do pedido e os pontos de destino dos dados do GPS do táxi, identificar a residência e o local de trabalho a partir dos dados de sinalização do telefone celular, construir a estrutura da topologia da rede a partir dos dados GIS da rede do metrô e calcular o caminho mais curto, etc.

O TransBigData pode ser instalado via pip ou conda, execute o seguinte código no prompt de comando para instalar:

pip install -U transbigdata

Após a conclusão da instalação, execute o seguinte código em Python para importar o pacote TransBigData.

In [1]:
import transbigdata as tbd

02. Pré-processamento de dados

O TransBigData pode se conectar perfeitamente com os pacotes Pandas e GeoPandas comumente usados ​​no processamento de dados. Primeiro importamos o pacote Pandas e lemos os dados do GPS do táxi:

In [2]:
import pandas as pd  
#读取数据      
data = pd.read_csv('TaxiData-Sample.csv',header = None)   
data.columns = ['VehicleNum','time','lon','lat','OpenStatus','Speed'] 
data.head()

O resultado é mostrado na Figura 1.

foto

■ Figura 1 Dados do GPS do táxi

Em seguida, introduza o pacote GeoPandas, leia as informações da área da área de pesquisa e exiba:


In [3]:
import geopandas as gpd  
#读取研究范围区域信息  
sz = gpd.read_file(r'sz/sz.shp')  
sz.plot()

O resultado é mostrado na Figura 2.

foto

■ Figura 2 Informações da área do escopo da pesquisa

O pacote TransBigData integra alguns métodos comuns de pré-processamento para tráfego de dados espaço-temporais. Dentre eles, o método tbd.clean_outofshape insere os dados e as informações da área da área de pesquisa, podendo eliminar os dados fora da área de pesquisa. O método tbd.clean_taxi_status pode remover o registro da mudança instantânea do status do passageiro nos dados do GPS do táxi. Ao usar o método de pré-processamento, você precisa passar os nomes das colunas correspondentes às colunas de informações importantes na tabela de dados. O código é o seguinte:


In [4]:
#数据预处理  
#剔除研究范围外的数据,计算原理是在方法中先栅格化后栅格匹配研究范围后实现对应。因此这里需要同时定义栅格大小,越小则精度越高  
data = tbd.clean_outofshape(data, sz, col=['lon', 'lat'], accuracy=500)  
#剔除出租车数据中载客状态瞬间变化的数据  
data = tbd.clean_taxi_status(data, col=['VehicleNum', 'time', 'OpenStatus'])

Após o processamento do código acima, já eliminamos os dados fora do escopo da pesquisa e a mudança instantânea de status do passageiro nos dados do GPS do táxi.

03. Rasterização de dados

A forma de grade (grade com o mesmo tamanho no espaço geográfico) é o método mais básico para expressar a distribuição de dados. Depois que os dados do GPS são rasterizados, cada ponto de dados contém as informações do raster onde está localizado. Quando uma grade é usada para expressar a distribuição de dados, a distribuição que ela representa é próxima da situação real.

A ferramenta TransBigData nos fornece um sistema de processamento raster completo, rápido e conveniente. Ao usar o TransBigData para rasterização, primeiro você precisa determinar os parâmetros de rasterização (que podem ser entendidos como a definição de um sistema de coordenadas de grade), e os parâmetros podem nos ajudar a rasterizar rapidamente:

In [5]:
#定义研究范围边界
bounds = [113.75, 22.4, 114.62, 22.86]
#通过边界获取栅格化参数
params = tbd.area_to_params(bounds,accuracy = 1000)
params

Out [5]:
{'slon': 113.75, 
 'slat': 22.4, 
 'deltalon': 0.00974336289289822, 
 'deltalat': 0.008993210412845813,
 'theta': 0,
 'method': 'rect',
 'gridsize': 1000}

O conteúdo da saída dos parâmetros de rasterização neste momento armazena as coordenadas de origem do sistema de coordenadas da grade (slon, slat), o comprimento e a largura da latitude e longitude de uma única grade (deltalon, deltalat), o ângulo de rotação da grade ( teta) e a grade A forma da grade (o parâmetro do método, cujo valor pode ser quadrado reto, triangular tri e hexagonal hexa) e o tamanho da grade (parâmetro gridsize, em metros).

Depois de obter os parâmetros de rasterização, podemos usar os métodos fornecidos no TransBigData para realizar operações de correspondência e geração de raster em dados de GPS. O sistema completo do método de processamento de grade é mostrado na Figura 3.

foto

■ Figura 3 O sistema de processamento raster fornecido pela TransBigData

Utilize o método tbd.GPS_to_grid para gerar para cada táxi ponto GPS. Este método irá gerar as colunas numeradas LONCOL e LATCOL, e estas duas colunas especificam conjuntamente a grade onde estão localizadas:


In [6]:
#将GPS数据对应至栅格,将生成的栅格编号列赋值到数据表上作为新的两列
data['LONCOL'],data['LATCOL'] = tbd.GPS_to_grids(data['lon'],data['lat'],params)

 Na próxima etapa, agregue a quantidade de dados em cada raster, gere geometria geográfica para o raster e construa um GeoDataFrame:


In [7]:
#聚合集计栅格内数据量  
grid_agg = data.groupby(['LONCOL','LATCOL'])['VehicleNum'].count().reset_index()  
#生成栅格的几何图形  
grid_agg['geometry'] = tbd.grid_to_polygon([grid_agg['LONCOL'],grid_agg['LATCOL']],params)  
#转换为GeoDataFrame  
grid_agg = gpd.GeoDataFrame(grid_agg)  
#绘制栅格  
grid_agg.plot(column = 'VehicleNum',cmap = 'autumn_r')  

O resultado é mostrado na Figura 4.

foto

  

■ Figura 5 O resultado da rasterização de dados

Para uma visualização de dados formal, também precisamos adicionar mapa base, barra de cores, seta norte e barra de escala. TransBigData também fornece funções correspondentes, o código é o seguinte:

In [8]:
import matplotlib.pyplot as plt  
fig =plt.figure(1,(8,8),dpi=300)  
ax =plt.subplot(111)  
plt.sca(ax)  
#添加行政区划边界作为底图
sz.plot(ax = ax,edgecolor = (0,0,0,0),facecolor = (0,0,0,0.1),linewidths=0.5)
#定义色条位置  
cax = plt.axes([0.04, 0.33, 0.02, 0.3])  
plt.title('Data count')  
plt.sca(ax)  
#绘制数据  
grid_agg.plot(column = 'VehicleNum',cmap = 'autumn_r',ax = ax,cax = cax,legend = True)  
#添加指北针和比例尺  
tbd.plotscale(ax,bounds = bounds,textsize = 10,compasssize = 1,accuracy = 2000,rect = [0.06,0.03],zorder = 10)  
plt.axis('off')  
plt.xlim(bounds[0],bounds[2])  
plt.ylim(bounds[1],bounds[3])  
plt.show()  

 O resultado é mostrado na Figura 5.

foto

■ Figura 5 Distribuição de dados de GPS de táxi desenhada pelo pacote tbd

04. Extração e agregação de OD origem e destino do pedido

Para dados de GPS de táxi, o TransBigData fornece um método para extrair informações de origem de pedido de táxi (OD) diretamente dos dados, o código é o seguinte:


In [9]:  
#从GPS数据提取OD  
oddata = tbd.taxigps_to_od(data,col = ['VehicleNum','time','Lng','Lat','OpenStatus'])  
oddata  

 O resultado é mostrado na Figura 6.

foto

■ Figura 6 Taxi OD extraído do pacote tbd

O método de rasterização fornecido pelo pacote TransBigData nos permite definir rapidamente a rasterização, sendo necessário apenas modificar o parâmetro de precisão para definir rapidamente rasters de diferentes tamanhos e granularidades. Redefinimos um sistema de coordenadas de grade de 2 km * 2 km e passamos seus parâmetros para o método tbd.odagg_grid para executar a agregação de grade no OD e gerar um GeoDataFrame:


In [10]:  
#重新定义栅格,获取栅格化参数  
params = tbd.area_to_params(bounds,accuracy = 2000)  
#栅格化OD并集计  
od_gdf = tbd.odagg_grid(oddata,params)  
od_gdf.plot(column = 'count')  

 O resultado é mostrado na Figura 7.

foto

■ Figura 7 Grade OD de agregação tbd

Adicionar mapa base do mapa, barra de cores e seta norte da barra de escala:


In [11]:
#创建图框  
import matplotlib.pyplot as plt  
fig =plt.figure(1,(8,8),dpi=300)  
ax =plt.subplot(111)  
plt.sca(ax)  
#添加行政区划边界作为底图  
sz.plot(ax = ax,edgecolor = (0,0,0,1),facecolor = (0,0,0,0),linewidths=0.5)
#绘制colorbar  
cax = plt.axes([0.05, 0.33, 0.02, 0.3])  
plt.title('Data count')  
plt.sca(ax)  
#绘制OD  
od_gdf.plot(ax = ax,column = 'count',cmap = 'Blues_r',linewidth = 0.5,vmax = 10,cax = cax,legend = True)  
#添加比例尺和指北针  
tbd.plotscale(ax,bounds = bounds,textsize = 10,compasssize = 1,accuracy = 2000,rect = [0.06,0.03],zorder = 10)  
plt.axis('off')  
plt.xlim(bounds[0],bounds[2])  
plt.ylim(bounds[1],bounds[3])  
plt.show()  

 O resultado é mostrado na Figura 8.

foto

■ Figura 8 Dados Raster OD desenhados por TransBigData

Ao mesmo tempo, o pacote TransBigData também fornece um método para agregar OD diretamente em regiões:


In [12]:
#OD集计到区域
#方法1:在不传入栅格化参数时,直接用经纬度匹配
od_gdf = tbd.odagg_shape(oddata,sz,round_accuracy=6)  
#方法2:传入栅格化参数时,程序会先栅格化后匹配以加快运算速度,数据量大时建议使用  
od_gdf = tbd.odagg_shape(oddata,sz,params = params)  
od_gdf.plot(column = 'count')  

 O resultado é mostrado na Figura 9.

foto

■ Figura 9 Célula OD do agregado tbd

Carregue o mapa base do mapa e ajuste os parâmetros de plotagem:

        


In [13]:
#创建图框  
import matplotlib.pyplot as plt  
import plot_map  
fig =plt.figure(1,(8,8),dpi=300)  
ax =plt.subplot(111)  
plt.sca(ax)  
#添加行政区划边界作为底图  
sz.plot(ax = ax,edgecolor = (0,0,0,0),facecolor = (0,0,0,0.2),linewidths=0.5)
#绘制colorbar  
cax = plt.axes([0.05, 0.33, 0.02, 0.3])  
plt.title('count')  
plt.sca(ax)  
#绘制OD  
od_gdf.plot(ax = ax,vmax = 100,column = 'count',cax = cax,cmap = 'autumn_r',linewidth = 1,legend = True)  
#添加比例尺和指北针  
tbd.plotscale(ax,bounds = bounds,textsize = 10,compasssize = 1,accuracy = 2000,rect = [0.06,0.03],zorder = 10)  
plt.axis('off')  
plt.xlim(bounds[0],bounds[2])  
plt.ylim(bounds[1],bounds[3])  
plt.show()  

 Os resultados são mostrados na Figura 10.

foto

■ Figura 10 Resultados de visualização de OD entre áreas

05. Visualização interativa

No TransBigData, podemos usar códigos simples para visualizar dados de táxi de forma rápida e interativa no jupyter notebook. A camada inferior desses métodos de visualização depende do pacote keplergl. O resultado da visualização não é mais uma imagem estática, mas um aplicativo de mapa que pode interagir com a resposta do mouse.

O método tbd.visualization_data pode realizar a visualização da distribuição de dados. Depois que os dados são passados ​​para este método, o TransBigData irá primeiro coletar os pontos de dados em uma grade, então gerar uma grade de dados e mapear o volume de dados para a cor. código mostra como abaixo:


In [14]:  
#可视化数据点分布  
tbd.visualization_data(data,col = ['lon','lat'],accuracy=1000,height = 500)

 O resultado é mostrado na Figura 11.

■ Figura 11 Visualização em grade da distribuição de dados

Para o OD da viagem extraído dos dados do táxi, o método tbd.visualization_od também pode ser usado para visualizar o arco do OD. Este método também realiza agregação de grade em dados OD, gera arcos OD e mapeia viagens OD de tamanhos diferentes para cores diferentes. código mostra como abaixo:


In [15]:  
#可视化数据点分布  
tbd.visualization_od(oddata,accuracy=2000,height = 500) 

O resultado é mostrado na Figura 12. 

 

■ Figura 12 Visualização em arco da distribuição OD

Para dados de rastreamento contínuo de nível individual, o método tbd.visualization_trip pode processar pontos de dados em informações de trajetória com carimbos de data/hora e exibi-los dinamicamente. O código é o seguinte:


In [16]:  
#动态可视化轨迹  
tbd.visualization_trip(data,col = ['lon','lat','VehicleNum','time'],height = 500)  

Os resultados são mostrados na Figura 13. Clique no botão play, você pode ver o efeito dinâmico da trilha do táxi em execução.

 ■ 13 Visualização dinâmica da trajetória do táxi

Acho que você gosta

Origin blog.csdn.net/qq_41640218/article/details/132145574
Recomendado
Clasificación