Primeiro pense no processo de análise de dados: o primeiro passo é obter dados; portanto, o conteúdo desta seção é obter dados e operações básicas sobre os dados.

1. Importação de dados

1.1 Importar arquivo .xlsx

Para importar um arquivo do Excel com um sufixo .xlsx, você pode usar o método pd.read_excel (path)

O resultado:

Os dados do df_review contêm dois campos, list_id e date

O parâmetro indispensável ao ler dados é o caminho. O caminho do arquivo é gravado de maneira diferente em diferentes sistemas operacionais. Geralmente, existem duas maneiras de escrever o caminho no sistema operacional Windows:

Barra invertida "\": clique com o botão direito do mouse neste arquivo, selecione propriedades, você pode ver onde está, o padrão é usar \ para indicar, porque a barra invertida "\" é definida como um símbolo de escape no Python, portanto, escreva Quando você precisar adicionar um caractere de escape r na frente do caminho, r "D: \ Personal \ data \ reviews.xlsx"
Barra "/": Não há necessidade de adicionar r, tudo escrito com /: "D: /personal/data/reviews.xlsx" Duas maneiras de ver hábitos pessoais.

parâmetro sheet_name

Para arquivos .xlsx, pode haver várias tabelas de planilhas, portanto, você também pode definir o parâmetro sheet_name para especificar a tabela de planilhas importada, pode passar o nome da tabela de planilhas, também pode especificar a ordem em ordem crescente de 0, não especificar a tabela de planilhas O padrão é a primeira folha.

1.2 Importar arquivo .csv

Importar arquivo de formato .csv usando o método pd.read_csv (path)

O resultado:

Os dados do df_list incluem principalmente: ID do proprietário, nome do proprietário, latitude e longitude, tipo de quarto, preço, número mínimo de dias disponíveis para aluguel, número de avaliações, hora da última revisão, porcentagem de avaliações mensais, casas locáveis, duração anual da locação e outros campos

Especificar formato de codificação

Um ponto de conhecimento importante para arquivos .csv é o formato de codificação. Especialmente ao importar arquivos, é necessário entender o formato de codificação do arquivo para evitar caracteres ilegíveis. Então, como você sabe que tipo de codificação é esse arquivo? Abra-o com o software notepad ++ e o formato de codificação do arquivo será exibido no canto inferior direito. Por exemplo, o arquivo lists.csv recém importado é uma codificação utf-8. Ao escrever a codificação, o caso é comum e o utf-8 também pode ser gravado como utf8.

Você pode usar o parâmetro de codificação para definir o formato de codificação.O formato de codificação padrão do Python é utf-8.

Problema ilegível chinês

Para o problema ilegível causado pela ocorrência de chinês no caminho do arquivo, você pode adicionar o mecanismo de parâmetros para evitá-lo.

O resultado:

image.png

Especifique o índice da linha

Se você não especificar um índice de linha, uma coluna a partir de 0 será usada como índice de linha ou você poderá especificar a coluna de identificação como índice de linha, passando o parâmetro index_col

Resultado: como você pode ver, a coluna id se torna a coluna do índice de linhas.

Especifique o índice da coluna

Por padrão, a primeira linha é o índice da coluna, que também pode ser especificado.Use o parâmetro header, header = 0, para especificar o índice da coluna da primeira linha.

O resultado:

Especificar coluna de importação

Às vezes, queremos importar apenas as colunas especificadas e passar o parâmetro usecols

O resultado:

2. Operações básicas em dados

Depois de importar os dados, você precisa ter um entendimento geral dos dados, como o conjunto de dados com várias linhas e colunas, qual é o tipo de dados de cada campo e se existem valores nulos.

Pré-visualização

Você não precisa ficar sem os dados completamente, basta olhar para as primeiras linhas e usar o método head para obter as 5 primeiras linhas de dados

O resultado:

Você também pode passar números em head (), como visualizar as 10 primeiras linhas de dados

Exibir dimensões dos dados

O conjunto de dados possui várias linhas e colunas, usando a forma

Resultado: você pode ver que o conjunto de dados df_list possui 28452 linhas e 16 colunas

Ver tipo de dados

Use dtypes para visualizar os tipos de dados de todos os campos no conjunto de dados

O resultado:

Você também pode visualizar o tipo de dados de um campo separadamente

O resultado:

Se você quer aprender Python ou está aprendendo Python, existem muitos tutoriais em Python, mas é o mais recente? Talvez você tenha aprendido algo que as pessoas possam ter aprendido há dois anos e aqui compartilho uma onda dos mais recentes tutoriais em Python para 2020. Como obtê-lo, você pode obtê-lo gratuitamente, editando as "Informações" da carta particular!

Use um caso completo para explicar todo o processo e o conhecimento básico da análise de dados Python

1. Importação de dados

1.1 Importar arquivo .xlsx

parâmetro sheet_name

1.2 Importar arquivo .csv

Especificar formato de codificação

Problema ilegível chinês

Especifique o índice da linha

Especifique o índice da coluna

Especificar coluna de importação

2. Operações básicas em dados

Pré-visualização

Exibir dimensões dos dados

Ver tipo de dados

Acho que você gosta