Primeiro pense no processo de análise de dados: o primeiro passo é obter dados; portanto, o conteúdo desta seção é obter dados e operações básicas sobre os dados.
1. Importação de dados
1.1 Importar arquivo .xlsx
Para importar um arquivo do Excel com um sufixo .xlsx, você pode usar o método pd.read_excel (path)
O resultado:
Os dados do df_review contêm dois campos, list_id e date
O parâmetro indispensável ao ler dados é o caminho. O caminho do arquivo é gravado de maneira diferente em diferentes sistemas operacionais. Geralmente, existem duas maneiras de escrever o caminho no sistema operacional Windows:
- Barra invertida "\": clique com o botão direito do mouse neste arquivo, selecione propriedades, você pode ver onde está, o padrão é usar \ para indicar, porque a barra invertida "\" é definida como um símbolo de escape no Python, portanto, escreva Quando você precisar adicionar um caractere de escape r na frente do caminho, r "D: \ Personal \ data \ reviews.xlsx"
- Barra "/": Não há necessidade de adicionar r, tudo escrito com /: "D: /personal/data/reviews.xlsx" Duas maneiras de ver hábitos pessoais.
parâmetro sheet_name
Para arquivos .xlsx, pode haver várias tabelas de planilhas, portanto, você também pode definir o parâmetro sheet_name para especificar a tabela de planilhas importada, pode passar o nome da tabela de planilhas, também pode especificar a ordem em ordem crescente de 0, não especificar a tabela de planilhas O padrão é a primeira folha.
1.2 Importar arquivo .csv
Importar arquivo de formato .csv usando o método pd.read_csv (path)
O resultado:
Os dados do df_list incluem principalmente: ID do proprietário, nome do proprietário, latitude e longitude, tipo de quarto, preço, número mínimo de dias disponíveis para aluguel, número de avaliações, hora da última revisão, porcentagem de avaliações mensais, casas locáveis, duração anual da locação e outros campos
Especificar formato de codificação
Um ponto de conhecimento importante para arquivos .csv é o formato de codificação. Especialmente ao importar arquivos, é necessário entender o formato de codificação do arquivo para evitar caracteres ilegíveis. Então, como você sabe que tipo de codificação é esse arquivo? Abra-o com o software notepad ++ e o formato de codificação do arquivo será exibido no canto inferior direito. Por exemplo, o arquivo lists.csv recém importado é uma codificação utf-8. Ao escrever a codificação, o caso é comum e o utf-8 também pode ser gravado como utf8.
Você pode usar o parâmetro de codificação para definir o formato de codificação.O formato de codificação padrão do Python é utf-8.
Problema ilegível chinês
Para o problema ilegível causado pela ocorrência de chinês no caminho do arquivo, você pode adicionar o mecanismo de parâmetros para evitá-lo.
O resultado:
image.png
Especifique o índice da linha
Se você não especificar um índice de linha, uma coluna a partir de 0 será usada como índice de linha ou você poderá especificar a coluna de identificação como índice de linha, passando o parâmetro index_col
Resultado: como você pode ver, a coluna id se torna a coluna do índice de linhas.
Especifique o índice da coluna
Por padrão, a primeira linha é o índice da coluna, que também pode ser especificado.Use o parâmetro header, header = 0, para especificar o índice da coluna da primeira linha.
O resultado:
Especificar coluna de importação
Às vezes, queremos importar apenas as colunas especificadas e passar o parâmetro usecols
O resultado:
2. Operações básicas em dados
Depois de importar os dados, você precisa ter um entendimento geral dos dados, como o conjunto de dados com várias linhas e colunas, qual é o tipo de dados de cada campo e se existem valores nulos.
Pré-visualização
Você não precisa ficar sem os dados completamente, basta olhar para as primeiras linhas e usar o método head para obter as 5 primeiras linhas de dados
O resultado:
Você também pode passar números em head (), como visualizar as 10 primeiras linhas de dados
Exibir dimensões dos dados
O conjunto de dados possui várias linhas e colunas, usando a forma
Resultado: você pode ver que o conjunto de dados df_list possui 28452 linhas e 16 colunas
Ver tipo de dados
Use dtypes para visualizar os tipos de dados de todos os campos no conjunto de dados
O resultado:
Você também pode visualizar o tipo de dados de um campo separadamente
O resultado:
Se você quer aprender Python ou está aprendendo Python, existem muitos tutoriais em Python, mas é o mais recente? Talvez você tenha aprendido algo que as pessoas possam ter aprendido há dois anos e aqui compartilho uma onda dos mais recentes tutoriais em Python para 2020. Como obtê-lo, você pode obtê-lo gratuitamente, editando as "Informações" da carta particular!