利用Python进行数据分析学习记录(一)

1、Python的科学计算邮件列表

  pydata:这是一个Google Group邮件列表,其中的问题都是Python数据分析和pandas方面的。

  pystatsmodels:针对Numpy相关的问题

  numpy-discussion:针对Numpy相关的问题

  scipy-user:针对与scipy和Python科学计算相关的问题

       探讨会:PyCon和EuroPython

2、引入惯例

import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt

在Python软件开发过程中,不建议直接引入Numpy这种大型库的全部内容

3、编程和数据科学方面的常用术语

  数据规整(Munge/Munging/Wrangling):

  指的是将非结构化和(或)散乱数据处理为结构化或整洁形式的整个过程。

扫描二维码关注公众号,回复: 7869053 查看本文章

  伪代码(Pseudocode):

  算法或过程的代码式描述,而这些代码本身并不是实际有效的源代码。

  语法糖(syntactic  sugar):

  一种编程语法,它并不会带来新的特性,但却能让代码易读,更易写。

4.读者各自工作的最终目的千差万别,但基本都需要完成以下几个大类的任务:

  与外界进行交互:读写各种各样的文件格式和数据库

  准备:对数据进行清理、修整、整合、规范化、重塑、切片切块、变形等处理以便进行分析。

  转换:对数据集做一些数学和统计运算以产生新的数据集。比如说,根据分组变量对一个大表进行聚合。

  建模和计算:将数据跟统计模型、机器学习算法或其他计算工具联系起来。

  展示:创建交互式的或静态的图片或文字摘要。

猜你喜欢

转载自www.cnblogs.com/sggggr/p/11870131.html