スパークビッグデータ分析を行う前に、Pythonのバージョンを実行するためにアップグレードを検討、違いをPython2とのpython3は、調査を行った文法のための主要なサードパーティ製のツールキットとサポートの度合いを比較。
基本的な構文の違い
コアクラスの違い
-
Unicode文字のためのpython3ネイティブサポート
Python2はSTRとUnicode原因2種類があり、デフォルトエンコーディングのASCIIコードの文字列として使用、のpython3は、文字列Unicodeをサポートしています。キャラクターとの関係に対応するpython2とのpython3バイト:
-
python3は、絶対パスの方法は、インポートすることが使用しています。
Python2は輸入相対パスは、(同じ時間と標準ライブラリファイルでファイルをインポートする方法を、同じディレクトリfile.py想像して)困難に標準ライブラリにつながります。また、絶対パス、またはインポートするには、関連するインポートを使用する唯一の方法と同じディレクトリを使用する必要がありますファイルをインポートする必要がある場合は、この時点でのpython3は、変更されます。
-
古いものと新しいクラスのクラス間の違いはPython2、新しいクラスののpython3の均一なアプリケーションに存在します。新しいクラスの宣言は、オブジェクトを継承するには、アプリケーションの多重継承新しいクラスを使用する必要があります。
-
より厳格なインデントの使用のpython3。引っ込んで同時共存タブとスペースは、コードに許可することができるようにインデントメカニズムPython2で、タブ8は、スペースに相当します。これは、問題は、機構部IDE同値引き起こす可能性があります。タブ内のpython3]タブには、別の代替として、タブを見つけ、ひいてはエラースペースが共存引き起こす可能性があります:TabError:インデントのタブとスペースの一貫性のない使用を。
廃棄物のクラスの違い
-
print文は、印刷機能を使用する統一、捨てられたのpython3です
-
exec文はのpython3放棄され、統一された使用のexec関数であり、
-
execfileを声明はのpython3、お勧めのexec破棄される(オープン( "./ファイル名")。)(読み)
-
等しくない演算子「<>」のpython3均一な使用を破棄されます「!=」
-
長整数型がのpython3を破棄され、均一な使用はint
-
xrangeのpython3機能が廃棄され、範囲の均一な使用は、範囲内のpython3機構はまた、大規模なデータセットの生産効率を変更、改良されました
-
これらの方法はもはやないのpython3は、リストオブジェクトを返し:辞書関連キー()、値()、アイテム()、ZIP()、マップ()、フィルタ()が、力リストで変換することができます。
mydict={"a":1,"b":2,"c":3} mydict.keys() #<built-in method keys of dict object at 0x000000000040B4C8> list(mydict.keys()) #['a', 'c', 'b']
-
イテレータイテレータのnext()関数のpython3次に(イテレータ)、均一な使用が破棄されます
-
raw_input関数はのpython3を放棄された、統一された使用入力機能
-
has_key機能Pythonの辞書変数は、キーワードでの均一な使用を破棄されます
-
python3放棄されたファイルの機能、ファイルの種類をチェックしてio.IOBaseされるファイルのオープンプロセスの均一な使用
-
適用する機能が破棄されるのpython3
-
異常はStandardErrorはのpython3を放棄し、均一な使用の例外
クラスの違いを変更
-
浮動小数点除算演算子/と//違い
- Python2:/は、整数の除算で、分数の割り算はある//
- python3:/は、整数の除算である//分数の割り算、です。
-
例外がスローされ、メカニズムの違いをキャプチャしています
- Python2
raise IOError, "file error" #抛出异常 except NameError, err: #捕捉异常
- python3
raise IOError("file error") #抛出异常 except NameError as err: #捕捉异常
-
ループ変数の差分値について
- Python2は、外部の循環のために同じ変数名の値を変更します
i = 1 print ('comprehension: ', [i for i in range(5)]) print ('after: i =', i ) #i=4
- python3は、外側のループのために同じ変数名の値を変更しません。
i = 1 print ('comprehension: ', [i for i in range(5)]) print ('after: i =', i ) #i=1
-
ラウンド関数は、差の値を返します。
- Python2、ラウンド関数は、float型の値を返します
isinstance(round(15.5),int) #True
- python3、ラウンド関数はint型の値を返します。
isinstance(round(15.5),float) #True
-
差分比較演算子
- Python2任意の二つのオブジェクトを比較することができます
11 < 'test' #True
- python3は、データオブジェクトの同じタイプを比較することができます
11 < 'test' # TypeError: unorderable types: int() < str()
新しいクラスの違い
新機能は、Python2でサポートされていないPython3.Xの増加のすべて、これらの命令の新機能は、公式サイトで詳しく説明されています。
- 3.1 https://docs.python.org/3.1/whatsnew/
- 3.2 https://docs.python.org/3.2/whatsnew/3.2.html
- 3.3 https://docs.python.org/3.3/whatsnew/3.0.html
- 3.4 https://docs.python.org/3.4/whatsnew/3.4.html
- 3.5 https://docs.python.org/3.5/whatsnew/3.5.html
- 3.6 https://docs.python.org/3.6/whatsnew/3.6.html
中国は、ボーエンに導入された基準として使用することができ、これらの機能の重要なポイントがあります。http://www.cnblogs.com/animalize/p/5633215.html
サードパーティ製のツールキット
我々は公式のダウンロード元ピップは、PyPIは 2、サードパーティ製のツールパッケージ検索Python2.7とPython3.5の数で見つけることができ、サードパーティ製のツールの数は、カテゴリPython2.7版は28523に対応し、Python3.5のバージョンの数は12457でありますサードパーティ製のツールキットのバージョンは、ギャップの多数をサポートしています。
https://pypi.python.org/pypi?:action=browse&c=532
https://pypi.python.org/pypi?:action=browse&c=607
私たちは、データ分析の応用の観点から一般的なサードパーティ製のユーティリティキット(下表)をリスト、およびケースPython2.7とPython3.5を支援するこれらのキットの分析:
分類 | ツール名 | 使用 |
---|---|---|
データ収集 | scrapy | Webページの収集、爬虫類 |
データ収集 | scrapy、Redisの | 分散クロール |
データ収集 | セレン | ウェブテスト、シミュレーションブラウザ |
データ処理 | beautifulsoup | lxmlのためのサポートを提供しています説明ライブラリー |
データ処理 | lxmlの | XMLの説明ライブラリー |
データ処理 | xlrd | Excelファイルを読み込みます |
データ処理 | xlwt | Excelファイルを書き込みます |
データ処理 | xlutils | 簡単なExcelファイル形式の変更 |
データ処理 | pywin32 | ファイル形式を得意と複合体をカスタマイズ書く読みます |
データ処理 | Pythonの-docxファイル | 書かれたWordファイルを読みます |
データ分析 | numpyの | 行列ライブラリの数学的計算に基づいて、 |
データ分析 | パンダ | 表ベースの統計解析ライブラリ |
データ分析 | scipyのダウンロード | 抽象化と複雑なモデルのより高いレベルをサポートしている科学技術計算ライブラリ |
データ分析 | 状態モデル | 統計的モデリングと計量経済学キット |
データ分析 | scikit-学びます | 機械学習ツールライブラリ |
データ分析 | gensim | 自然言語処理ツールライブラリ |
データ分析 | jieba | 中国語の単語のセグメンテーションツールライブラリ |
データストレージ | MySQLの-pythonの | mysqlの読み取りと書き込みのインタフェースライブラリ |
データストレージ | あるmysqlclient | mysqlの読み取りと書き込みのインタフェースライブラリ |
データストレージ | SQLAlchemyの | ORMパッケージデータベース |
データストレージ | pymssql | 読み書きするSQL Serverのインタフェースライブラリ |
データストレージ | 繰り返します | Redisのは、インターフェースの読み取りと書き込み |
データストレージ | PyMongo | インターフェースの読み取りと書き込みのMongoDB |
提示されたデータ | matplotlibの | 人気のデータの可視化ライブラリ |
提示されたデータ | seaborn | しかし、美しい湖や貯水池のデータは、matplotlibのに基づきます |
補助ツール | jupyter | 一般的にデータ分析に使用されるWebベースのpythonのIDE、 |
補助ツール | chardet | 文字チェックツール |
補助ツール | ConfigParser | 設定ファイルには、サポートの読み取りと書き込み |
補助ツール | リクエスト | ネットワークアクセスのためのHTTPライブラリ |
Toolsのインストール
- Windows環境
Python2ははmysqlclientをインストールすることはできません。MySQLの-pythonの、FLUP、functools32をインストールすることができないのpython3、グーイー、Pywin32、webencodings。
python3環境でmatplotlibのインストールエラー:以下の必要なパッケージを構築することができません:FreeTypeの、PNG。あなたは解決策を取り付けるソースパッケージを手動でダウンロードしてインストールする必要があります。
python3環境でのscrapyインストールエラー、VC ++ 2015のインストールパッケージをインストールする必要があります。http://landinghub.visualstudio.com/visual-cpp-build-tools
scipy在Python3环境中安装报错,numpy.distutils.system_info.NotFoundError,需要自己手工下载对应的安装包,依赖numpy,pandas必须严格根据python版本、操作系统、64位与否。
运行matplotlib后发现基础包numpy+mkl安装失败,需要自己下载,国内暂无下载源
- centos环境下
python2无法安装mysql-python和mysqlclient包,报错:EnvironmentError: mysql_config not found,解决方案是安装mysql-devel包解决。使用matplotlib报错:no module named _tkinter,安装Tkinter、tk-devel、tc-devel解决。
pywin32也无法在centos环境下安装。
工具测试结果
解决上述的安装问题后,编写了测试脚本(附录)运行上述工具包的简单案例,测试结果均通过,表明上述第三方工具包安装成功后在Windows和Centos环境下均可以成功运行。
之前做Spark大数据分析的时候,考虑要做Python的版本升级,对于Python2和Python3的差异做了一个调研,主要对于语法和第三方工具包支持程度进行了比较。
基本语法差异
核心类差异
-
Python3对Unicode字符的原生支持
Python2中使用 ASCII 码作为默认编码方式导致string有两种类型str和unicode,Python3只支持unicode的string。python2和python3字节和字符对应关系为:
-
Python3采用的是绝对路径的方式进行import。
Python2中相对路径的import会导致标准库导入变得困难(想象一下,同一目录下有file.py,如何同时导入这个文件和标准库file)。Python3中这一点将被修改,如果还需要导入同一目录的文件必须使用绝对路径,否则只能使用相关导入的方式来进行导入。
-
Python2中存在老式类和新式类的区别,Python3统一采用新式类。新式类声明要求继承object,必须用新式类应用多重继承。
-
Python3使用更加严格的缩进。Python2的缩进机制中,1个tab和8个space是等价的,所以在缩进中可以同时允许tab和space在代码中共存。这种等价机制会导致部分IDE使用存在问题。Python3中1个tab只能找另外一个tab替代,因此tab和space共存会导致报错:TabError: inconsistent use of tabs and spaces in indentation.
废弃类差异
-
print语句被python3废弃,统一使用print函数
-
exec语句被python3废弃,统一使用exec函数
-
execfile语句被Python3废弃,推荐使用exec(open("./filename").read())
-
不相等操作符"<>"被Python3废弃,统一使用"!="
-
long整数类型被Python3废弃,统一使用int
-
xrange函数被Python3废弃,统一使用range,Python3中range的机制也进行修改并提高了大数据集生成效率
-
Python3中这些方法再不再返回list对象:dictionary关联的keys()、values()、items(),zip(),map(),filter(),但是可以通过list强行转换:
mydict={"a":1,"b":2,"c":3} mydict.keys() #<built-in method keys of dict object at 0x000000000040B4C8> list(mydict.keys()) #['a', 'c', 'b']
-
迭代器iterator的next()函数被Python3废弃,统一使用next(iterator)
-
raw_input函数被Python3废弃,统一使用input函数
-
字典变量的has_key函数被Python废弃,统一使用in关键词
-
file函数被Python3废弃,统一使用open来处理文件,可以通过io.IOBase检查文件类型
-
apply函数被Python3废弃
-
异常StandardError 被Python3废弃,统一使用Exception
修改类差异
-
浮点数除法操作符/和//区别
- Python2:/是整数除法,//是小数除法
- Python3:/是小数除法,//是整数除法。
-
异常抛出和捕捉机制区别
- Python2
raise IOError, "file error" #抛出异常 except NameError, err: #捕捉异常
- Python3
raise IOError("file error") #抛出异常 except NameError as err: #捕捉异常
-
for循环中变量值区别
- Python2,for循环会修改外部相同名称变量的值
i = 1 print ('comprehension: ', [i for i in range(5)]) print ('after: i =', i ) #i=4
- Python3,for循环不会修改外部相同名称变量的值
i = 1 print ('comprehension: ', [i for i in range(5)]) print ('after: i =', i ) #i=1
-
round函数返回值区别
- Python2,round函数返回float类型值
isinstance(round(15.5),int) #True
- Python3,round函数返回int类型值
isinstance(round(15.5),float) #True
-
比较操作符区别
- Python2中任意两个对象都可以比较
11 < 'test' #True
- Python3中只有同一数据类型的对象可以比较
11 < 'test' # TypeError: unorderable types: int() < str()
新增类差异
所有在Python3.X中增加的新特性在Python2中都不支持,这些新特性的说明在官网中有详细的说明:
- 3.1 https://docs.python.org/3.1/whatsnew/
- 3.2 https://docs.python.org/3.2/whatsnew/3.2.html
- 3.3 https://docs.python.org/3.3/whatsnew/3.0.html
- 3.4 https://docs.python.org/3.4/whatsnew/3.4.html
- 3.5 https://docs.python.org/3.5/whatsnew/3.5.html
- 3.6 https://docs.python.org/3.6/whatsnew/3.6.html
国内有对这些特性中的重要点进行介绍的博文,可以作为参考:http://www.cnblogs.com/animalize/p/5633215.html
第三方工具包
我们在pip官方下载源pypi搜索Python2.7和Python3.5的第三方工具包数可以发现,Python2.7版本对应的第三方工具类目数量是28523,Python3.5版本的数量是12457,这两个版本在第三方工具包支持数量差距相当大。
https://pypi.python.org/pypi?:action=browse&c=532
https://pypi.python.org/pypi?:action=browse&c=607
我们从数据分析的应用角度列举了常见实用的第三方工具包(如下表),并分析这些工具包在Python2.7和Python3.5的支持情况:
分类 | 工具名 | 用途 |
---|---|---|
数据收集 | scrapy | 网页采集,爬虫 |
数据收集 | scrapy-redis | 分布式爬虫 |
数据收集 | selenium | web测试,仿真浏览器 |
数据处理 | beautifulsoup | 网页解释库,提供lxml的支持 |
数据处理 | lxml | xml解释库 |
数据处理 | xlrd | excel文件读取 |
数据处理 | xlwt | excel文件写入 |
数据处理 | xlutils | excel文件简单格式修改 |
数据处理 | pywin32 | excel文件的读取写入及复杂格式定制 |
数据处理 | Python-docx | Word文件的读取写入 |
数据分析 | numpy | 基于矩阵的数学计算库 |
数据分析 | pandas | 基于表格的统计分析库 |
数据分析 | scipy | 科学计算库,支持高阶抽象和复杂模型 |
数据分析 | statsmodels | 统计建模和计量经济学工具包 |
数据分析 | scikit-learn | 机器学习工具库 |
数据分析 | gensim | 自然语言处理工具库 |
数据分析 | jieba | 中文分词工具库 |
数据存储 | MySQL-python | mysql的读写接口库 |
数据存储 | mysqlclient | mysql的读写接口库 |
数据存储 | SQLAlchemy | 数据库的ORM封装 |
数据存储 | pymssql | sql server读写接口库 |
数据存储 | redis | redis的读写接口 |
数据存储 | PyMongo | mongodb的读写接口 |
数据呈现 | matplotlib | 流行的数据可视化库 |
数据呈现 | seaborn | 美观的数据可是湖库,基于matplotlib |
工具辅助 | jupyter | 基于web的python IDE,常用于数据分析 |
工具辅助 | chardet | 文字チェックツール |
補助ツール | ConfigParser | 設定ファイルには、サポートの読み取りと書き込み |
補助ツール | リクエスト | ネットワークアクセスのためのHTTPライブラリ |
Toolsのインストール
- Windows環境
Python2ははmysqlclientをインストールすることはできません。MySQLの-pythonの、FLUP、functools32をインストールすることができないのpython3、グーイー、Pywin32、webencodings。
python3環境でmatplotlibのインストールエラー:以下の必要なパッケージを構築することができません:FreeTypeの、PNG。あなたは解決策を取り付けるソースパッケージを手動でダウンロードしてインストールする必要があります。
python3環境でのscrapyインストールエラー、VC ++ 2015のインストールパッケージをインストールする必要があります。http://landinghub.visualstudio.com/visual-cpp-build-tools
scipyのダウンロードは、与えられた環境のpython3、numpy.distutils.system_info.NotFoundErrorに取り付けられた手動で対応するインストールパッケージ、依存numpyの、パンダかを厳密に必要応じPythonのバージョン、オペレーティングシステム64をダウンロードし、自身を必要とします。
基本的なパッケージnumpyの+ MKLのインストールが失敗した見つけるmatplotlibの実行後、あなたは自分の家庭はありませんダウンロードソースをダウンロードする必要があります
- CentOSの環境下では
python2は、MySQL-Pythonとはmysqlclientパッケージをインストールすることはできません、エラー:EnvironmentError:mysql_configをが見つからない、解決策は、MySQL-develのパッケージが取り組まインストールすることです。matplotlibのエラーを使用します。_tkinterという名前のモジュールは、Tkinterの、TK-develの、解決TC-develのインストールません。
pywin32はCentOSの環境にインストールすることはできません。
ツールのテスト結果
上記のインストールの問題を解決した後、上記のキットの簡単なテストケーススクリプト(付録)の動作を記述し、我々は正常にインストールした後、上述したサードパーティ製のツールのパッケージが正常にWindows環境とCentOSにで実行できることを示す、テスト結果を合格しています。