こんにちは!
データ アナリストになるための最も基本的なスキルの 1 つは、データの抽出です。
データはデータ分析の基盤です。したがって、データを取得するためのさまざまなスキルを習得することは、有能なデータ アナリストにとって必須のスキルでなければなりません。抽出する必要があるデータは、通常、データベースに格納されています (もちろん、データベースに格納されていないデータもあり、ここでは説明しません)。
現在、Python 言語の人気が、Python の強力なサードパーティ ライブラリとエコシステムと相まって、データ アナリストがデータ分析作業全体をほぼ完了できるようになったことで、Python はほぼすべてのデータ アナリストが知っておくべきプログラミング言語になりました。当然のことながら、Python にはデータベースに接続できる多くのサードパーティ ライブラリがあり、データ アナリストがデータベースからデータを抽出して「ワンストップ サービス」を完了できるようにします。では、Python を使用してデータ データベースに接続し、データを正常に送信するにはどうすればよいでしょうか。
ここではデモンストレーションに MySQL データベースを使用します。実際にはほとんどすべてのデータ抽出プロセスが次のプロセスであるため、Python を使用して MySQL データベースに接続してデータを抽出し、その後、他のデータベースに接続して抽出する必要がある場合に使用できます。データ、あなたはいつも「スープを変える薬を変える」でしょう。
Python はデータベースに接続してデータを取得します
1.接続を確立する
Python で MySQL データベースに接続するには、pymysql モジュールをインポートする必要があります。
モジュールの取り付け
pip install pymysql
補足:jupyter環境なら使ってください
!pip install pymysql
インストール後、データベースに接続できます。
#导入模块
import pymysql
#建立连接
conn = pymysql.connect(
user='root', # 用户名
password='你的密码', # 密码:这里一定要注意123456是字符串形式
host='localhost', # 指定访问的服务器,本地服务器指定“localhost”,远程服务器指定服务器的ip地址
database='school', # 数据库的名字
port=3306, # 指定端口号,范围在0-65535
charset='utf8mb4', # 数据库的编码方式
)
このようにして、python と MySQL の間のブリッジが構築されます。あとはデータを抽出するだけです。
2. pandas ライブラリを使用してデータを読み取る
Pandas は python データ分析の 3 つのアーティファクトの中でも非常に強力で、Excel スプレッドシート、csv、テキストなどのデータ ファイルを読み取るだけでなく、MySQl に直接接続する機能も提供します。したがって、pandas で read_sql 関数を使用して直接データを抽出できます (ここでは、例として、ローカル データベース学校の学生テーブルの情報を読み取ります)。
コード
# 导入pandas
import pandas as pd # 进行别名
# 一般只要需要指定两个主要的参数sql和con,sql是sql查询语句,con指定上面建立的连接
df = pd.read_sql('SELECT * FROM school.tb_student',con=conn)
df
ここでデータベースのデータを読み取るのは簡単ですよね。
最後に、最初から最後まで実行し、データを取得したら接続を閉じることを忘れないでください。
3.接続を閉じる
# 关闭连接
conn.close()
では、本日の分担はここまでです
参考になる場合は、詳細情報を取得することもできます。下のカードをクリックしてコードをスキャンしてください
我都准备好了,包含数百本电子书,Python视频教程、源码等等