利用pandas对初创公司进行数据分析

数据源
Kesci的CrunchBase 初创公司数据集

数据集内容
acquisitions.csv: 初创公司被收购的记录
additions.csv: 月度新增公司数目
companies.csv: 公司信息记录
investments.csv: 投资记录
rounds.csv : 投资轮次记录

问题描述
VC在投资的时候有什么样的喜好?
初创公司的headquarter所在的城市,是否会影响其融资?
一般需要多久,初创公司可以完成上市或者被收购?
可否建立一个预测初创公司是否会被收购/完成上市的模型?

问题分析
1、VC投资的喜好
投资是追求回报的,尝试从数据中发现出投资的偏好性。
可以从以下几个角度考虑:
投资的时间被投公司所在国家被投公司的行业投资的规模
针对上面几点可以尝试对数据进行如下分析:
①数据集提供时间内,总投资规模与年份之间的关系
②不同国家之间投资规模的关系
③不同行业之间投资规模的关系

2、初创公司完成上市或者收购
完成上市或收购的时间距成立时间(或者首次被投时间)——建议按照年计算
完成上市或者收购的公司数量之间的关系

实现

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

path1 = "/home/kesci/input/cb_startup/acquisitions.csv"
path2 = "/home/kesci/input/cb_startup/additions.csv"
path3 = "/home/kesci/input/cb_startup/companies.csv"
path4 = "/home/kesci/input/cb_startup/investments.csv"
path5 = "/home/kesci/input/cb_startup/rounds.csv"

acquisitions = pd.read_csv(path1)   # 初创公司被收购的记录
additions = pd.read_csv(path2)      # 月度新增公司数目
companies = pd.read_csv(path3)      # 公司信息记录
investments = pd.read_csv(path4)    # 投资记录
rounds = pd.read_csv(path5)         # 投资轮次记录

1、数据集提供时间内,总投资规模与年份之间的关系
我们只需要将按年将投资规模统计,展示成折线图即可。
这里我们需要用到rounds 这个表即可。

# 先查看表各列的类型
investments.info()

# 将funded_at转换为时间格式,将raised_amount_usd转换为数字格式
rounds.funded_at = pd.to_datetime(rounds.funded_at,format='%Y-%m-%d')
investments.raised_amount_usd = pd.to_numeric(investments.raised_amount_usd)

# 新建一列year
rounds['year'] = rounds.funded_at.apply(lambda rounds:rounds.year)

# 将每年的raised_amount_usd累加起来,按照年份分组(以亿美元为单位)
invests = (rounds.raised_amount_usd.groupby(rounds.year).sum())/100000000
inv_f = pd.Series(invests)

# 在1990年以前的投资规模很小,从1990年起展示
inv_f.plot(title='投资规模随年份变化', style='ko--', xlim=[1990,2015])
plt.xlabel('年份/年')
plt.ylabel('投资规模/亿美元')

具体见kesci

猜你喜欢

转载自blog.csdn.net/alvin93/article/details/81638479