資料來源
kesci的crunchbase 初創公司資料集
資料集內容
acquisitions.csv
: 初創公司被收購的記錄
acquisitions
初創公司被收購的記錄
company_permalink
company_name
company_category_list
company_country_code
company_state_code
company_region
company_city
acquirer_permalink
acquirer_name
收購公司
acquirer_category_list
acquirer_country_code
acquirer_state_code
acquirer_region
acquirer_city
acquired_at
收購日期
acquired_month
price_amount
收購金額
price_currency_code
收購結算單位
additions.csv
: 月度新增公司數目
companies.csv
: 公司資訊記錄
companies
公司資訊記錄
permalink
name
homepage_url
category_list
funding_total_usd
總投資金額
status
country_code
state_code
region
city
funding_rounds
投資輪數
founded_at
成立日期
first_funding_at
首次融資日期
last_funding_at
末次融資日期
investments.csv
: 投資記錄
investments
投資記錄
company_permalink
company_name
company_category_list
company_country_code
company_state_code
company_region
company_city
investor_permalink
investor_name
investor_country_code
investor_state_code
investor_region
investor_city
funding_round_permalink
funding_round_type
投資輪次型別
funding_round_code
投資輪次型別**
funded_at
融資日期
raised_amount_usd
融資金額
rounds.csv
: 投資輪次記錄
rounds
投資輪次記錄
company_permalink
company_name
company_category_list
company_country_code
company_state_code
company_region
company_city
funding_round_permalink
funding_round_type
投資輪次型別
funding_round_code
投資輪次型別**
funded_at
被投日期
raised_amount_usd
被投金額
問題描述
1.vc在投資的時候有什麼樣的喜好?
2.初創公司的headquarter所在的城市,是否會影響其融資?
3.一般需要多久,初創公司可以完成上市或者被收購?
4.可否建立乙個**初創公司是否會被收購/完成上市的模型?
問題分析
1、vc投資的喜好
投資是追求回報的,嘗試從資料中發現出投資的偏好性。
根據5w2h法分析:
what:投資事件
why:為什麼投資
when:什麼時間投資、融資
where:投資方地點、融資方地點
who:投資方,融資方
how:什麼樣的方式
how much:投融資金額
對於vc投資偏好的分析,從出發點考慮。
投資是為了獲取更大的利益,也就是vc對企業進行投資,在未來將會獲得更大的收益。
獲取的利益包括,融資企業上市或者被收購,此時投資方獲得更大收益。
對於融資企業,屬性有:區域、行業、發展狀況、成立時長。
對於投資企業,屬性有:區域、行業、發展狀況、成立時長。
投資上涉及指標有:投資規模、投資輪次。
收益可以用融資企業被收購或上市時的估值來衡量。
因此需要看投資公司的相關投資資訊,用到investments.csv
。
①投資公司的企業區域分布
和猜想相同,美國投資公司高達8000多家,佔據整體投資公司數量的58.06%,英國排到第2,佔7.10%,加拿大排佔3.24%,居第3,而中國位居第8,佔1.82%。
②投資公司的企業行業分布
③投資公司對不同國家不同行業投資數量、規模的分布
2、初創公司完成上市或者收購
完成上市或收購的時間距成立時間(或者首次被投時間)——建議按照年計算
完成上市或者收購的公司數量之間的關係
實現
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
path1 =
"/home/kesci/input/cb_startup/acquisitions.csv"
path2 =
"/home/kesci/input/cb_startup/additions.csv"
path3 =
"/home/kesci/input/cb_startup/companies.csv"
path4 =
"/home/kesci/input/cb_startup/investments.csv"
path5 =
"/home/kesci/input/cb_startup/rounds.csv"
acquisitions = pd.read_csv(path1)
# 初創公司被收購的記錄
additions = pd.read_csv(path2)
# 月度新增公司數目
companies = pd.read_csv(path3)
# 公司資訊記錄
investments = pd.read_csv(path4)
# 投資記錄
rounds = pd.read_csv(path5)
# 投資輪次記錄
1、資料集提供時間內,總投資規模與年份之間的關係
我們只需要將按年將投資規模統計,展示成折線圖即可。
這裡我們需要用到rounds 這個表即可。
# 先檢視表各列的型別
investments.info(
)# 將funded_at轉換為時間格式,將raised_amount_usd轉換為數字格式
rounds.funded_at = pd.to_datetime(rounds.funded_at,
format
='%y-%m-%d'
)investments.raised_amount_usd = pd.to_numeric(investments.raised_amount_usd)
# 新建一列year
rounds[
'year'
]= rounds.funded_at.
(lambda rounds:rounds.year)
# 將每年的raised_amount_usd累加起來,按照年份分組(以億美元為單位)
invests =
(rounds.raised_amount_usd.groupby(rounds.year)
.sum()
)/100000000
inv_f = pd.series(invests)
# 在2023年以前的投資規模很小,從2023年起展示
inv_f.plot(title=
'投資規模隨年份變化'
, style=
'ko--'
, xlim=
[1990
,2015])
plt.xlabel(
'年份/年'
)plt.ylabel(
'投資規模/億美元'
)
具體見kesci 七家利用大資料博弈的初創公司
大資料業務有著非常光明的未來,2015年第一季度的1020筆交易創造了134億美元的融資,成為繼2000年以來的大資料融資之最。想知道是誰引領了這股借貸狂潮嗎?以下是利用大資料做業務的七家初創公司。一些公司自身利用大資料進行創新,還有一些公司的工作就是致力於使他人可獲得大資料。不管是哪種,你都應該看...
pandas 對dataframe進行資料預處理
from sklearn import preprocessing enc preprocessing.onehotencoder enc.fit 0,0,3 1,1,0 0,2,1 1,0,2 fit來學習編碼 enc.transform 0,1,3 toarray 進行編碼輸出 array 1....
pandas中對DateFrame進行刪除操作
import pandas as pd import numpy as np 建立dataframe資料 data1 pd.dataframe np.arange 12 reshape 4 3 columns a b c print data1 axis 1表示刪除一列 data2 data1.dr...