利用pandas對初創公司進行資料分析

2021-08-22 19:46:39 字數 4909 閱讀 7872

資料來源

kesci的crunchbase 初創公司資料集

資料集內容

acquisitions.csv: 初創公司被收購的記錄

acquisitions

初創公司被收購的記錄

company_permalink

company_name

company_category_list

company_country_code

company_state_code

company_region

company_city

acquirer_permalink

acquirer_name

收購公司

acquirer_category_list

acquirer_country_code

acquirer_state_code

acquirer_region

acquirer_city

acquired_at

收購日期

acquired_month

price_amount

收購金額

price_currency_code

收購結算單位

additions.csv: 月度新增公司數目

companies.csv: 公司資訊記錄

companies

公司資訊記錄

permalink

name

homepage_url

category_list

funding_total_usd

總投資金額

status

country_code

state_code

region

city

funding_rounds

投資輪數

founded_at

成立日期

first_funding_at

首次融資日期

last_funding_at

末次融資日期

investments.csv: 投資記錄

investments

投資記錄

company_permalink

company_name

company_category_list

company_country_code

company_state_code

company_region

company_city

investor_permalink

investor_name

investor_country_code

investor_state_code

investor_region

investor_city

funding_round_permalink

funding_round_type

投資輪次型別

funding_round_code

投資輪次型別**

funded_at

融資日期

raised_amount_usd

融資金額

rounds.csv: 投資輪次記錄

rounds

投資輪次記錄

company_permalink

company_name

company_category_list

company_country_code

company_state_code

company_region

company_city

funding_round_permalink

funding_round_type

投資輪次型別

funding_round_code

投資輪次型別**

funded_at

被投日期

raised_amount_usd

被投金額

問題描述

1.vc在投資的時候有什麼樣的喜好?

2.初創公司的headquarter所在的城市,是否會影響其融資?

3.一般需要多久,初創公司可以完成上市或者被收購?

4.可否建立乙個**初創公司是否會被收購/完成上市的模型?

問題分析

1、vc投資的喜好

投資是追求回報的,嘗試從資料中發現出投資的偏好性。

根據5w2h法分析:

what:投資事件

why:為什麼投資

when:什麼時間投資、融資

where:投資方地點、融資方地點

who:投資方,融資方

how:什麼樣的方式

how much:投融資金額

對於vc投資偏好的分析,從出發點考慮。

投資是為了獲取更大的利益,也就是vc對企業進行投資,在未來將會獲得更大的收益。

獲取的利益包括,融資企業上市或者被收購,此時投資方獲得更大收益。

對於融資企業,屬性有:區域行業發展狀況成立時長

對於投資企業,屬性有:區域行業發展狀況成立時長

投資上涉及指標有:投資規模投資輪次

收益可以用融資企業被收購或上市時的估值來衡量。

因此需要看投資公司的相關投資資訊,用到investments.csv

①投資公司的企業區域分布

和猜想相同,美國投資公司高達8000多家,佔據整體投資公司數量的58.06%,英國排到第2,佔7.10%,加拿大排佔3.24%,居第3,而中國位居第8,佔1.82%。

②投資公司的企業行業分布

③投資公司對不同國家不同行業投資數量、規模的分布

2、初創公司完成上市或者收購

完成上市或收購的時間距成立時間(或者首次被投時間)——建議按照年計算

完成上市或者收購的公司數量之間的關係

實現

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

path1 =

"/home/kesci/input/cb_startup/acquisitions.csv"

path2 =

"/home/kesci/input/cb_startup/additions.csv"

path3 =

"/home/kesci/input/cb_startup/companies.csv"

path4 =

"/home/kesci/input/cb_startup/investments.csv"

path5 =

"/home/kesci/input/cb_startup/rounds.csv"

acquisitions = pd.read_csv(path1)

# 初創公司被收購的記錄

additions = pd.read_csv(path2)

# 月度新增公司數目

companies = pd.read_csv(path3)

# 公司資訊記錄

investments = pd.read_csv(path4)

# 投資記錄

rounds = pd.read_csv(path5)

# 投資輪次記錄

1、資料集提供時間內,總投資規模與年份之間的關係

我們只需要將按年將投資規模統計,展示成折線圖即可。

這裡我們需要用到rounds 這個表即可。

# 先檢視表各列的型別

investments.info(

)# 將funded_at轉換為時間格式,將raised_amount_usd轉換為數字格式

rounds.funded_at = pd.to_datetime(rounds.funded_at,

format

='%y-%m-%d'

)investments.raised_amount_usd = pd.to_numeric(investments.raised_amount_usd)

# 新建一列year

rounds[

'year'

]= rounds.funded_at.

(lambda rounds:rounds.year)

# 將每年的raised_amount_usd累加起來,按照年份分組(以億美元為單位)

invests =

(rounds.raised_amount_usd.groupby(rounds.year)

.sum()

)/100000000

inv_f = pd.series(invests)

# 在2023年以前的投資規模很小,從2023年起展示

inv_f.plot(title=

'投資規模隨年份變化'

, style=

'ko--'

, xlim=

[1990

,2015])

plt.xlabel(

'年份/年'

)plt.ylabel(

'投資規模/億美元'

)

具體見kesci

七家利用大資料博弈的初創公司

大資料業務有著非常光明的未來,2015年第一季度的1020筆交易創造了134億美元的融資,成為繼2000年以來的大資料融資之最。想知道是誰引領了這股借貸狂潮嗎?以下是利用大資料做業務的七家初創公司。一些公司自身利用大資料進行創新,還有一些公司的工作就是致力於使他人可獲得大資料。不管是哪種,你都應該看...

pandas 對dataframe進行資料預處理

from sklearn import preprocessing enc preprocessing.onehotencoder enc.fit 0,0,3 1,1,0 0,2,1 1,0,2 fit來學習編碼 enc.transform 0,1,3 toarray 進行編碼輸出 array 1....

pandas中對DateFrame進行刪除操作

import pandas as pd import numpy as np 建立dataframe資料 data1 pd.dataframe np.arange 12 reshape 4 3 columns a b c print data1 axis 1表示刪除一列 data2 data1.dr...