持續更新。
--------------------c++篇------------------------
分布計算提高效率的庫及庫函式,比如fb的folly庫就有folly::gen一大堆函式,e.g.
auto results = from(ids) | get<0>() | as();
本質上和e.g.pyspark的分布式計算的底層思想是一致的。
--------------------python篇-----------------------
python特別適用於搭data pipeline,比如fb的dataswarm repo(用於run hive&presto tasks)和在zillow用的pyspark,其實根本上都是用了python的指令碼特性,串聯起tasks來。
dict的4種常見操作
增:d['key1'] = 4
刪:d.pop('key1')
找key:if 'key1' in d
get值:d.get('key1')
subprocess:
popen, e.g.
process = popen(['cat', 'test.py'], stdout=pipe, stderr=pipe)
相當於執行了cat test.py這個命令
然後可以用communicate函式來read,e.g. stdout, stderr = process.communicate(); print stdout
yield & generators
e.g.
def foo():
for i in range(0,100):
yield i*i
generator = foo()
for i in generator:
print(i)
eee
技術性 OO語言知識
持續更新。c 篇 分布計算提高效率的庫及庫函式,比如fb的folly庫就有folly gen一大堆函式,e.g.auto results from ids get 0 as 本質上和e.g.pyspark的分布式計算的底層思想是一致的。python篇 python特別適用於搭data pipelin...
技術性 Search知識
持續更新。fb search框架 php寫的browse layer,負責同client對話以及param處理和passing等。c 寫的backend,最大的一坨叫做topaggregator,主要負責三件事 a rewrite query to get better search results...
技術性 Search知識
持續更新。fb search框架 php寫的browse layer,負責同client對話以及param處理和passing等。c 寫的backend,最大的一坨叫做topaggregator,主要負責三件事 a rewrite query to get better search results...