s3系統構架在dynamo之上,採取的並不是傳統的關聯式資料庫儲存方式,原因:
s3基本概念:
1.物件:s3的基本儲存單元(資料、元資料),資料型別任意
系統預設元資料:
2.鍵:物件的唯一標示符
3.桶:儲存物件的容器
不能巢狀
在s3中名稱唯一
每個使用者最多建立100個桶
4、基本操作
根據amazon提供的技術文件,目前s3支援的主要操作包括:get、put、list、delete和head
5、s3的資料一致性模型:
s3系統採用冗餘儲存
最終一致性模型
出現這些現象是因為s3為了保證使用者資料的一致性而採取的一種折中手段,即在資料被充分傳播到所有的存放節點之前返回給使用者的仍是原資料。
s3的安全措施:
1.身份認證:數字簽名方式
基於hmac-sha1的數字簽名方式來確定使用者身份
2.訪問控制列表
1)所有者
2)個人授權使用者
3)組授權使用者
s3上傳速率的測試
對於美國的伺服器:10mbit的寬頻上傳速率平均在300kb/秒。
多連線並行傳輸可以大幅提公升傳輸速率。如:多執行緒並行上傳(20個並行任務)平均在:21m/秒
在不考慮成本的情況下,結合ec2進行上傳可以提高上傳速率。平均在2-2.5mb/秒。
AWS CLI 中使用S3儲存
登入 通過控制面板,在s3管理器中建立乙個新的bucket 所有aws服務 安全 身份 iam 組,建立乙個新的組,例如 s3 user 策略中新增 amazons3fullaccess iam 使用者,建立乙個新使用者,例如叫 s3 001 讓同時生成access key id和secret ac...
Python pandas儲存csv到S3的方法
方法一 使用stringio 當要儲存到檔案的是binary檔案時可以用bytesio,類似 from io import stringio import boto3 bucket bucket name csv buffer stringio df.to csv csv buffer s3 res...
hive操作s3資料
1 hive配置s3訪問許可權 2 建立表 例如create external table table create time bigint comment 獲取時的時間 event name string comment 事件名 timestamp bigint comment 事件發生時間 is...