計算機存在的意義是管理資料。
資料:基本值。
資訊:經過組織或處理後有含義的資料。
數字文字
音訊影象和圖形
上述這些資料最終都被儲存為二進位制數字,簡單說即是由0和1表示。
自然辦的大部分都是連續和無限的。而計算機則是有限的。計算機記憶體和其他硬體裝置用來儲存和操作一定量的資料空間只有那麼多。
表示資料的方法有兩種:模擬法和數字法。
模擬資料是一種連續表示法,模擬它表示的真實資訊。
數字資料是一種離散表示法,把資訊分割成了獨立的元素。
bit:位,byte:位元組,m:兆,1g:1g。
1byte=8bit
1kb=1024byte
1mb=1024kb
1g=1024mb
1t=1024gb
二進位制數在物理上最容易實現。例如,可以只用高、低兩個電平表示"1"和"0",也可以用脈衝的有無或者脈衝的正負極性表示它們。
二進位制數用來表示的二進位制數的編碼、計數、加減運算規則簡單。
二進位制數的兩個符號"1"和"0"正好與邏輯命題的兩個值"是"和"否"或稱"真"和"假"相對應,為計算機實現邏輯運算和程式中的邏輯判斷提供了便利的條件。
資料溢位
實數表示法
字元數是有限的,所以只要給所有字元都賦予乙個二進位制字串來表示,我們可以稱這些字元的集合稱為字符集。
不同語言所使用的字元數是不相同的,所以當今的計算機系統出現了多種字符集。
美國資訊互換標準**(american standard code for information interchange)。以前的ascii字符集用7位表示每個字元,可以表示128個不同的字元。現在的ascii字符集使用8位表示每個字元,可以表示256個字元。
unicode字符集稱為統一碼,使用16位(雙位元組)表示每個字元,能夠表示多達6萬5千多個字元。
為了減少文字占用的儲存空間以及有效地在兩台計算機之間傳遞文字,所以通常會使用文字壓縮功能。
簡單的說,將經常使用的多個字元的組合使用某個字元代替。例如:將 the 與'!'對應,將 you與"@"對應。這種方法有侷限點,關鍵字編碼的字元不能出現在原始文字中。
簡單的說,將連續出現的字元用數值和字元表示。例如:將aaaaaaa用*a7表示,*為特殊標誌,a為重複出現的字元,7為字元出現的次數。
簡單的說,是用變長的二進位制串表示字元,使常用的字元具有較短的編碼。
例如:赫夫曼編碼
字元赫夫曼編碼字元a
rebl
do那麼單詞doorbell的二進位制編碼如下:
1011 110 110 111 1010 01 100 100
而根據ascii字符集時的二進位制編碼如下:
01000100 01001111 01001111 01010010 01000010 01000101 01001100 01001100
波形音訊是聲音的數字形式表示。對於聲音的數字記錄來說,會周期性地對聲音波形進行取樣並以數字資料的形式進行儲存。**、發音和聲音都可以以波形形式進行儲存。
取樣速率指的是在記錄過程中,每秒鐘對聲音測量的次數。取樣速率以h z為單位。每秒鐘取樣1 0 0 0次即為1 0 0 0 h z或1 k h z。聲音每秒鐘需要88 200個位元組。而立體聲需要兩倍的儲存空間,因為需要記錄兩個記錄來達到立體聲的效果。但取樣速率為 4 4 . 1 k h z時,在1 . 4 4 m b的軟盤上,僅僅能儲存8秒鐘的**。而典型的一輯搖滾樂(4 5分鐘)需要4 7 5 m b。
音效卡對聲音的處理質量可以用三個基本引數來衡量,即取樣頻率、取樣位數和聲道數。取樣頻率是指單位時間內的取樣次數。取樣頻率越大,取樣點之間的間隔就越小,數位化後得到的聲音就越逼真,但相應的資料量就越大。音效卡一般提供11.025khz、22.05khz和44.1khz等不同的取樣頻率。
取樣位數是記錄每次取樣值數值大小的位數。取樣位數通常有8bits或16bits兩種,取樣位數越大,所能記錄聲音的變化度就越細膩,相應的資料量就越大。
取樣的聲道數是指處理的聲音是單聲道還是立體聲。單聲道在聲音處理過程中只有單資料流,而立體聲則需要左、右聲道的兩個資料流。顯然,立體聲的效果要好,但相應的資料量要比單聲道的資料量加倍。
不經過壓縮聲音資料量的計算公式為:
資料量(位元組/秒)= (取樣頻率(hz)*取樣位數(bit)*聲道數)/ 8,其中,單聲道的聲道數為1,立體聲的聲道數為2。
【例1】請計算對於5分鐘雙聲道、16位取樣位數、44.1khz取樣頻率聲音的不壓縮資料量是多少?
解:根據公式:
資料量=(取樣頻率×取樣位數×聲道數×時間)/8
得,資料量=[44.1×1000×16×2×(5×60)] /(8×1024×1024)
=50.47mb
因此,聲音的不壓縮資料量約為50.47mb。
計算時要注意幾個單位的換算細節:
時間單位換算:1分=60秒
取樣頻率單位換算:1khz=1000hz
資料量單位換算:1mb=1024×1024=1048576b
位圖影象和向量影象這兩種編碼方法的不同,影響到影象的質量、儲存影象的空間大小、影象傳送的時間和修改影象的難易程度。
顏色是我們對到達視網膜的各種頻率的光的感覺。我們的視網膜有有三種顏色感光視錐細胞,負責接收不同頻率的光。這些感光器分別對應於紅、綠和藍三種顏色。人眼可以覺察的其他顏色都由這三種顏色混合而已。
在計算機中,顏色通常用rgb(red-green-blue)值表示,這其實是三個數字,說明了每種原色的相對比例。
計算機通過指定每個獨立的點(或畫素)在螢幕上的位置來儲存位圖影象。
顯示螢幕是由一行行或一列列的畫素(點)組成的,打個比方,顯示器的解析度為1024*768畫素,即表示每一行有1024個畫素,每一列有768個畫素。
最簡單的點陣圖影象是單色影象。單色影象包含的顏色僅僅有黑色和白色兩種,即是指每乙個畫素點只有黑色和白色兩種。乙個畫素點有兩種顏色的情況,因此可以用1 bit表示乙個畫素點,假設有一幅1024*768的單色影象,那它的檔案大小是:1024*768*1=786432bit,即是約98kb。繼續推算,假設有一幅256色影象,由此我們知道乙個畫素點有256種顏色的情況,需要用8bit來表示乙個畫素點,那它的檔案大小是:1024*768*8=6291456bit,即是約786kb。
位圖影象通常用於現實中的影象,如掃瞄的影象。檔案的擴充套件名為: . b m p,. p c x,. t i f,. j p g和. g i f。需要注意的是,除了bmp影象檔案是未經過壓縮等處理外,其它檔案格式都是經過某些壓縮處理的,主要是為了節省空間。所以在做測試時,應該對影象檔案使用bmp檔案格式進行儲存。
因為位**件用一系列的位元來表示畫素,因此可以修改或編輯單個的畫素,也可以同時修改乙個區域的畫素。
向量影象由一串可重構影象的指令構成。在建立向量的時候,可以用不同的顏色來畫線和圖形。然後計算機將這一串線條和圖形轉換為能重構影象的指令。計算機只儲存這些指令,而不是真正的影象。向量影象看起來沒有位圖影象真實。
簡單地說,儲存的是畫影象的命令,而不是影象本身。
儲存空間小、方便修改(可以把向量影象的一部分當作乙個單獨的物件進行修改)。
包含向量影象的檔案的擴充套件名為:. w m f,. d x f,. m g x和. c g m。
不過,現在一部兩小時的高畫質電影大概就4g到6g,究竟是什麼原因導致檔案大幅度縮水呢?
第三章 k近鄰法
缺點 適用資料範圍 工作原理 一般流程 k近鄰模型 歐式距離 曼哈頓距離 l 距離 k值的選擇 k偏大 分類決策規則 k近鄰法的實現 kd樹 import math x,y 預設歐式距離 defl x,y,p 2 iflen x len y and len x 1 sum 0for i in ran...
第三章,檢索資料
select prod name from products 上述語句利用select 語句從products表中檢索乙個名為prod name的列,所需要的列名在select 關鍵字之後給出,from關鍵字指出從其中檢索資料的表名 select prod name,prod id,prod nam...
第三章 資料定義
建立資料庫 creat database 資料庫名稱 開啟資料庫 use 資料庫名稱 刪除資料庫 drop database 資料庫名稱 更改資料庫名字 sp renameedp 原資料庫名稱 更改後資料庫名稱 建立資料庫student,並開啟 create database student gou...