資源簡介 第一章1.1數據數據定義:數據是對客觀事物的符號表示。表現形式:文字、符號、圖形、圖像、聲音、視頻等。單純的數據是沒有意義的,經過解釋的數據才有意義。科學研究離不開數據,數據的客觀性為科學研究提供可靠的依據。1.2 數據、信息與知識信息的載體:語言、文字、圖像、聲音、視頻、動畫。 信息的特征:載體依附性、價值性、時效性、共享性、可加工處理性、真偽性。信息的價值包括顯性價值和隱性價值。知識是人類在社會實踐中所獲得的知識和經驗的總和。智慧:是一種更高層次的綜合能力,主要表現為收集、加工、應用、傳播知識的能力,以及對事物發展的前瞻性看法。1.3數據采集與編碼數據采集方式:傳感器和網絡爬蟲。傳感器獲取來自自然信源的數據 。網絡爬蟲可在短時間內獲取大量網絡數據。信號數據可用于表示任何信息,如符號、文字、語音、圖像等,從表現形式上可歸結為兩類:模擬信號和數字信號。模擬信號:以連續變化的物理量存在,如水銀溫度表呈現的溫度值,電流表指針指向的電流值等。平時我們聽到的聲音、看到的電視圖像都是模擬信號。數字信號:取值上是離散的,不連續的信號。在信息技術中,這種信號表示的數據是指可被計算機存儲、處理的二進制數據。從模擬信號轉換到數字信號一般要經過采樣、量化和編碼這樣三個過程,最終變成由一連串由0和1來代表的脈沖數字信號。采樣——連續時間(空間)域上的模擬信號轉換到離散時間(空間)域上的離散信號。對于同一模擬信號,采樣的時間間隔越小,采集到的信號樣本數量越多。每一秒的采樣樣本數叫做采樣頻率,單位用赫茲(Hz)表示。相同時間內,采樣頻率越高,采集的樣本數量越多。模擬信號轉為數字信號會引起失真,影響信號保真度的因素是采樣頻率和量化位數。量化:將信號的連續取值近似為有限個離散值的過程。連續信號經過采樣成為離散信號,離散信號經過量化后可用數值表示。將采樣到的信號用數字表示出來,即將模擬信號的波形轉換為數字。編碼:用二進制數表示每個采樣的量化值(十進制數)。進制之間的關系十進制轉二進制 除二取余,逆排余數二進制轉十進制 按權展開,相加求和二進制轉十六進制 四位變一位,不足位補0,8421法十六進制轉二進制 一位變四位,不足位補0,8421法十六轉十進制 (低頻) 按權展開,相加求和(權值是16)十轉十六(低頻) 短除法,除16取余,逆排余數二進制末尾去掉0,轉換成十進制是原數的一半。二進制末尾加0,是原數的兩倍。十進制 8 二進制 10004 100十六進制 0-9,A-F 以0-F作為一個循環。(10以上換成字母)編碼:信息按照某種規則或格式,從一種形式轉換為另一種形式的過程。計算機中存儲容量最小單位是比特(bit),1位二進制數碼表示1個bit。計算機中以8bit為一個基本單位,稱為字節(Byte)。常見的字符編碼有ASCII、Uniode以及各種漢字編碼。ASCII碼(信息交換標準代碼)一共128個,內碼在比較時,最大值一定是小于128。ASCII碼 十六進制0(30)- 9(39) A 41 – Z 5A a 61 – z 7A注意:49 (I) 后是4A (J) 到4F (O) 之后 才進入50(P)的循環。十六進制以0-F作為一個完整循環。(2)漢字編碼每個字母或者數字都用1個字節的編碼表示。內碼單位是1B.首位大于等于8,內碼需要兩個兩個寫。注意:全角模式下,一個字母、數字或者標點符號也會占兩個字節。聲音編碼:在音頻信號數字化過程中,聲音的保真度不僅受到采樣頻率的影響,也依賴于量化值。量化值一般用二進制數表示,其二進制位數決定了量化的精度,也稱作量化位數。量化位數越大,量化精度也越高。音頻文件的存儲容量計算公式:存儲容量=采樣頻率(Hz) X 量化位數(bit) X 聲道數 X 時長(s)/8做題注意KHz 需要x1000. 此外注意內存單位轉換。圖像編碼:數字圖像包括矢量圖形與位圖圖像。矢量圖:用點、直線或者多邊形等幾何圖表示的圖像。特點:內存小,放大不失真。位圖圖像:又稱柵格圖或點陣圖,像素是組成位圖圖像的基本單位。位圖放大會失真。考試注意色和位的區別。位深可以直接使用,多少色需要轉換為2的次方形式才可使用。如256色是8位,16色為4位。圖像存儲容量計算公式:存儲容量 =水平像素 X 垂直像素X顏色位深度/8視頻編碼:靜態的圖像連續播放就形成視頻。PAL制式:25幀 NTSC制式:30幀視頻存儲容量=水平像素×垂直像素×每個像素所需位數×幀頻×時間 /8比較內存大小的時候,可以嘗試使用比例法。1.4數據管理與安全數據管理:利用計算機硬件和軟件技術對數據進行有效收集、存儲、處理和應用的過程。數據管理的階段:人工管理、文件管理、數據庫管理計算機管理文件方式:樹形目錄結構Windows:文件夾結構化數據:也稱作行數據。是由二維表結構來進行邏輯表達和實現的數據,嚴格地遵據格式與長度規范,主要通過關系型數據庫進行存儲和管理。非結構化數據:是數據結構不規則或不完整,沒有預定義的數據模型,是不方便用數據庫維邏輯表來表現的數據。包括各類格式的辦公文檔、文本、圖片、網頁、音頻、視頻等。半結構化數據:介于結構化數據和非結構化數據之間的數據,具有一定的結構性。威脅數據安全的因素:硬盤驅動器損壞、操作失誤、黑客入侵、感染計算機病毒、遭受自然災害數據防護手段:異地容災、數據備份、磁盤列陣提高數據本身安全的方法:數據加密和數據校驗。數據加密可以提高保密性。數據校驗保證完整性。可采用MD5,CRC,SHA-1等。1.5數據與大數據大數據:代表信息量大、速度快、種類繁多的信息資產,需要特定的技術和分析方法將其轉化為價值。大數據的特征:數據體量大(volume)速度快(Velocity):數據產生速度快,處理速度快。數據類型多(Variety):有人工產生的,也有機器產生的。價值密度低(Value)大數據思維:1.大數據要分析的是全體數據,而不是抽樣數據。2.對于數據不再追求精確性,而是能夠接受數據的混雜性。3.不一定強調對事物因果關系的探求,而是更加注重它們的相關性 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫