BigData
定義的大數據
大數據的確切定義如下:
種類更多樣化 (variety)、數量不斷增加 (volume) 且產生速度越來越快 (velocity) 的數據。以上三個特徵又稱為「三個 V」。
簡而言之,「大數據」是指更龐大且更複雜的資料集,
https://www.inside.com.tw/feature/ai/9745-big-data
HADOOP 分散式檔案系統(HADOOP DISTRIBUTED FILE SYSTEM, HDFS):
– HADOOP MAPREDUCE:
MapReduce 是一種計算模型,分為 Map 和 Reduce 兩項功能。
「Map」功能會先將大資料拆成小資料,並以 Key-Value 格式備用。
比如有數千萬份的資料傳入,Map 會計算每個字出現的次數;比如 computer 這個字出現了一次、便以(computer, 1)這樣的(Key, Value) 格式表示。
「Reduce」則是彙整,意即彙整所有相同的 Key 並計算出現的總次數
事實上近兩三年來,Apache 軟體基金會另一個新星「Spark」隱隱有取代 Hadoop MapReduce 的態勢。
在大規模資料的計算、分析上,排序作業的處理時間,一直是個重要的指標。相較於 Hadoop MapReduce 在做運算時需要將中間產生的數據存在硬碟中,因此會有讀寫資料的延遲問題。
Spark 使用了記憶體內運算技術,能在資料尚未寫入硬碟時即在記憶體內分析運算,速度比 Hadoop MapReduce 可以快到 100 倍。
作為與 Hadoop 相容而且執行速度更快的開源軟體,來勢洶洶的 Spark 想取代的其實是 Hadoop MapReduce。
另一方面,Spark 提供了豐富而且易用的 API,更適合讓開發者在實作機器學習演算法。
資料分析 – 機器學習
介紹完了 Hadoop 基礎架構後,讓我們來看看資料分析上的最熱門技術──「機器學習」。
如何從大數據中挖掘資料規律,以改善科學或商業決策,以手動方式探索資料集的傳統統計分析,已難以應付大數據的量與種類。唯有透過「機器學習」,以電腦演算法達成比以往更深入的分析。
資料溝通 – 資料視覺化
隨著「數據導向決策」的時代來臨,資料科學家在分析完數據後,如何成功地將分析結果傳遞出去、使企業接收到該資訊呢?
資料視覺化 (Data Visualization)的重要性與潛在的龐大商機因此愈發被凸顯出來。
人類的大腦在閱讀圖像畫面的速度遠比文字更快。資訊視覺化的優勢在於──以一目瞭然的方式呈現資料分析結果,比查閱試算數據或書面報告更有效率。
「Tableau 軟體」和微軟開發的「Power BI」產品皆主打在資料分析後,將自動產生簡潔易懂的資訊圖表,並隨著新增的數據分析結果生成儀錶板(Dashboard),供使用者查詢動態報表、指標管理等服務。
留言
張貼留言