定義的大數據 大數據的確切定義如下: 種類更多樣化 (variety)、數量不斷增加 (volume) 且產生速度越來越快 (velocity) 的數據。以上三個特徵又稱為「三個 V」。 簡而言之,「大數據」是指更龐大且更複雜的資料集, https://www.inside.com.tw/feature/ai/9745-big-data HADOOP 分散式檔案系統(HADOOP DISTRIBUTED FILE SYSTEM, HDFS): – HADOOP MAPREDUCE: MapReduce 是一種計算模型,分為 Map 和 Reduce 兩項功能。 「Map」功能會先將大資料拆成小資料,並以 Key-Value 格式備用。 比如有數千萬份的資料傳入,Map 會計算每個字出現的次數;比如 computer 這個字出現了一次、便以(computer, 1)這樣的(Key, Value) 格式表示。 「Reduce」則是彙整,意即彙整所有相同的 Key 並計算出現的總次數 事實上近兩三年來,Apache 軟體基金會另一個新星「Spark」隱隱有取代 Hadoop MapReduce 的態勢。 在大規模資料的計算、分析上,排序作業的處理時間,一直是個重要的指標。相較於 Hadoop MapReduce 在做運算時需要將中間產生的數據存在硬碟中,因此會有讀寫資料的延遲問題。 Spark 使用了記憶體內運算技術,能在資料尚未寫入硬碟時即在記憶體內分析運算,速度比 Hadoop MapReduce 可以快到 100 倍。 作為與 Hadoop 相容而且執行速度更快的開源軟體,來勢洶洶的 Spark 想取代的其實是 Hadoop MapReduce。 另一方面,Spark 提供了豐富而且易用的 API,更適合讓開發者在實作機器學習演算法。 資料分析 – 機器學習 介紹完了 Hadoop 基礎架構後,讓我們來看看資料分析上的最熱門技術──「機器學習」。 如何從大數據中挖掘資料規律,以改善科學或商業決策,以手動方式探索資料集的傳統統計分析,已難以應付大數據的量與種類。唯有透過「機器學習」,以電腦演算法達成比以往更深入的分析。 資料溝通 – 資料視覺化 隨著「數據導向決策」的時代來臨,資料科學家在分析完數據後,如何成功地將分析結果傳遞出去、使企業接收到該...