Hive是基於Hadoop的數倉工具,可對存儲在HDFS上的檔中的資料集進行資料整理、特殊查詢和分析處理,提供了類似於SQL語言的查詢語言–HiveQL,可透過HQL語句實現簡單的MR統計,Hive將HQL語句轉換成MR任務進行執行。

一、概述

1.1 數倉概念

數倉(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反應歷史變化(Time Variant)的資料集合,用於支援管理決策。
數倉體系結構通常含四個層次:資料來源、資料存儲和管理、資料服務、資料應用。

數據分析那些事 發表在 痞客邦 留言(0) 人氣()

此文是《10周入門資料分析》系列的第17篇

想瞭解學習路線,可以先閱讀 學習計畫 | 10周入門資料分析

數據分析那些事 發表在 痞客邦 留言(0) 人氣()

目錄

第一章:初識Hadoop
第二章:更高效的WordCount
第三章:把別處的數據搞到Hadoop上
第四章:把Hadoop上的數據搞到別處去
第五章:快一點吧,我的SQL
第六章:「一夫多妻制」
第七章:越來越多的分析任務
第八章:我的資料要即時
第九章:我的資料要對外
第十章:很强的機器學習

經常有初學者會問,自己想往大數據方向發展,該學哪些技術,學習路線是什麼樣的,覺得大數據很火,就業很好,薪資很高……首先,如果你確定了想往這個方面發展,先考慮自己的過去從業經歷、專業、興趣是什麼。電腦專業 — — 作業系統、硬體、網路、伺服器?軟體專業 — — 軟體發展、程式設計、寫程式碼?還是數學、統計學專業 — — 對資料和數位特別感興趣?

數據分析那些事 發表在 痞客邦 留言(0) 人氣()


資料分析這事,必須客觀認識企業的現狀和對人才的需求,然後審視自己還差哪些知識和技能,然後理論學習+3~5個項目實踐,惡補。

關於技能的學習,我之前的文章已經講的很全面了。

文章標籤

數據分析那些事 發表在 痞客邦 留言(0) 人氣()

此文是《10周入門資料分析》系列的第16篇
想瞭解學習路線,可以先閱讀 學習計畫 | 10周入門資料分析

上篇介紹了 NumPy,本篇介紹 pandas。

目錄
pandas入門
pandas的資料結構介紹
基本功能
匯總和計算描述統計
處理缺失資料
層次化索引
pandas入門
Pandas 是基於Numpy構建的,讓以NumPy為中心的應用變的更加簡單。
pandas的資料結構介紹

數據分析那些事 發表在 痞客邦 留言(0) 人氣()


(想要全部鏈接 點擊閱讀原文:【速藏!】這大概是史上最最全的大數據學習資源了!)
內容目錄>>

關聯式資料庫管理系統(RDBMS)
框架
分散式程式設計
分散式檔案系統
檔資料模型
Key -Map 資料模型
鍵-值資料模型
圖形資料模型
NewSQL資料庫
列式資料庫
時間序列資料庫
類SQL處理
數據攝取
服務程式設計
調度
機器學習
基準測試
安全性
系統部署
應用程式
搜尋引擎與框架
MySQL的分支和演化
PostgreSQL的分支和演化
Memcached的分支和演化
内建式資料庫
BI商業智慧
資料視覺化
loT物聯網和感測器
文章
論文
視頻
(想要全部鏈接 點擊閱讀原文:【速藏!】這大概是史上最最全的大數據學習資源了!)

數據分析那些事 發表在 痞客邦 留言(0) 人氣()

在做數據分析的過程中,經常會想數據分析到底是什麼?為什麼要做數據分析?數據分析到底該怎麼做?等這些問題。對於這些問題,小數一開始也只是有個很籠統的認識。

最近這兩天我又重新讀了一遍早就被很多人推薦的《誰說菜鳥不會數據分析》這本書。發現對這些問題講的還是比較透徹,隨後對這本書的核心內容做了一個筆記。

數據分析那些事 發表在 痞客邦 留言(0) 人氣()


此文是《10周入門資料分析》系列的第15篇
想瞭解學習路線,可以先閱讀 學習計畫 | 10周入門資料分析

前兩篇講了Python的基礎,今天開始進入Python資料分析工具的教程。
Python資料分析絕對繞不過的四個包是numpy、scipy、pandas還有matplotlib。
numPy是Python數值計算最重要的基礎包,大多數提供科學計算的包都是用numPy的陣列作為構建基礎。專門用來處理矩陣,它的運算效率比列表更高效。

scipy是基於numpy的科學計算包,包括統計、線性代數等工具。

數據分析那些事 發表在 痞客邦 留言(0) 人氣()


此文是《10周入門資料分析》系列的第14篇
想瞭解學習路線,可以先閱讀 學習計畫 | 10周入門資料分析
Python的內容比較多,可能要花個幾周的時間來講完。

上一篇文章講了Python的一些運行環境和資料基礎,本篇文章將來講解高級的,函數參數這些。

文章標籤

數據分析那些事 發表在 痞客邦 留言(0) 人氣()


此文是《10周入門資料分析》系列的第13篇
想瞭解學習路線,可以先閱讀 學習計畫 | 10周入門資料分析

前面經過十幾篇文章,相想必大家對於資料分析是什麼,怎麼做有了基本的認識。跟著操作的小夥伴基本功應該練的差不多了,可以蛟龍出海了。

數據分析那些事 發表在 痞客邦 留言(0) 人氣()

1 234