PIXNET Logo登入

Python資料分析(三)NumPy那些事的部落格

跳到主文

歡迎光臨數據分析那些事在痞客邦的小天地

部落格全站分類:

  • 相簿
  • 部落格
  • 留言
  • 名片
  • 5月 14 週四 202014:04
  • 基於Hadoop的數倉Hive基礎知識


Hive是基於Hadoop的數倉工具,可對存儲在HDFS上的檔中的資料集進行資料整理、特殊查詢和分析處理,提供了類似於SQL語言的查詢語言–HiveQL,可透過HQL語句實現簡單的MR統計,Hive將HQL語句轉換成MR任務進行執行。

一、概述

1.1 數倉概念

數倉(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反應歷史變化(Time Variant)的資料集合,用於支援管理決策。
數倉體系結構通常含四個層次:資料來源、資料存儲和管理、資料服務、資料應用。

  • 資料來源:是數倉的資料來源,含外部資料、現有業務系統和文檔資料等;
  • 資料集成:完成資料的抽取、清洗、轉換和載入任務,資料來源中的資料採用ETL(Extract-Transform-Load)工具以固定的週期載入到數倉中。
  • 資料存儲和管理:此層次主要涉及對資料的存儲和管理,含數倉、資料集市、數倉檢測、運行與維護工具和中繼資料管理等。
  • 資料服務:為前端和應用提供資料服務,可直接從數倉中獲取資料供前端應用使用,也可透過OLAP(OnLine Analytical Processing,連線分析處理)伺服器為前端應用提供負責的資料服務。
  • 資料應用:此層次直接面向使用者,含資料查詢工具、自由報表工具、資料分析工具、資料採擷工具和各類應用系統。

(繼續閱讀...)
文章標籤

數據分析那些事 發表在 痞客邦 留言(0) 人氣(0)

  • 個人分類:
▲top
  • 5月 13 週三 202014:41
  • Python資料分析(五)Matplotlib做視覺化

此文是《10周入門資料分析》系列的第17篇

想瞭解學習路線,可以先閱讀 學習計畫 | 10周入門資料分析

本篇介紹第三個包 matplotlib

matplotlib是一個用於製作圖表的繪圖包。

Matplotlib API入門

1、Figure 和 Subplot

(繼續閱讀...)
文章標籤

數據分析那些事 發表在 痞客邦 留言(0) 人氣(1)

  • 個人分類:
▲top
  • 5月 13 週三 202014:35
  • 一文讀懂大數據平台 — — 寫給大數據開發初學者的話!

目錄

第一章:初識Hadoop
第二章:更高效的WordCount
第三章:把別處的數據搞到Hadoop上
第四章:把Hadoop上的數據搞到別處去
第五章:快一點吧,我的SQL
第六章:「一夫多妻制」
第七章:越來越多的分析任務
第八章:我的資料要即時
第九章:我的資料要對外
第十章:很强的機器學習

經常有初學者會問,自己想往大數據方向發展,該學哪些技術,學習路線是什麼樣的,覺得大數據很火,就業很好,薪資很高……首先,如果你確定了想往這個方面發展,先考慮自己的過去從業經歷、專業、興趣是什麼。電腦專業 — — 作業系統、硬體、網路、伺服器?軟體專業 — — 軟體發展、程式設計、寫程式碼?還是數學、統計學專業 — — 對資料和數位特別感興趣?

其實這就是想告訴你大數據的三個發展方向,平台搭建/優化/運維/監控、大數據開發/設計/架構、資料分析/挖掘。

先聊一下大數據的4V特徵:

(繼續閱讀...)
文章標籤

數據分析那些事 發表在 痞客邦 留言(0) 人氣(10)

  • 個人分類:
▲top
  • 5月 11 週一 202014:13
  • 資料分析入行,如何擦亮眼睛找一份好工作?


資料分析這事,必須客觀認識企業的現狀和對人才的需求,然後審視自己還差哪些知識和技能,然後理論學習+3~5個項目實踐,惡補。

關於技能的學習,我之前的文章已經講的很全面了。

我想從另一個角度,如何找準有潛力股的企業,沉浸發展,有作為。

因為最近也是遇到兩個小夥伴。一個小夥伴之前是做外包專案助理的,工作了一年轉行做資料分析,因為Excel技能不錯,加上原公司也是做報表開發專案的,被一家不大不小的企業招了進去,原本滿心歡喜以為轉行成功,但是進了部門卻依舊是不斷取數做報表,領導對她的認可也仍停留在【Excel大神】上。

還有我前同事,公司喊了一年多的數位化轉型,現在還在搭數倉。工作近3年,因為工作只需要用到BI和SPSS,自己的工作分不到業務效益的一杯羹,眼看著自己的工作很可能被工作一年的應屆生取代,現在尋思著跳槽轉網際網路。

(繼續閱讀...)
文章標籤

數據分析那些事 發表在 痞客邦 留言(0) 人氣(0)

  • 個人分類:
▲top
  • 5月 09 週六 202011:48
  • Python資料分析(四)Pandas

此文是《10周入門資料分析》系列的第16篇
想瞭解學習路線,可以先閱讀 學習計畫 | 10周入門資料分析

上篇介紹了 NumPy,本篇介紹 pandas。

目錄
pandas入門
pandas的資料結構介紹
基本功能
匯總和計算描述統計
處理缺失資料
層次化索引
pandas入門
Pandas 是基於Numpy構建的,讓以NumPy為中心的應用變的更加簡單。
pandas的資料結構介紹

1、Series

由一組資料(各種 NumPy 資料類型)和一組索引組成:

Values 和 index 屬性:

給所創建的Series帶有一個可以對各個數據點進行標記的索引:

與普通NumPy陣列相比,可以透過索引的方式選取Series中的單個或一組值:

可將Series看成是一個定長的有序字典,它是索引值到資料值的一個映射(它可以用在許多原本需要字典參數的函數中)。
如果資料被存放在一個 python 字典中,可以直接透過這個字典來創建Series:

如果只傳入一個字典,則結果Series中的索引就是原字典的鍵(有序排列),上面的states。
Series最重要的一個功能是在算數運算中自動對齊不同索引的資料:

Series物件本身及其索引都有一個name屬性:

Series的索引可以透過賦值的方式就地修改:

(繼續閱讀...)
文章標籤

數據分析那些事 發表在 痞客邦 留言(0) 人氣(4)

  • 個人分類:
▲top
  • 5月 08 週五 202009:59
  • 【速藏!】這大概是史上最最全的大數據學習資源了!


(想要全部鏈接 點擊閱讀原文:【速藏!】這大概是史上最最全的大數據學習資源了!)
內容目錄>>

關聯式資料庫管理系統(RDBMS)
框架
分散式程式設計
分散式檔案系統
檔資料模型
Key -Map 資料模型
鍵-值資料模型
圖形資料模型
NewSQL資料庫
列式資料庫
時間序列資料庫
類SQL處理
數據攝取
服務程式設計
調度
機器學習
基準測試
安全性
系統部署
應用程式
搜尋引擎與框架
MySQL的分支和演化
PostgreSQL的分支和演化
Memcached的分支和演化
内建式資料庫
BI商業智慧
資料視覺化
loT物聯網和感測器
文章
論文
視頻
(想要全部鏈接 點擊閱讀原文:【速藏!】這大概是史上最最全的大數據學習資源了!)

關聯式資料庫管理系統(RDBMS)

* MySQL:世界最流行的開來源資料庫;

  • PostgreSQL:世界最先進的開來源資料庫;
  • Oracle 資料庫:物件-關係型數據庫管理系統。

(繼續閱讀...)
文章標籤

數據分析那些事 發表在 痞客邦 留言(0) 人氣(31)

  • 個人分類:
▲top
  • 5月 08 週五 202009:32
  • 數據分析,請你簡單點!

在做數據分析的過程中,經常會想數據分析到底是什麼?為什麼要做數據分析?數據分析到底該怎麼做?等這些問題。對於這些問題,小數一開始也只是有個很籠統的認識。

最近這兩天我又重新讀了一遍早就被很多人推薦的《誰說菜鳥不會數據分析》這本書。發現對這些問題講的還是比較透徹,隨後對這本書的核心內容做了一個筆記。

說明:筆記主要以思維導圖的方式呈現。

目錄

(繼續閱讀...)
文章標籤

數據分析那些事 發表在 痞客邦 留言(0) 人氣(10)

  • 個人分類:
▲top
  • 4月 29 週三 202011:48
  • Python資料分析(三)NumPy


此文是《10周入門資料分析》系列的第15篇
想瞭解學習路線,可以先閱讀 學習計畫 | 10周入門資料分析

前兩篇講了Python的基礎,今天開始進入Python資料分析工具的教程。
Python資料分析絕對繞不過的四個包是numpy、scipy、pandas還有matplotlib。
numPy是Python數值計算最重要的基礎包,大多數提供科學計算的包都是用numPy的陣列作為構建基礎。專門用來處理矩陣,它的運算效率比列表更高效。

scipy是基於numpy的科學計算包,包括統計、線性代數等工具。

pandas是基於numpy的資料分析工具,能夠快速的處理結構化資料的大量資料結構和函數。

matplotlib 是最流行的用於繪製資料圖表的 Python 庫。

(繼續閱讀...)
文章標籤

數據分析那些事 發表在 痞客邦 留言(0) 人氣(17)

  • 個人分類:
▲top
  • 4月 27 週一 202011:49
  • Python入門(二)函數基礎


此文是《10周入門資料分析》系列的第14篇
想瞭解學習路線,可以先閱讀 學習計畫 | 10周入門資料分析
Python的內容比較多,可能要花個幾周的時間來講完。

上一篇文章講了Python的一些運行環境和資料基礎,本篇文章將來講解高級的,函數參數這些。

控制流

** 在 Python 中有三種控制流語句,if、for和while。**

1. 條件

(繼續閱讀...)
文章標籤

數據分析那些事 發表在 痞客邦 留言(0) 人氣(29)

  • 個人分類:
▲top
  • 4月 26 週日 202010:10
  • Python入門(一)環境&資料結構


此文是《10周入門資料分析》系列的第13篇
想瞭解學習路線,可以先閱讀 學習計畫 | 10周入門資料分析

前面經過十幾篇文章,相想必大家對於資料分析是什麼,怎麼做有了基本的認識。跟著操作的小夥伴基本功應該練的差不多了,可以蛟龍出海了。

有些基礎后,理論上的東西我們先放一放,現在開始我們就學習一下很熱門,很燙手的python》》入門版六小節,好了,跟著小編學起來吧!

作為當下最熱門的程式設計語言之一,Python有兩個非常有趣的方向:一個是資料分析,從掌握資料分析的基本方法開始,學習NumPy、Pandas、mapplotlib包;然後再往下就是資料採擷,機器學習、深度學習,甚至人工智慧。另外一個方向則是web開發。有同學說爬蟲呢,爬蟲其實是獲取資料的一個手段,包括資料庫的處理等等都是包含在上面兩條路線裡面。

想學會一門語言不是一朝一夕的事情,本文是按照業務資料分析師/商業分析師的路線來講Python的學習路徑。若大家想成為技術型的分析師,或者未來往資料採擷發展,建議你要比文章內容學得更深,所有的程式碼最好都手打一遍,這是最有效的學習方式。

(繼續閱讀...)
文章標籤

數據分析那些事 發表在 痞客邦 留言(0) 人氣(18)

  • 個人分類:
▲top
12...4»

個人資訊

數據分析那些事
暱稱:
數據分析那些事
分類:
好友:
累積中
地區:

熱門文章

  • ()五張圖表區分商業分析師與資料科學家
  • ()IT人不要看太多【知識】!?
  • ()想要學習製作最近火爆的動態圖?看這篇文章就夠了
  • ()學習計劃帶你10週入門資料分析
  • ()4招教你煉就資料分析的思維
  • ()資料分析必備的43个Excel函式,史上最全!
  • ()數據分析必掌握的統計學知識!
  • ()不可不知描述性統計
  • ()Python入門(二)函數基礎
  • ()【速藏!】這大概是史上最最全的大數據學習資源了!

文章分類

  • 未分類文章 (1)

最新文章

    動態訂閱

    文章精選

    文章搜尋

    誰來我家

    參觀人氣

    • 本日人氣:
    • 累積人氣: