Skip to main content

資料分析工程的興起

資料分析工程為提供各種不同應用單位他們所需要的資料。把在資料庫與各種不同的資料集,透過資料分析工程師了解需求單位的需求後,把所需的數據集結轉換成資訊,也就是把數據轉換成業務面向的資訊。

ELT 與 ETLT 的興起

由於現在資料倉儲技術的盛行,且在 2020 年 Snowflake 上市讓雲資料倉儲技術受到廣大的討論以及流行,在尤其是在 ELT 以及 ETLT 的技術與生態系應運而生,照就了許多新的獨角獸誕生。以及開始有了資料分析工程這樣的一個角色,與其重要性。

資料分析工程開始從何提倡

從誰發起已不可考,但最早在 2016 年 dbt 的創辦人 Tristan Handy 在一篇部落格提到 Building a Mature Analytics Workflow 當時的資料分析流程時有以下幾大問題。

由於現在的資料分析流程所有的分析營運都是各自的部門處理,所以導致知識破碎與零碎,常見到就是分析時不斷重新寫相同的資料分析流程。讓相同的資料不斷在不地方重複產出。

dbt 也有一個非常不錯的 The Analytics Engineering Guide

資料分析工程的心態 - 資料分析應該是要協作

現代的資料分析流程要能夠讓資料分析人員知道,他有哪些已經處理好的資料已經處理過了。可以用快速的方式獲取資料,所以資料需要

  • 版本控制:不管是用 SQL, Python, Java 都需要有版本控制,以及資料分析能夠知道過去與現在的資料演變。
  • 品質確認:確認資料的正確性,讓資料透過測試與複查機制審核。讓應用端的人員能夠有自信的使用資料。
  • 文件:就像是軟體開發,資料也需要文件作記錄,包含資料的樣貌以及意義
  • 模組化:資料在處理的流程能夠透過模組化重複利用,不用不斷的重新撰寫類似或相同功能的資料流程
  • 分析流程是資產:資產代表資料處理是能夠累積與重複利用,而不是一次性且無法重複利用。
  • 環境設定:在不同的測試、正式、驗證等不同的環境能夠透過環境參數設定做變換。
  • 自動化:就像是軟體工程一樣,能夠透過 CI/CD 的方式讓資料分析程式碼能夠自動化設定、測試、與發佈。

『資料分析工程師』真的是有這個職位嗎?

我們可以直接在 Glassdoor 上看到有許多公司都開始應徵這樣的人才,像是 J.P. Morgan, Amazon, Facebook, SAS Institute, 等等...。

以下為在 Glassdoor (2021.10.22) 的截圖,是不是非常值錢呢!

Glassdoor salary

以下為 GitLab 招聘 Analytics Engineers (2021.10.22) 的職務內容

GitLab analytics engineer

以下為 Amazon 在 Glassdoor 上 (2021.10.22) 的薪資條件

Amazon analytics engineer

以及在 LinkedIn 上看到的一些公司的相關職位內容,以下為 Hubspot - Analytics engineer 一職 (2021.10.22):

hubspot analytics engineer

Keybank 在 LinkedIn 上 Analytics Engineer 一職 (2021.10.22)

keybank analytics engineer

Warner Media 在 LinkedIn 上 Analytics Engineer 一職 (2021.10.22)

Warner Media analytcis engineer

以上是不是可以看出來在全球有越來越多企業,開始在招募資料分析工程師一職,好奇資料分析工程師的工作內容角色是什麼嗎?讓我們繼續介紹!