人人皆需掌握的技能-運用特徵工程講解數據思維思考方式

本篇用 AI 的特徵工程來說明數據思維的思考方式。訓練數據思維最大的好處是讓思維條理化、標準化、數據化。

Elaine Yang
5 min readAug 3, 2020

網路化的時代,數據驅動決策的經驗無所不在,不只科技業,舉凡經濟學、政治、醫療,數據驅動都無所不在;日常工作中就算不是工程師,就算是小編、行銷如果能夠透過數據說明事件輔佐決策,也可以進行更有力的分析與決策。當然,數據思維也是產品經理的必備思考方式,挖掘出產品的用戶數據、產品介面數據、流量數據,結合商業思維分析,進而提出產品版本迭代策略,優化使用者體驗和產品功能迭代,網路業產品經理的工作日常,可說是非常倚靠數據驅動的。

今天就用 AI 的特徵工程來說明數據思維的思考方式吧!看了看網路上很多專業技術文講解特徵工程,但鮮少透過白話文來解釋這個步驟。簡單來說,AI 就是問一個好的問題,把抽象事物具體化的一個過程。你必須把一件複雜的事,劃分成一個簡單而具體的問題,而回答這個具體問題的答案,就必須量化成許多衡量指標,進而可以打分評判。

特徵工程是機器學習的其中一個重要步驟,機器學習先透過收集龐大的數據(big data),進行預處理和清洗,接著就進行特徵抽取等過程,特徵工程結束後再進行建模,最後優化和評估模型。根據網路上的特徵工程定義,說明如下:

特徵工程 小檔案(定義出處:https://www.itread01.com/content/1542164169.html📌特徵工程(Feature Engineering)特徵工程是將原始資料轉化成更好的表達問題本質的特徵的過程,使得將這些特徵運用到預測模型中能提高對不可見資料的模型預測精度。📌特徵工程簡單講就是發現對因變數y有明顯影響作用的特徵,通常稱自變數x為特徵,特徵工程的目的是發現重要特徵。📌如何能夠分解和聚合原始資料,以更好的表達問題的本質?這是做特徵工程的目的。📌特徵工程是資料探勘模型開發中最耗時、最重要的一步。“feature engineering is manually designing what the input x’s should be.”
“you have to turn your inputs into things the algorithm can understand.”

在生活中我們口語會直覺問一個人會不會做某件事,這是來自以往經驗總和,而每個人判定的標準也不一樣,因此我們不會問 AI 這樣一個『會』或『不會』的問題。

舉例來說我們要問一個人會不會騎車,我們會羅列以下指標(條理化),進而制訂一套衡量的標準(標準化),最後透過量化的數據(數據化),判定『會騎車』或『不會騎車』。

騎車示意

參考矽谷資料科學家 Sinan Ozdemir 在【Feature Engineering Made Easy】一書中提到的例子,AI 要識別一件事(自動駕駛:無人車行進是否執行或轉彎)、一個人(人臉識別:這人是否是誰),都必須先劃分特徵(特徵工程),拿簡單一點的上述例子來說,要判定人們是否會騎腳踏車,可以先劃分以下指標:

  1. 行進技術
  2. 轉彎技術
  3. 停止技術
  4. 安全性

接著再量化細化每一項指標的衡量標準。

1. 行進速度: 加速力、最快速度、最大爬坡速度

2. 轉彎技術: 最小迴轉半徑、仔務實最小迴轉半徑、迴轉時最快速度

3. 停止技術: 乾燥路面的停止距離、潮濕路面的停止距離、停止時用腳次數

4. 安全性: 騎行時左右百福的最大角度、每單位騎行時間急煞處、每單位騎行時間腳落地數、每單位騎行時間跌倒數。

而 AI 其實就是總結了人們過往集成的大量經驗(大數據)所制定衡量世界觀的方式,把所有你要做的事情變成一個好的問題,再把這個好的問題重複以上條理化、標準化、數據化的過程,當然,中間會穿插許多複雜的事,搜集數據和處理數據的過程有時候也非常複雜,並且有許多技術手段,這邊就先不探討,先就 AI 最基本的概念給大家做分享。

複雜資料轉化成具有洞察力的特徵。photo by Soledad Galli (Lead Data Scientist from Udemy Instructor)

以產品經理來說,掌握這個思維模式,我們可以更明確地確保一個產品到底「好」或「不好」?進而定義出「好」的指標和「不好」的指標。比方說產品日活量、月活量,每一個功能環節的用戶活躍和流失量,在哪一步發生流失,又是從什麼時間點用戶衝到最高點,進行了什麼決策,是線上行銷觸發亦或是線下活動觸及,都可以透過量化的指標進行分析,進而根據企業目前提出最優決策。

數據思維不只是工程技術人的必備,我認為在商管決策上也不可或缺。當你管理銷售商品的進銷存貨,結合現在時代的電子商務,該如何計算購物車優惠促使消費者購買商品,進而推薦個性化的商品頁面。而在人事龐大的排班、排課系統裡,也都存在著最優化的算法思維。

不管你是什麼領域和科系的從業人員,我都建議生活中多多量化思考衡量問題的方式,希望本篇以最白話淺顯易懂的方式,幫助到大家!

最後,如果你喜歡我的分享,請幫我拍拍手👏👏👏

我會更加努力產出文章的喔,你們的喜歡是我的動力!也歡迎來我的粉專看看,如果你對我個人故事感興趣,也可以透過這個粉專聯絡我:

--

--

Elaine Yang

半導體業雲端數位轉型產品經理。畢業於北京大學計算機技術碩士。曾任職中國美團總部產品經理、微軟亞洲研究院用戶研究員、亞馬遜電商/雲計算商業運營全職實習。關注UI、UX、產品經理、互聯網趨勢,歡迎交流成長!臉書粉專: https://pse.is/RKH42