2.編程:面向對象、異常處理、互聯網訪問、爬蟲、web框架(Django)
精通使用MySQL數據庫 、hiveSQL
主研機器學習算" />
精通Python:1. 數據分析:pandas、numpy、sqlalchemy
2.編程:面向對象、異常處理、互聯網訪問、爬蟲、web框架(Django)
精通使用MySQL數據庫 、hiveSQL
主研機器學習算法有推薦算法 、強化學習 、二分類模型評估
精通使用pyspark開發機器學習算法模型與數據模型
精通使用BI工具:superset與quickBI
熟練運用Linux操作系統與指令
熟練使用scala-spark建立數據模型
2019.08-2021.12 互聯網廣告智能投放平臺
項目描述:調用廣告平臺API接口實現自動化廣告投放,分析廣告投放數據,挖掘廣告投放優化方向
項目角色:產品設計、后端功能開發、運維
具體工作內容:
?匯總廣告API接口參數與業務需求,設計數據表結構以及數據流,匯總可實現功能并撰寫操作文檔,python開發廣告投放功能接口。
?實現自動化廣告投放后,編寫python腳本定時獲取廣告投放數據報告,結合業務需求,統計廣告投放數據轉存至MySQL數據庫并用BI工具進行展示。隨著數據量增長,將數據報告轉存至hive數據庫,并用pyspark進行數據清理與統計,統計結果數據使用datax從hive數據庫轉存至MySQL數據庫。
?統計計算廣告數據報告中的關鍵指標,比如轉化率、轉化成本、投放時長等,根據關鍵指標獲取預設的對應優化操作,拆解并執行API接口請求,記錄廣告優化操作日志。
?使用強化學習模型,挖掘不同關鍵指標下廣告計劃的最佳優化行為。將廣告頁面點擊率與轉化率組合作為狀態(state)的評估指標、已對廣告計劃的優化操作作為行為(action),點擊率與轉化率提升作為正面獎勵(reward)。
2021.07-2022.04 手機卡銷售利潤結算數據平臺
項目描述:將廣告投放數據與手機訂單成交數據進行入庫,建立集成業務數據的數據倉庫,通過數據倉庫進行數據清理與手機卡銷售的利潤結算,將手機卡銷售情況以不同維度,使用BI工具進行展示。
項目角色:數據倉庫設計與開發、實現數據應用
?編寫python腳本,提供數據入庫的工具,通過jupyter可視化界面,實現上傳數據并執行腳本,供運營人員實現數據入庫。收集可獲取源數據的API接口,使用定時程序的方式獲取數據并入庫。
?結合業務數據劃分與數據結合過程中的容錯率,設計數據倉庫結構,編寫python腳本實現數據倉庫數據的清理、計算、統計,隨著數據量增長使用hive數據庫與pyspark實現數據倉庫的數據更新。
?BI工具與DA層數據表進行連接,繪制BI界面進行展示。BI展示不僅用于業務觀察,還要用于發現異常數據,將異常數據進行反饋,獲取解決方案,解決方案包括數據處理規則擴展、業務數據邏輯調整、反饋源數據存在的問題進行修復等。
2020.11-2022.04 基于用戶APP行為特征提取人群包
項目描述:從每月十億級別的手機卡用戶中,以APP行為頻次作為特征,建立二分類評估模型,提取最相近于已轉化手機卡用戶的手機號進行打包,投入于廣告平臺作為廣告計劃的投放定向。
項目角色:特征工程、落實業務
?讀取hive數據庫獲取手機卡用戶APP數據,計算APP使用頻次與時長(天) 并對其進行格式化,以月為單位保存至數據庫準備進行特征工程。獲取正樣本數據(已轉化手機卡用戶)保存至hive數據庫。
?進一步計算APP行為數據、進行歸一化與向量化、獲取特征向量。計算指定月APP使用頻次與時長、歸一化之后作為當月APP使用特征。對比兩個月的數據,計算APP使用頻次與時長變化,作為APP使用變化特征。獲取待觀察APP列表,進行過濾后進行向量化,作為最終模型訓練的數據,為特征向量打上正樣本與負樣本標簽。
?根據業務需求,獲取經過模型預測后的數據。指定業務需求數據量、是否重復獲取歷史數據、是否轉存等選項,將以上選項作為入參,執行數據獲取的腳本,根據模型預測時給予樣本的評分,遞減的原則去獲取數據,將結果保存至文本文件用于互聯網廣告投放的用戶定向設置。
?匯總廣告API接口參數與業務需求,設計數據表結構以及數據流,匯總可實現功能并撰寫操作文檔,python開發廣告投放功能接口。 ?實現自動化廣告投放后,編寫python腳本定時獲取廣告投放數據報告,結合業務需求,統計廣告投放數據轉存至MySQL數據庫并用BI工具進行展示。隨著數
項目描述:將廣告投放數據與手機訂單成交數據進行入庫,建立集成業務數據的數據倉庫,通過數據倉庫進行數據清理與手機卡銷售的利潤結算,將手機卡銷售情況以不同維度,使用BI工具進行展示。 項目角色:數據倉庫設計與開發、實現數據應用 ?編寫python腳本,提供數據入庫的工具,通過ju