項(xiàng)目介紹:對(duì)用戶(hù)行為、業(yè)務(wù)操作進(jìn)行統(tǒng)計(jì)分析、數(shù)據(jù)挖掘構(gòu)建用戶(hù)畫(huà)像、實(shí)現(xiàn)千人千面?zhèn)€性化推薦系統(tǒng)
1. 數(shù)據(jù)倉(cāng)庫(kù)建設(shè)
介紹:作為數(shù)據(jù)的管理和運(yùn)算中心,為用戶(hù)畫(huà)像、推薦系統(tǒng)提供基礎(chǔ)數(shù)據(jù)服務(wù)
(1)、數(shù)據(jù)倉(cāng)庫(kù)建模分層設(shè)計(jì)
(2)、數(shù)據(jù)清洗(清洗過(guò)濾、數(shù)據(jù)解析、數(shù)據(jù)集成、數(shù)據(jù)修正、數(shù)據(jù)進(jìn)屏蔽)
(3)、使用Spark GraphX 實(shí)現(xiàn)ID Mapping
(4)、構(gòu)建數(shù)據(jù)立方體、用戶(hù)報(bào)表、路徑分析、轉(zhuǎn)換分析、流量分析等報(bào)表開(kāi)發(fā)
(5)、采用Atlas進(jìn)行數(shù)據(jù)治理
(6)、基于Hive的查詢(xún)優(yōu)化
(7)、對(duì)數(shù)據(jù)質(zhì)量進(jìn)行一致性、完整性、準(zhǔn)確性監(jiān)控處理。
2. 用戶(hù)畫(huà)像構(gòu)建
介紹:以用戶(hù)為中心對(duì)用戶(hù)打上各種規(guī)范標(biāo)簽:性別、年齡、地域、偏好、行為習(xí)慣、消費(fèi)習(xí)慣,從而實(shí)現(xiàn)精準(zhǔn)營(yíng)銷(xiāo)
(1)、事實(shí)標(biāo)簽開(kāi)發(fā)用戶(hù)基本信息、發(fā)榜、轉(zhuǎn)榜、揭榜、圍觀(guān)、擅長(zhǎng)領(lǐng)域等
(2)、用戶(hù)畫(huà)像模型標(biāo)簽開(kāi)發(fā)、決策標(biāo)簽處理
(3)、特征工程開(kāi)發(fā)(特征選擇、數(shù)據(jù)加工、特征離散化、數(shù)據(jù)降維、模型訓(xùn)練、模型評(píng)估)
(4)、使用樸素貝葉斯算法實(shí)現(xiàn)用戶(hù)性別預(yù)測(cè)、流失率預(yù)測(cè)
(5)、基于spark的計(jì)算優(yōu)化
3. 推薦系統(tǒng)
介紹:實(shí)現(xiàn)個(gè)性化的千人千面推薦,增強(qiáng)用戶(hù)體驗(yàn),完美匹配發(fā)榜者與揭榜者
(1)、基于用戶(hù)畫(huà)像、用戶(hù)特征進(jìn)行模型訓(xùn)練
(2)、推薦用戶(hù)感興趣的榜單、推薦用戶(hù)擅長(zhǎng)領(lǐng)域的榜單
(3)、對(duì)猜你喜歡進(jìn)行混合推薦、對(duì)推薦系統(tǒng)冷啟動(dòng)進(jìn)行補(bǔ)充推薦
(4)、使用NLP工具對(duì)文本進(jìn)行處理
(5)、TF-IDF評(píng)論文本情感分析獲取用戶(hù)評(píng)論分類(lèi)
4. 打造OLAP平臺(tái)
介紹:常規(guī)報(bào)表數(shù)據(jù)的實(shí)時(shí)查詢(xún)分析、自定義報(bào)表的聯(lián)機(jī)實(shí)時(shí)分析
(1)、使用Presto完成OLAP查詢(xún)分析
(2)、自定義漏斗分析
(3)、用戶(hù)畫(huà)像數(shù)據(jù)查詢(xún)分析
(4)、數(shù)倉(cāng)報(bào)表查詢(xún)分析
(5)、數(shù)據(jù)可視化使用DataV、ECharts進(jìn)行展示