一、需求描述
類別:數據的采集和分析
進度:項目已開發(fā)大部分(采集和提取規(guī)則已完成部分),數據庫Mongodb,web端node.js(已基本開發(fā)完成),需要根據現有代碼優(yōu)化規(guī)則并完成后續(xù)工作
功能:采集專業(yè)人士相關信息,以”人”為單位,人數在30萬人左右,采集后的信息提取、分析后(a)根據評分規(guī)則,為”人”進行評分; (b)信息將在網站頁面上展示
1. 數據庫查看和展示功能
(a) 數據庫內容通過web端展示并可用于人工刪選、添加內容 — 已基本開發(fā)完成
(b) 評分和提取的內容將用于在網站頁面進行展示
2. 數據采集
(a) 在規(guī)定網站進行數據的定向采集 (網站數在60+) — 已部分完成
(b) 根據提供的關鍵詞(項目過程中可能根據搜索結果調整),在百度搜索引擎按關鍵字搜索后,根據截取規(guī)則(項目過程中可能根據搜索結果調整)截取搜索結果中包含關鍵字的文本內容,并存入數據庫
3. 數據分析
(a) 開發(fā)提取規(guī)則(類似于類語義分析),將從百度截取的字段中提取評分所需的具體內容
(b) 定向采集回來的信息和百度提取的信息將按照評分規(guī)則的算法完成評分(評分標準有9個維度) — 評分規(guī)則已部分開發(fā)完成,需要根據精準度進行優(yōu)化
4. 完成數據庫API接口部署并需完成與網站的對接
三、人才描述
1. 精通數據爬取和分析,有獨立和作為項目主要成員完成過數據分析的項目
2. 熟悉python,Mongodb、node.js,可以針對現有代碼進行完善
3. 邏輯分析能力強,愿意配合并主動提供數據采集、提取、分析的優(yōu)化方案
3. 一天至少保證4小時工作時間,自由職業(yè)者優(yōu)先考慮
四、合作方式
開發(fā)方式:遠程
開發(fā)周期:30天之內