基本信息
案例ID:132616
技術(shù)顧問:??? 萌? 萌? 東??? - 5年經(jīng)驗(yàn) - 上海某知名公司

項(xiàng)目名稱:ipe公眾研究中心以及附屬爬蟲平臺(tái)
所屬行業(yè):企業(yè)服務(wù) - 行業(yè)細(xì)分軟件
->查看更多案例案例ID:132616
技術(shù)顧問:??? 萌? 萌? 東??? - 5年經(jīng)驗(yàn) - 上海某知名公司
項(xiàng)目名稱:ipe公眾研究中心以及附屬爬蟲平臺(tái)
所屬行業(yè):企業(yè)服務(wù) - 行業(yè)細(xì)分軟件
->查看更多案例
相關(guān)技術(shù)和工具:python2.7/3.5、Ajax、jQuery、AngularJs、MySQL、nginx、qiniu(七牛云圖片)、tornado、Tinymce、template.js、fiddler(工具)、Charles(工具)、XPath、 re、scrapy、jsonpath 、selenium 、logging、 confluence、asyncio、gevent、kafka
?項(xiàng)目描述:該項(xiàng)目是爬取各個(gè)政府公開信息整合到一個(gè)手機(jī)app作信息公開,環(huán)境保護(hù)
?負(fù)責(zé)模塊:
?負(fù)責(zé)框架底層搭建:負(fù)責(zé)tornado 底層框架的搭建,模板,url路由映射,靜態(tài)文件,登陸裝飾器,日志處理(logging),常用庫(redis,pymysql)數(shù)據(jù)訪問層的封裝
?使用tornado.gen模塊 和asyncio模塊請(qǐng)求第三方地址, I/O多路復(fù)用模式
?根據(jù)網(wǎng)頁頁面哈希值監(jiān)測網(wǎng)站是否改版, 監(jiān)測程序的可用性和爬取數(shù)據(jù)的正確性
?負(fù)責(zé)給蔚藍(lán)地圖APP提供RESTFulAPI風(fēng)格接口, 展示抓取數(shù)據(jù)源, 各項(xiàng)污染指標(biāo)信息, 信息公開
?負(fù)責(zé)抓取全國各個(gè)省市和政府網(wǎng)站的水質(zhì)年報(bào),月報(bào),小時(shí)報(bào),以及各個(gè)斷面和湖泊的ph值,氨氮值,溶解氧等各個(gè)指標(biāo)做信息公開,用到requests(headers認(rèn)證),XPath, re等解析提取, scrapy(靜態(tài)頁面),selenium+phantomjs
?Fiddler 抓取分析常規(guī)頁面請(qǐng)求響應(yīng)報(bào)文,模擬請(qǐng)求通過正則匹配等獲取可用信息入庫
?Charles 抓取分析 Flash網(wǎng)頁類型報(bào)文,siverlight 等其他非json數(shù)據(jù)格式等網(wǎng)站
運(yùn)用IP代理池,撥號(hào)等手段防止爬取被屏蔽封IP,運(yùn)用第三方打碼平臺(tái)或者OCR識(shí)別驗(yàn)證碼破解反爬
rabbitmq 配合 Logging 分類記錄日志,及時(shí)查看爬取統(tǒng)計(jì)和結(jié)果信息
抓取數(shù)據(jù)監(jiān)控:當(dāng)爬蟲程序異常,爬取網(wǎng)頁發(fā)生頁面變動(dòng)或者數(shù)據(jù)格式異常進(jìn)行郵件預(yù)警,及時(shí)排查問題
做信息公開官網(wǎng)展示的反爬措施,前后端分離,js混淆,headers認(rèn)證,json加密,接口地址隱藏,訪問頻率限制,加驗(yàn)證碼等等
接口文檔編寫,markdown語法,數(shù)據(jù)庫文檔字段注解
gevent 協(xié)程多任務(wù)的方式異步請(qǐng)求獲取數(shù)據(jù),IO多路復(fù)用,減少需要快速獲取接口實(shí)時(shí)同步數(shù)據(jù)時(shí)間