現(xiàn)有網(wǎng)頁(yè)爬蟲需求,需要爬取網(wǎng)頁(yè)上的信息內(nèi)容按照規(guī)范化的字段進(jìn)行保存,并整理為json格式進(jìn)行交付,
交付內(nèi)容包括:
1. 按照需求說(shuō)明文檔整理的json文件
2. 爬取的html網(wǎng)頁(yè)文件
3. 爬取的數(shù)據(jù)量說(shuō)明文件
4. 爬取數(shù)據(jù)所用的源代碼
具體需求說(shuō)明文檔將在溝通時(shí)提供。
合作方式:
項(xiàng)目制,由于本項(xiàng)目要爬取的網(wǎng)頁(yè)數(shù)量較多,會(huì)提供給工程師待爬取的網(wǎng)頁(yè)清單,
第一次合作可以先爬取1個(gè)網(wǎng)頁(yè),進(jìn)行試驗(yàn),然后再進(jìn)一步流程化操作。
按批次交付(比如10個(gè)網(wǎng)頁(yè)交付一次,每周交付一次)、按批驗(yàn)收,按批打款。