需求描述:
爬蟲動態(tài)頁面網(wǎng)站文章,需要在現(xiàn)有框架內完成,提供一個樣例包,要用到bs4、selenium,要求將爬取內容轉換成html和pdf格式,整體代碼較為完善,需要將一個半成品的項目包完善關鍵代碼即可,屬于一個項目
1)會提供一個含有大量關鍵代碼的半成品包,需完成代碼后正常運行,并實現(xiàn)以下需求
2)可爬取內容,保留源文件,轉換格式為pdf和html文件
3)實現(xiàn)對文章的全量采集,如果實現(xiàn)不了,僅完成第一頁的增量采集也可
技術:Python開發(fā)、beautifulsoup、seletnuim等
開發(fā)方式:遠程開發(fā)
開發(fā)周期:1-3天