1.需求簡介
將用戶上傳的圖片與美國外觀專利(USPTO)數據圖片進行比對,按照相似度從高到低排列這些圖片,就是圖片的近似性檢索。
2.實現過程
目前團隊思路清晰,需要技術合伙人實現
(1)從美國商標專利局下載外觀專利數據,約80萬條,每條專利有6張不同角度的框線圖,這個數據庫是每天更新且公開的,目前已經把數據下載整理好
https://developer.uspto.gov/product/patent-grant-single-page-tiff-images#product-files
(2)解析下載的tif文件,提取其中的圖片信息,建成外觀專利數據庫。PDF文件轉圖片的技術難點是每頁PDF文檔中有多張圖片,解決辦法有兩個:一是用神經網絡+人工標注的辦法識別每張圖片下方的FIG字樣,這部分團隊其他成員會協助解決,并承擔相關費用;二是用頁面信息密度做圖片分割;并進行各個角度的旋轉變換,這是為了提高圖片匹配的精度,因為用戶上傳的圖片角度可能千差萬別;
(3)將用戶上傳的圖片轉為黑白的且只有外框輪廓的矢量圖,因為USPTO的外觀專利數據圖片也是黑白的;
(4)將轉化后的矢量圖與建好的外觀專利數據庫進行以圖識圖對比,可以調用公共庫,并在此基礎上修改;第(2)、(3)兩步的整理階段會花費較多時間,也是為了提高后面的識別精度,減少工作量;
(5)列出相似度高于某個值的外觀專利
3.數據處理量:最多80萬條×6張=480萬張圖片
4.數據處理難點:美國商標專利局數據庫里的數據為框線圖,有6個不同角度,用戶上傳的圖片為實拍圖,且只有一個角度,即1對1地用實拍圖查找框線圖
5.數據處理時間:半年-1年時間完成,開發完成后要長期維護
6.數據處理報酬:現金10萬RMB作為一次性開發的報酬,也可以加入公司成為長期技術合伙人,以圖識圖將申請發明專利,技術合伙人將作為專利的共同發明人,并分享部分公司股權;目前公司有4位合伙人,正在申請全國高新技術企業,有意了解公司情況和商業模式請微信或郵箱聯系;
7.說明:這個項目不是短期單純外包,希望申請人認可公司商業前景,加入團隊,共同成長;要有相關項目經驗,減少重新學習時間。如果有意合作,我會給100條測試數據,檢驗識別效果。