火車(chē)頭采集列表地址過(guò)濾掉PHPSESSID的方法
最近發(fā)現(xiàn)網(wǎng)站用火車(chē)頭采集的內(nèi)容里有很多重復(fù)的內(nèi)容。如下圖,標(biāo)題、內(nèi)容都一樣。但發(fā)布日期不一樣。
采集器里面我明明設(shè)置檢測(cè)重復(fù)網(wǎng)址了,如下圖
最后檢查本地采集任務(wù)數(shù)據(jù)發(fā)現(xiàn),采集頁(yè)網(wǎng)址前面自動(dòng)添加了?PHPSESSID=u3i1b955mq9864i3qa4j47h184這段字符。
如果直接通過(guò)瀏覽器訪問(wèn)的話,發(fā)現(xiàn)列表頁(yè)的文章的地址是都是正常html地址,但通過(guò)采集器的話,獲取的地址都會(huì)在.htm后面添加上?PHPSESSID=u3i1b955mq9864i3qa4j47h184這種字符。
并且這個(gè)字符是隨機(jī)自動(dòng)變。這樣的話,就會(huì)出重復(fù)了。因?yàn)榈刂泛竺娴腜HPSESSID不一樣,所以采集器就判斷不出這篇文章是不是重復(fù)的。咨詢官方,技術(shù)支持說(shuō)用網(wǎng)址拼接,并給出規(guī)則 ,用她給的規(guī)則
腳本規(guī)則:<a href="/[參數(shù)]"
實(shí)際連接:http://www.abccom/[參數(shù)1]
結(jié)果測(cè)試不行。
經(jīng)研究發(fā)現(xiàn),地址是隨機(jī)變的,這個(gè)可以當(dāng)一個(gè)參數(shù),但?PHPSESSID=這個(gè)是固定不變的,后面的數(shù)值又是隨機(jī)的,可用(*)替換。一點(diǎn)測(cè)試,可以了。
文章的地址是:/article-900825.html?PHPSESSID=u3i1b955mq9864i3qa4j47h184
拼接地址如下:
然后測(cè)試網(wǎng)址。正常了。這樣就不會(huì)出現(xiàn)重復(fù)的內(nèi)容了。
1.本站主要是為了記錄工作、學(xué)習(xí)中遇到的問(wèn)題,可能由于本人技術(shù)有限,內(nèi)容難免有紕漏,一切內(nèi)容僅供參考。
2.本站部分內(nèi)容來(lái)源互聯(lián)網(wǎng),如果有圖片或者內(nèi)容侵犯您的權(quán)益請(qǐng)聯(lián)系我們刪除!
3.本站所有原創(chuàng)作品,包括文字、資料、圖片、網(wǎng)頁(yè)格式,轉(zhuǎn)載時(shí)請(qǐng)標(biāo)注作者與來(lái)源。