火車(chē)頭采集列表地址過(guò)濾掉PHPSESSID的方法

最近發(fā)現(xiàn)網(wǎng)站用火車(chē)頭采集的內(nèi)容里有很多重復(fù)的內(nèi)容。如下圖,標(biāo)題、內(nèi)容都一樣。但發(fā)布日期不一樣。

采集器里面我明明設(shè)置檢測(cè)重復(fù)網(wǎng)址了,如下圖

最后檢查本地采集任務(wù)數(shù)據(jù)發(fā)現(xiàn),采集頁(yè)網(wǎng)址前面自動(dòng)添加了?PHPSESSID=u3i1b955mq9864i3qa4j47h184這段字符。

如果直接通過(guò)瀏覽器訪問(wèn)的話,發(fā)現(xiàn)列表頁(yè)的文章的地址是都是正常html地址,但通過(guò)采集器的話,獲取的地址都會(huì)在.htm后面添加上?PHPSESSID=u3i1b955mq9864i3qa4j47h184這種字符。

并且這個(gè)字符是隨機(jī)自動(dòng)變。這樣的話,就會(huì)出重復(fù)了。因?yàn)榈刂泛竺娴腜HPSESSID不一樣,所以采集器就判斷不出這篇文章是不是重復(fù)的。咨詢官方,技術(shù)支持說(shuō)用網(wǎng)址拼接,并給出規(guī)則 ,用她給的規(guī)則

腳本規(guī)則:<a href="/[參數(shù)]"
實(shí)際連接:http://www.abccom/[參數(shù)1]

結(jié)果測(cè)試不行。

經(jīng)研究發(fā)現(xiàn),地址是隨機(jī)變的,這個(gè)可以當(dāng)一個(gè)參數(shù),但?PHPSESSID=這個(gè)是固定不變的,后面的數(shù)值又是隨機(jī)的,可用(*)替換。一點(diǎn)測(cè)試,可以了。

文章的地址是:/article-900825.html?PHPSESSID=u3i1b955mq9864i3qa4j47h184

拼接地址如下:

然后測(cè)試網(wǎng)址。正常了。這樣就不會(huì)出現(xiàn)重復(fù)的內(nèi)容了。

THE END
亚洲中文色欧另类欧美,久久久久久久激情,亚洲 日韩 欧美 另类 国产,中文字幕高清无码男人的天堂 www.sucaiwu.net