采集器里面我明明設(shè)置檢測重復(fù)網(wǎng)址了,如下圖
最后檢查本地采集任務(wù)數(shù)據(jù)發(fā)現(xiàn),采集頁網(wǎng)址前面自動添加了?PHPSESSID=u3i1b955mq9864i3qa4j47h184這段字符。
如果直接通過瀏覽器訪問的話,發(fā)現(xiàn)列表頁的文章的地址是都是正常html地址,但通過采集器的話,獲取的地址都會在.htm后面添加上?PHPSESSID=u3i1b955mq9864i3qa4j47h184這種字符。
并且這個(gè)字符是隨機(jī)自動變。這樣的話,就會出重復(fù)了。因?yàn)榈刂泛竺娴腜HPSESSID不一樣,所以采集器就判斷不出這篇文章是不是重復(fù)的。咨詢官方,技術(shù)支持說用網(wǎng)址拼接,并給出規(guī)則 ,用她給的規(guī)則
腳本規(guī)則:<a href="/[參數(shù)]"
實(shí)際連接:http://www.abccom/[參數(shù)1]
結(jié)果測試不行。
經(jīng)研究發(fā)現(xiàn),地址是隨機(jī)變的,這個(gè)可以當(dāng)一個(gè)參數(shù),但?PHPSESSID=這個(gè)是固定不變的,后面的數(shù)值又是隨機(jī)的,可用(*)替換。一點(diǎn)測試,可以了。
文章的地址是:/article-900825.html?PHPSESSID=u3i1b955mq9864i3qa4j47h184
拼接地址如下:
然后測試網(wǎng)址。正常了。這樣就不會出現(xiàn)重復(fù)的內(nèi)容了。
]]>