火車頭采集列表地址過濾掉PHPSESSID的方法

Fri, 08 Nov 2019 07:04:06 +0000

最近發(fā)現(xiàn)網(wǎng)站用火車頭采集的內(nèi)容里有很多重復(fù)的內(nèi)容。如下圖，標(biāo)題、內(nèi)容都一樣。但發(fā)布日期不一樣。

采集器里面我明明設(shè)置檢測重復(fù)網(wǎng)址了，如下圖

最后檢查本地采集任務(wù)數(shù)據(jù)發(fā)現(xiàn)，采集頁網(wǎng)址前面自動添加了?PHPSESSID=u3i1b955mq9864i3qa4j47h184這段字符。

如果直接通過瀏覽器訪問的話，發(fā)現(xiàn)列表頁的文章的地址是都是正常html地址，但通過采集器的話，獲取的地址都會在.htm后面添加上?PHPSESSID=u3i1b955mq9864i3qa4j47h184這種字符。

并且這個(gè)字符是隨機(jī)自動變。這樣的話，就會出重復(fù)了。因?yàn)榈刂泛竺娴腜HPSESSID不一樣，所以采集器就判斷不出這篇文章是不是重復(fù)的。咨詢官方，技術(shù)支持說用網(wǎng)址拼接，并給出規(guī)則，用她給的規(guī)則

腳本規(guī)則：


結(jié)果測試不行。
經(jīng)研究發(fā)現(xiàn)，地址是隨機(jī)變的，這個(gè)可以當(dāng)一個(gè)參數(shù)，但?PHPSESSID=這個(gè)是固定不變的，后面的數(shù)值又是隨機(jī)的，可用（*）替換。一點(diǎn)測試，可以了。
文章的地址是：/article-900825.html?PHPSESSID=u3i1b955mq9864i3qa4j47h184
拼接地址如下：

然后測試網(wǎng)址。正常了。這樣就不會出現(xiàn)重復(fù)的內(nèi)容了。

]]>

亚洲bt欧美bt中文字幕，免费国产成人aⅴ在线观看，伊久香蕉在线视频网站，亚洲av永久无码天堂影院，亚洲日韩欧美综合中文字幕，日本欧美日韩亚洲，中文av在线高清不卡观看，精品视频在线观看自拍自拍

火車頭采集列表地址過濾掉PHPSESSID的方法