如何提取sitemap.xml中的url生成sitemap.txt
其實網(wǎng)上有很多用python和php提取的教程了,而用python和php實現(xiàn)都有技術(shù)門檻,并不適合所有人,今天我就來跟大家介紹一種更簡單的方式,但是也并不是沒有門檻,需要會正則,利用DW正則替換。
<?xml version="1.0" encoding="utf-8"?>
<urlset>
<url>
<loc>https://m.10soo.com/</loc>
<lastmod>2020-04-11</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://m.10soo.com/news.html</loc>
<lastmod>2020-04-10</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
........
</urlset>
上面是通常情況下sitemap.xml的寫法,其實用dw替換能替換掉大部分的內(nèi)容,不規(guī)則的主要是<lastmod>2020-04-11</lastmod>和<priority>0.8</priority>中有不規(guī)則的數(shù)字,那么就先把他們改成規(guī)則的數(shù)字就好了,首先把-橫線替換掉,所有<lastmod></lastmod>中間得到一串?dāng)?shù)字。
用同樣的方式替換<priority></priority>中的數(shù)字替換為規(guī)則數(shù)字,然后利用正則替換,如下圖:
替換的時候注意勾選 使用正則表達式,替換全部,就得到了純url,另存成txt就達到目的了。