Sitemap — что это такое, зачем нужно и как выяснить число страниц сайта, внесенных в Sitemap?
На этой странице сосредоточена почти вся информация, которую нужно знать о Sitemap.
Sitemap — это карта сайта, предназначенная для помощи роботам поисковых систем в индексации сайта. Имя Sitemap является стандартным, то есть принятым по умолчанию.
Sitemap обычно хранится на сервере хостинга в каталоге public_html сайта. Sitemap принято прописывать в двух последних строчках файла robots.txt — там можно задать и иные имена двух файлов карты сайта, а также иное местоположение файлов, чтобы попытаться скрыть эти файлы от злоумышленных программ и людей. А наиболее популярным поисковым системам сообщать имя и координаты файлов индивидуально, посылая прочие поисковики подальше в лес.
Считаю это дешёвыми хитростями, ибо файл robots.txt обязан находиться в каталоге public_html сайта. Даже если его удалить, так как он необязателен, злоумышленник, способный добраться до этого каталога, способен и подменить три файла, чтобы перенаправить посетителей сайта на любой другой сайт и его страницы. Думаю, что таким образом и атакуют порой некоторые сайты.
Sitemap моего сайта создаёт плагин Google XML Sitemaps версии 3.4 На сервере хостинга в каталоге public_html сайта хранятся два файла: Sitemap.xml и Sitemap.xml.gz, причём оба файла создаются практически одновременно.
Файл Sitemap.xml, имеющий сейчас длину 103-ри КБ, формируется вышеупомянутым плагином при изменении любой страницы сайта.
Файл Sitemap.xml.gz, имеющий длину 10-ть КБ, является вспомогательным и содержит в зашифрованном виде некую нужную роботу информацию.
07.03.14 мне удалось после поисков советов в Интернете вытянуть из Интернета расшифрованную карту моего сайта. Сегодня мне не удалось это повторить, а записать алгоритм извлечения карты вчера не догадался. Впрочем, теперь это уже неважно — чуть позже поймёте почему.
Вот начало и конец преобразованного мной вчера файла:
http://ep-z.ru/ 2014-03-07T19:23:22+00:00 daily 1.0
http://ep-z.ru/stroitelstvo/sayt/cms-wordpress 2014-03-07T19:23:22+00:00 daily 0.6
http://ep-z.ru/posadki/ogorod/pomidoryi 2014-03-07T18:06:27+00:00 daily 0.6
…… http://ep-z.ru/voprosyi/otvet-15 2013-03-19T13:25:35+00:00 daily 0.6
http://ep-z.ru/sample-page/roshhi/hvoynyie/listvennitsa 2013-03-05T13:01:35+00:00 daily 0.6
http://ep-z.ru/sample-page/roshhi/listvennyie/lipyi 2013-03-05T12:30:19+00:00 daily 0.6
В полученном файле записи, относящиеся к отдельным страницам, шли сплошняком и были лишь разделены двумя пробелами. Не поленился разделить в редакторе Notepad файл на строки и сохранил в формате TXT. Затем скопировал дважды содержимое файла в столбцы чистого листа Excel. Выяснил, что создана 591-на запись с адресами страниц сайта. Во втором столбце отсортировал записи по алфавиту.
Так как в редакторе Notepad содержится примитивная команда замены, скопировал всё содержимое преобразованного файла в Word. Затем по команде замены «Ctrl+H» заменил http на htp, а потем наоборот. В обоих случаях была сделана 591-на замена.
Таким образом, можно было не тратить время на разделение на строки, а сразу копировать в Word и делать замену, чтобы выяснить число страниц сайта, внесенных в Sitemap.
Вот начало и две строчки конца файла Sitemap.xml, скопированные с хостинга:
<?xml version=»1.0″ encoding=»UTF-8″?><?xml-stylesheet type=»text/xsl» href=»http://ep-z.ru/wp-content/plugins/google-sitemap-generator/sitemap.xsl»?><!— generator=»wordpress/3.8.1″ —>
<!— sitemap-generator-url=»http://www.arnebrachhold.de» sitemap-generator-version=»3.4″ —>
<!— generated-on=»08.03.2014 18:55″ —>
<urlset xmlns:xsi=»http://www.w3.org/2001/XMLSchema-instance» xsi:schemaLocation=»http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd» xmlns=»http://www.sitemaps.org/schemas/sitemap/0.9″>
<url>
<loc>http://ep-z.ru/</loc>
<lastmod>2014-03-08T18:55:00+00:00</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>http://ep-z.ru/stroitelstvo/sayt/sitemap</loc>
<lastmod>2014-03-08T18:55:00+00:00</lastmod>
<changefreq>daily</changefreq>
<priority>0.6</priority>
</url>
………
<url>
<loc>http://ep-z.ru/voprosyi/otvet-15</loc>
<lastmod>2013-03-19T13:25:35+00:00</lastmod>
<changefreq>daily</changefreq>
<priority>0.6</priority>
</url>
<url>
<loc>http://ep-z.ru/sample-page/roshhi/hvoynyie/listvennitsa</loc>
<lastmod>2013-03-05T13:01:35+00:00</lastmod>
<changefreq>daily</changefreq>
<priority>0.6</priority>
</url>
</urlset>
Крайняя запись относится к странице, созданной более года тому назад!
В шапке файла содержится информация о том, какими средствами был создан этот файл: версия WordPress, имя плагина и, судя по записи в шапке, имя внешнего сайта, расположенного в Германии, где находится эталон программы, создающей записи, относящиеся к страницам сайта, а также дата и время и дата создания карты сайты. Кроме того, там содержится информация, в соответствии с какими стандартами создана карта сайта.
Сами записи наверняка создаёт плагин, используя процессор ноутбука, с которого вносятся изменения в страницы сайта.
Эти записи находятся между <url> и </url>.
В 4-х строках содержится адрес страницы сайта, время последней модификации, рекомендуемая роботу частота просмотра страницы и рекомендуемый приоритет просмотра. Что означают присутствующие в каждой второй строке отдельной записи 6-ть символов «+00:00″ и зачем они нужны, совершенно непонятно. Думаю, это можно понять, изучив использованный стандарт записи. Но оно нам надо?
Существенно, во-первых, то, что записи отсортированы по времени создания страниц файла — это помогает роботам экономить время, не просматривая те страницы, которые не изменились со времени последней индексации.
Во-вторых, всегда можно с хостинга скопировать в Word всё содержимое длинного файла Sitemap и быстро выяснить число страниц, вписанных в карту сайта. Сделал это примерно за одну минуту — теперь есть 593-ри страницы в карте сайта, так как сегодня добавил две страницы.
В-третьих, совершенно очевидно, что файл Sitemap.xml имеет избыточную длину и что создатели стандартов предпочли почему-то создавать его в виде, понятном людям. Почему? Если интересно, ищите информацию в Интернете или спросите у корифеев, гуру и прочих знатоков.
В-четвёртых, поисковые роботы наверняка читают файл не целиком, а только до записи той страницы, которая не изменилась с прошлого посещения роботом карты сайта. И поэтому избыточность длинного файла карты сайта при нынешних процессорах для них неважна.
В-пятых, вышеупомянутый плагин прекрасно справляется с созданием карты сайта — его можно и нужно смело использовать.
В-шестых, всегда можно посмотреть в карте сайта имена старых страниц и, копируя их в адресную строку браузера, вызывать страницы на переделку. Мне это нужно сделать со многими страницами, чтобы избавить страницы от чрезмерного числа сохранённых редакций, а заодно и перепроверить их.
В-седьмых, уверен, что можно придумать ещё много полезных способов использования понятной карты сайта. По мере придумывания буду сообщать.
Приглашаю всех высказываться в Комментариях. Критику и обмен опытом одобряю и приветствую. В хороших комментариях сохраняю ссылку на сайт автора!
И не забывайте, пожалуйста, нажимать на кнопки социальных сетей, которые расположены под текстом каждой страницы сайта.
Продолжение тут…