Поисковики, 304 на If-Modified-Since

Влада Рыкова: Виктор, здравствуйте!
 Скажите, а сколько будет стоить «На стороне сервера настроить для документов, не изменившихся с даты предыдущей индексации, которая указывается поисковым роботом в заголовке If-Modified-Since, он должен получить ответ 304 и не скачивать их содержимое, расходуя квоту только на реально изменившиеся со времени предыдущей индексации или же новые документы.

Однако следует обратить внимание, что при этом содержимое отдаваемого заголовка Last-Modified не суть важно, важен именно результат ответа на запрос с заголовком If-Modified-Since, и именно его необходимо корректно настраивать в первую очередь. Т.е. необходимо настроить отдачу заголовка Last-Modifed и корректную обработку ответа на запрос с заголовком If-Modified-Since. Документация по ссылкам: http://www.google.ru/support/enterprise/static/gsa/docs/admin/72/gsa_doc_set/admin_crawl/introduction.html и http://www.w3.org/Protocols/rfc2616/rfc2616-sec14.html#sec14.35.
Проверить ответ сервера на запрос с возможностью задать произвольную дату в заголовке If-Modified-Since, можно с помощью сервиса http://www.bertal.ru/index.php?ex=1″ меня интересует только сайт http://vlada-rykova.com и сколько займет по времени?

Здравствуйте, Влада!
Докладываю результаты своих исследований в области «If-Modified-Since для WordPress»

1) для WordPress есть плагин, реализующий этот функционал:
Идея в следующем: в базе храниться дата-время последней модификации документа. Плагин достает ее с базы и выставлет для соответствующей страницы Last-Modified в соответствии с этим и отвечает 304, если в запросе к странице в If-Modified-Since стоит такое же , или более раннее дата-время.
2) Для ускорения сайта, у Вас используется плагин «W3 Total Cache», который очень существенно сокращает время ответа сервера.
3) Плохая новость в том, что «W3 Total Cache» тоже использует для отслеживания страниц в своем кеше Last-Modified, то есть переписывает Last-Modified в соответствии со своим пониманием роли этого тега!

В качестве выводов: плагин seo-http-headers-easy, как и любой другой предназначенный для этой цели, не могут работать с «W3 Total Cache».

То есть, можно отказаться от кеширования в угоду поисковикам — увы, пользователи станут недовольны, страницы станут отдаваться медленнее, нагрузка на ВПС существенно возрастет.
Можно оставить кешер. Не думаю, что это так уж не понравиться поисковикам:
http://www.google.ru/support/enterprise/static/gsa/docs/admin/72/gsa_doc_set/admin_crawl/introduction.html
«If the Last-Modified header is not present, the search appliance computes the checksum of the newly downloaded content and compares it to the checksum of the previous content. If the checksum is the same, then appliance does not further process the document.»
То есть, ничего страшного не произойдет, поисковик загрузит страницу, посчитает контрольную сумму и примет решение, изменилась страница или нет.

Еще варинты:
— заказать программистам обьеденить эти два плагина в одном. Боюсь, если это даже возможно, стоить будет очень и очень существенную сумму.
— попробовать перенести логику работы плагина seo-http-headers-easy на nginx с помощью lua. Увы, это тоже довольно сложно и существенно усложнит систему. Возможно(это еще вопрос), этот вариант мне под силу, но времени уйдет на это — немеряно.

Еще соображения по поводу квоты на индексирование поисковиками. У поисковиков, как и у любых другой компаний, есть декларируемые миссии, например, Яндекс, Google, а есть реальные цели. А цель любой компании, в конечном счете сводиться к тому, что бы обеспечить максимальную прибыль ее владельцам(акционерам). Обратите внимание, что наличие квот на индексирование того или иного сайта противоречит как миссии поисковиков, так и их реальным целям.

Запись опубликована в рубрике Вопросы - ответы. Добавьте в закладки постоянную ссылку.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *