Правильный robots.txt для Joomla 2.5 + VirtueMart 2 | Что такое robots.txt?

"Все аспекты самостоятельного создания и продвижения сайтов
от практика с многолетним опытом." — блог Рудь Сергея
info@site-on.net
Заметка: активирована адаптивная версия сайта, которая автоматически подстраивается под небольшой размер Вашего браузера и скрывает некоторые детали сайта для удобства чтения. Приятного просмотра!
27.05.2013

Приветствую вас, уважаемые коллеги. В предыдущей статье о поисковой оптимизации сайтов я подробно рассказал о том, как создать ЧПУ или SEF ссылки своими руками. В сегодняшней статье мы затронем такую заезженную тему как правильный robots.txt Тем не менее многие веб-мастера не понимают как правильно нужно использовать этот файл, а также в связке с чем (?) его нужно использовать для максимальной отдачи в виде полного отсутствия дублей страниц на сайте.

robots.txt

Что такое robots.txt?

robots.txt – это самый обыкновенный текстовый файл, который должен находиться в корне вашего сайта:

http://site-on.net/robots.txt

Главная цель его использования – указать в нём ваши рекомендации о том, как роботы должны сканировать (индексировать) ваш сайт. То есть это то же самое что и записка на холодильнике: мы её оставляем, её, скорее всего, найдут и прочтут (Яндекс и Гугл точно прочтут), а выполнять то, что там написано или не выполнять - это дело каждого.

Что же мы можем в него написать?

Самое главное – это запретить сканировать служебные файлы, например, XML данные, файлы конфигурации и другой мусор, который может хранится у вас на сервере. Для этого мы можем запрещать к индексированию целые папки, например, при разработке структуры данного блога, я заранее спланировал всё так, чтобы все служебные файлы находились в одной единственной папке, а уже внутри неё всё располагается как угодно. Для наглядности, вот структура моего сайта:

robots

В корне лежат только самые главные файлы – это карта сайта (sitemap.xml), непосредственно сам robots.txt, главный файл (index.php), файл тонкой конфигурации веб-сервера (.htaccess) и иконка сайта (favicon.ico). Иконку сайта (фавикон) и карту сайта тоже можно было поместить в папку blog, но я за классику :)

Далее идут всего 2 папки – это папка blog, в которой я спрятал абсолютно все файлы блога от глаз роботов и рук злоумышленников, а также папка images, в которой хранятся все картинки моего сайта. Папку с картинками ни в коем случае нельзя запрещать индексировать, так как ваши картинки могут попасть в каталоги картинок Яндекса и Гугл, особенно если они уникальные, мало весят (быстро загружаются) и имеют атрибут alt в HTML теге img:

<img src="/images/screen4.png" alt="phpDesigner 8" width="778" height="472" />

Такие картинки попадут в Яндекс.Картинки и Картинки Google и смогут принести дополнительный трафик вам на сайт.

Картинки никогда не запрещаем к индексированию! С этим разобрались, но вот папку blog обязательно нужно.

Обновление 19.04.2015

Нельзя запрещать к индексации файлы стилей (css, js, шрифты), иначе поисковые системы не будут видеть дизайн вашего сайта, а это плохо, ведь они не смогут оценить его удобство. Вернее даже наоборот, они будут считать, что ваш сайт безобразен. Но это пол беды, хуже то, что если вы используете адаптивный дизайн, то Google не сможет об этом узнать и будет считать, что ваш сайт не адаптирован под мобильные устройства. А это влечёт за собой искусственное понижение позиций вашего сайта в выдаче на мобильных устройствах (смартфоны, планшеты).

Как запретить сканировать (индексировать) файлы сайта?

Для этого открываем файл robots.txt и прописываем следующую директиву:

User-agent: *
Disallow: /blog/ 

Директива Disallow (запрет) потом двоеточие, пробел и относительный путь к папке, файлу или URL. Обратите внимание: в robots обязательно должна находиться хотя бы одна Disallow директива! Вот вам для примера стандартный robots.txt Joomla:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Обратите внимание, здесь ошибка! В стандартном файле robots для Joomla есть запрет на индексирование картинок! Возможно и правда, не все картинки из этой папки нужно индексировать, но запрещать всю папку целиком точно нельзя! Для этого мы можем поступить более избирательно, например, так:

Disallow: /images/banners/
Disallow: /images/sampledata/

То есть мы запретили две папки с картинками, которые не подходят для каталогов картинок (допустим, если там содержаться картинки с деталями нашего шаблона, или оформление админ панели), но оставили открытым всё остальное содержимое папки images, так как там, например, может находиться папка stories, в которой лежат картинки товаров VirtueMart. Закрыть картинки (фото) товаров вашего интернет-магазина будет большой ошибкой!

Как запретить индексировать файлы по расширениям, а не папкам?

Если вы не хотите закрывать от индексации целые каталоги (папки), то вы можете воспользоваться следующим приёмом:

Disallow: /*.pdf$
Disallow: /*.doc$

В примере выше мы запретили к индексированию все файлы, которые заканчиваются на .pdf и .doc, то есть PDF документы и документы Microsoft Word. Символ звёздочки обозначает любую последовательность символов, а символ доллара – конец url.

Можно запрещать к индексированию файлы, которые начинаются на определённую фразу:

Disallow: /sha

Мы запретили все url, которые начинаются на sha:

http://site-on.net/sha
http://site-on.net/sharik
http://site-on.net/sha234
http://site-on.net/sha/pictures
http://site-on.net/sha/images/product

Внимание! Если вы напишете так:

Disallow: /

То запретите индексирование всего сайта, будьте внимательны!

Зачем запрещать индексировать файлы?

Запрещать мы научились, только вот не разобрались зачем. Кто-то может подумать, что так можно скрыть конфиденциальные данные, но нет! Конфиденциальные данные нужно скрывать паролем, а не в robots.txt. Файл robots.txt мы используем по одной главной причине – чтобы роботы не тратили время на сканирование технических файлов и тем самым не нагружали зря наш сервер.

«А как же на счёт дублей страниц?» - спросите вы. Да, когда-то это был главный и чуть ли не единственный способ, который все применяли поголовно. Но сегодня оптимизаторы (не все) уже пришли к тому, что избавляться от дублей страниц благодаря robots.txt нецелесообразно! Я уже давно пришёл к этому самостоятельно благодаря опыту, но для меня стал приятным удивлением тот факт, что об этом заговорили уже многие, хотя далеко не все.

Как же тогда избавляться от дублей страниц? Чтобы предотвратить возникновение дублей страниц вы должны модифицировать («допилить», переделать) сам движок вашего сайта. Некоторые тратят на это деньги, заказывая данную услугу у фрилансеров или SEO кампаний, однако я хочу вам предложить мой бесплатный и простой в понимании метод, который я подробно описал в статье про дубли страниц в Joomla 2.5 и VirtueMart 2. В статье я рассказал о моём универсальном способе, который подойдёт для абсолютно любого сайта и CMS! С помощью него вы действительно навсегда избавитесь от проблемы дублей страниц.

Директива Allow – исключения из запрета

Я недавно встретил сайт, на котором было написано что-то вроде: «В robots.txt мы ничего не разрешаем, только запрещаем». Так вот это не правда. В robots.txt можно как запрещать индексировать, так и разрешать, как это можно использовать? Например, я хочу запретить к индексированию всю папку blog, но хочу разрешить одну единственную подпапку в ней. Для этого пишем следующее:

User-agent: *
Allow: /blog/images/
Disallow: /blog/

Я запретил всю папку блог, но разрешил (как исключение) папку images внутри папки blog. Что написать сначала Allow или Disallow не имеет разницы.

Яндекс пишет:

Порядок следования директив в файле robots.txt не влияет на использование их роботом.

Синтаксис robots.txt

1) Первой строкой указываем робота, для которого мы пишем правила, если указать звёздочку, это означает правила для всех роботов:

User-agent: *

Можно указать отдельно для Яндекса или Гугл:

User-agent: Yandex

Но это ещё не всё, мы можем указывать конкретно для каждого второстепенного робота Яндекса или Гугл. Например, у Яндекса есть следующие боты: YandexBot, YandexMedia, YandexImages, YandexCatalog, YandexDirect, YandexBlogs, YandexNews, YandexPagechecker, YandexMetrika, YandexMarket, YandexCalendar. Думаю, из их названий понятно кто за что отвечает.

2) Нельзя оставлять пустые строки! Пустая строка в файле robots.txt ставится только перед новым User-agent. Например:

User-agent: *
Disallow: /blog/
Sitemap: http://site-on.net/sitemap.xml

User-agent: Yandex
Disallow: /blog/
Host: site-on.net

Важно:

Каждый User-agent может встречаться только по одному разу!

Нельзя писать так:

User-agent: *
…

User-agent: Yandex
…

User-agent: * 
…

3) В robots.txt, как и везде есть возможность оставлять комментарии. Для обозначения однострочного комментария используется символ #:

User-agent: *
Disallow: /blog/ # ваш комментарий
Sitemap: http://site-on.net/sitemap.xml

Внимание, в robots.txt не существует многострочных комментариев!

Директива Sitemap

Если у вас есть XML карта сайта, а она обязана быть у каждого сайта, то вы можете указать роботам путь к ней. Это делается с помощью директивы Sitemap:

User-agent: *
Sitemap: http://site-on.net/sitemap.xml

В случае если у вас несколько файлов с XML картой сайта, вы можете указать их все:

User-agent: *
Sitemap: http://site-on.net/sitemap.xml
Sitemap: http://site-on.net/sitemap2.xml
Sitemap: http://site-on.net/sitemap3.xml

Директива Host

Директиву Host я обычно указываю только для Яндекса, так как он точно её учитывает. Директива Host указывает роботам главное зеркало вашего сайта (с www или без www). В отличие от Sitemap, директива Host может быть только одна! И не забываем, что по стандарту каждый User-agent должен содеражать хотя бы один Disallow:

User-agent: Yandex
Disallow: /blog/
Host: site-on.net

Заметки:

1) Директива Host должна идти после директив Disallow (Allow).
2) В директиву Host не может быть записан ip-адрес сайта!

Директива Crawl-delay

Данная директива (работает для Яндекса) показывает, с какой задержкой (в секундах) роботы должны индексировать очередную страницу вашего сайта. Она служит для снижения нагрузки на ваш сервер. Однако её можно использовать и наоборот, если вы хотите показать роботам Яндекса, что вы готовы отдавать страницы практически без задержки, то можете указать дробное значение:

User-agent: Yandex
Disallow: /blog/
Crawl-delay: 0.1

Это даст Яндексу большую свободу, однако ни к чему его не обязывает.

Директива Request-rate

Request-rate – это аналог Crawl-delay, который понимают западные роботы. Показывает отношение числа загруженных страниц к секундам. То есть если мы запишем так:

User-agent: *
Request-rate : 1/3

Это означает, что роботы могут загружать новую страницу каждые 3 секунды. Всё равно что

User-agent: Yandex
Crawl-delay: 3

Директива Clean-param

Директива Clean-param тоже помогает снизить нагрузку на сервер. В ней мы указываем адреса страниц, в которых не нужно учитывать выбранные параметры URL. В PHP строка с параметрами называется query string (строка запроса). Другими словами, если один и тот же URL может содержать разные параметры, которые не меняют содержимое страницы, а служат только технической информацией (например, содержат информацию об адресе странице, с которой попали на данную страницу):

http://site-on.net/book.php?ref=site_1
http://site-on.net/book.php?ref=site_2

то мы можем указать роботу, чтобы он не учитывал параметр ref:

Clean-param: ref /book.php

Это значит, что робот Яндекса не будет различать страницы с разными параметром ref, а будет считать их за одну и ту же. Если страница доступна вовсе без параметров:

http://site-on.net/book.php

То из всех подобных страниц данная будет взята за основу, а остальные даже не будут загружаться роботом. Такой приём ускорит индексацию остальных страниц сайта и снизит нагрузку на него. Можно указывать сразу несколько параметров, которые нужно игнорировать, например для ссылки:

http://site-on.net/book.php?ref=site_2&id=123&call=asd

Можно указать, что нужно игнорировать все три параметра так:

Clean-param: ref&id&call /book.php

Пустые директивы Disallow и Allow

Так как спецификация требует наличие в каждом User-agent хотя бы одного Disallow, то вы можете написать его пустым, если не хотите ничего запрещать:

User-agent: *
Disallow: 

Это то же самое что и

User-agent: *
Allow: /

И наоборот пустой Allow обозначает запрет всего сайта.

Правильный robots.txt для Joomla 2.5 + VirtueMart 2

Правильно построенным robots.txt для Joomla 2.5 и VirtueMart 2 будет практически стандартный robots.txt с небольшими изменениями:

Обновлено 19.04.2015

1) Убрал отдельный User-agent для Яндекса, это лишний текст.
2) Добавил разрешение на индексирование файлов стилей (css, js, шрифтов) - чтобы Google мог видеть дизайн сайта и его адаптивную (мобильную) версию.

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Allow: /templates/*.css$
Allow: /templates/*.js$
Allow: /templates/*.png$
Allow: /templates/*.gif$
Allow: /templates/*.jpg$
Allow: /templates/*.jpeg$
Allow: /templates/*.ttf$
Allow: /templates/*.eot$
Allow: /templates/*.svg$
Allow: /templates/*.woff$
Allow: /media/*.css$
Allow: /media/*.js$
Allow: /media/*.png$
Allow: /media/*.gif$
Allow: /media/*.jpg$
Allow: /media/*.jpeg$
Allow: /media/*.ttf$
Allow: /media/*.eot$
Allow: /media/*.svg$
Allow: /media/*.woff$
Sitemap: http://site.com/index.php?option=com_xmap&view=xml&tmpl=component&id=1
Host: site.com

Теперь пояснения. Во-первых, подразумевается, что вы додумались отключить бесполезное отображение страницы в формате PDF и в формате “Для печати”. Если ещё не отключили, то пора это сделать.

Во-вторых, удалён запрет на индексирование папки с картинками и папки installation, которую вы и так должны были удалить сразу после установки Joomla!

В третьих, (обновлено 04.08.2013: удалил лишнюю строку с askquestion, начиная с версии VM 2.0.22 она больше не нужна) не забудьте прописывать атрибут rel="nofollow" для ссылок на корзину, "Задайте вопрос по этому товару" и тд. Более подробно о дублях страниц читайте дальше.

В-четвёртых, в 15 строке мы прописываем путь до XML карты сайта, которая сгенерирована с помощью бесплатного компонента xmap. Внимание! У вас может отличаться последняя цифра в этой строке:

Sitemap: http://site.com/index.php?option=com_xmap&view=xml&tmpl=component&id=1

Если вы создали и удалили карту сайта, а потом опять создали, то цифра будет равняться уже не 1, а 2 и тд.:

Sitemap: http://site.com/index.php?option=com_xmap&view=xml&tmpl=component&id=2

Также в последней строке не забудьте указать директиву Host, хотя её можно указывать и в самом кабинете Яндекса.

И последнее, самое главное! Всё это нужно использовать в связке с моим способом о том, как избавится от дублей страниц в Joomla 2.5 + VirtueMart 2. Переходим по ссылке и читаем!

Выводы: robots является полезным файлом, который помогает управлять роботами, пришедшими на сайт. Однако всё написанное в нём, является только рекомендациями, роботы могут их придерживаться, а могут проигнорировать. Особенно это касается спамеров и хакеров, некоторые из них рады использовать информацию, полученную из robots.txt во вред сайту, так как могут узнать его структуру и вместе с этим слабые места.

Спасибо за внимание, как всегда жду ваших отзывов и замечаний. До встречи в новых статьях блога Site on!

С уважением, .
Пожалуйста, оцените эту статью
Средняя оценка: 4.9 из 5 (проголосовало: 21)
Статья оказалась вам полезной? Подпишитесь, чтобы не пропустить новые!

Ваш email:
Вы можете помочь развитию проекта, сделав всего 1 клик:
Спасибо!
Пожалуйста, прокомментируйте, как Вам моя статья?
Имя:
Комментарий:

Если Вы хотите вставить код, пожалуйста, заключайте его в [code][/code]

Подписаться на новые комментарии:

E-mail:


Защита от спама: у треугольника три...
Ответ:
Подписаться на новые комментарии без комментирования - Email:
Защита от спама: у треугольника три...
Ответ:

13.08.2013 22:48:29 D.E.:
Спасибо за толковую статью!

Ответить на комментарий


03.01.2014 09:03:21 Андрей:
Приветствую, Сергей!
Не увидел в Вашем robots.txt разрешение на индексацию картинок. VM хранит изображения в папке /components/com_virtuemart/shop_image/ Тогда при наличии строки Disallow: /components/, по идеи, нужно прописать Allow: /components/com_virtuemart/shop_image/ для всех картинок или Allow: /components/com_virtuemart/shop_image/product/ только для товаров.
Это прекрасно работает для Гугл. Но Яндекс упорно не хочет индексировать изображения, даже имея отдельную карту сайта для изображений, которую тоже можно создать при помощи xmap.
Сам не могу понять почему яндекс не видит картинки, может вы знаете?
03.01.2014 09:30:32 Сергей отвечает:
Здравствуйте. Не увидели разрешения, потому что оно не нужно. В статье об этом написано, что VM2 хранит картинки в /images/stories/virtuemart/

Почему яндекс не видит картинки подсказать не могу.

Ответить на комментарий


19.05.2014 19:05:56 Иван:
А как на счет того, что нужно закрывать от индекса дубли страниц? Например
isallow: /?*
Disallow: /index.php*
Disallow: /index2.php*
?
19.05.2014 19:45:20 Сергей отвечает:
Этого ни в коем случае нельзя делать. Это устаревший и ошибочный метод, который ничего положительного не несёт.
Запомните правило: чем больше robots.txt, тем больше от него зла.

Ответ на Ваш вопрос написан в самой статье: "И последнее, самое главное! Всё это нужно использовать в связке с моим способом о том, как избавится от дублей страниц в Joomla 2.5 + VirtueMart 2. Переходим по ссылке и читаем!"

Ответить на комментарий


20.06.2014 10:28:26 Денис:
Зачем для яндекса дублировать директивы, если выше они прописаны для всех?
Стоит ли добавлять запись Allow: /images/stories/virtuemart и если да, то перед Disallow или после?

Папка /images у меня закрыта
20.06.2014 21:22:31 Сергей отвечает:
1) По одной Disallow директиве для каждого юзер-агента обязательно. Поэтому для Яндекса можете скопировать одну, но раз уж в любом случае приходиться копировать одну, то я заодно копирую все.
2)Раз закрыта, то стоит. Без разницы где.

Ответить на комментарий


30.07.2014 15:07:30 Денис:
Добрый день.
У нас проиндексировались страницы в этом виде http://kromus.ru/ruchka-dvernaya-na-planke-s-zavertkoj-kastelli-latun-sostarennaya-detail?tmpl=component&format=pdf
И Как убрать индексацию ?tmpl=component&format=pdf
Вообщем нужна помощь в правельной настроики robots так как не правильно индексируется. Жду вашего ответа моя почта mydenz@yandex.ru
31.07.2014 22:33:36 Сергей отвечает:
Всё написано в этой статье и в статьях, которые я советовал прочитать по ходу дела.

Ответить на комментарий


17.10.2014 13:08:01 Руслан:
В некоторых блогах пишут, нельзя закрывать от индекса components/ , так как там располагается компонент магазина. Что Вы на это скажете?
18.10.2014 11:48:04 Сергей отвечает:
У Вас есть ссылки на страницы сайта или картинки, которые начинаются на components/ ?
Если нет, то закрывайте, если есть, то подумайте, эти ссылки нужны в поиске? Если нет, то опять-таки - закрывайте.

А то, что там распологается компонент магазина никакой роли не играет. Важен только URL.

Ответить на комментарий


20.11.2014 21:52:38 Федор:
Ребята, сайт мой http://vyrubi.ru ... история такая стоит там виртумарт второй и вот страницы производителей (именно производителей) ВООООООООбщееееее не видятся яндексом... и гуглом тоже кстати..ну хоть убей не хочет он их смотреть.. и я так и сяк, и ссылки в соцсетях ставил- все равно не хочет индексировать.. Менял роботс.тхт сто раз и ничего не меняется... Может у кого то было подобное? ПОмогите плиз!

Ответить на комментарий


27.04.2015 23:34:32 Андрей:
Спасибо, Сергей, замечательные у Вас статьи! :-)
Вопрос:
У меня в корне есть еще дополнительные папки, их нужно закрывать с помощью Disallow? Вот они:
/bin/
/cgi-bin/
/layouts/
/logs/
/myjsp/
/phocaemail/

Ответить на комментарий


28.04.2015 01:20:35 Андрей:
И ещё один вопрос сразу (к предыдущему):
Вы показали, что надо открыть доступ к:
Allow: /templates/*.woff$
Allow: /media/*.css$
и т.п....
Я сделал как Вы сказали - стало лучше, но, в Гугл Вебмастере в разделе "Заблокированные ресурсы" показывает, что остались заблокированные ресурсы типа:
http://repetitor-city.ru/components/com_comprofiler/js/jquery/jquery-1.11.2.min.js?v=bfbc5d140068d264
Нужно ли и каким образом разблокировать ресурсы этого типа?
(Google page speed кстати показывает, что они мешают отображению страницы)
Ответьте, пожалуйста на оба вопроса, чтобы улучшить понимание ситуации. Спасибо.
01.05.2015 10:09:37 Сергей отвечает:
Да, папки лучше закрыть. Да, нужно разблокировать все js, css, и файлы шрифтов, которые используются. То есть раз jquery-1.11.2.min.js есть в исходном коде страницы (у вас он есть, раз гугл его нашёл) (CTRL+U), то его нужно разблокировать.
02.05.2015 00:29:09 Андрей отвечает:
Значит в этом случае нужно также прописать:
Allow: /components/*.js$ ?
Это сработает, если Гугл его заметил как:
jquery-1.11.2.min.js?v=bfbc5d140068d264 (после "js" этот длинный хвост из цифр и букв)? Откуда этот хвост вообще берётся?
02.05.2015 01:40:32 Андрей отвечает:
Почитав о символах * и $ могу сам себя поправить теперь:
Прописать это надо без символа $ (либо заменить его на *):
Allow: /components/*.js*
чтобы разрешить доступ бота к
jquery-1.11.2.min.js?v=bfbc5d140068d264
Правильно я понял?
02.05.2015 21:58:19 Сергей отвечает:
Да, правильно.

Ответить на комментарий


18.05.2015 19:37:54 Юрий:
Добрый день,скажите пожалуйста Сергей,могли бы вы robots.txt сделать на моем сайте(естественно не бесплатно)
20.05.2015 20:09:35 Сергей отвечает:
Добрый день. Лучший robots.txt - это пустой файл, где есть только карта сайта и, опционально, Host для Яндекса. Советую, также, ознакомится с шаблоном SEO аудита

Ответить на комментарий


20.07.2015 20:06:38 Юрий:
Здравствуйте, Сергей! Очень нужными знаниями делитесь, спасибо ) Возникли пара вопросов.
1) Выше вы писали, что нужно разблокировать для поисковиков все файлы стилей, скриптов, шрифтов, картинок. Но вы привели пример разблокировки файлов в папках templates и media. Не правильнее ли было бы написать более общие правила типа:

Allow: *.css
Allow: *.js*
Allow: *.png
Allow: *.gif
Allow: *.jpg
Allow: *.jpeg
Allow: *.ttf
Allow: *.eot
Allow: *.svg
Allow: *.woff

Ведь, на примере Joomla, эти файлы могут подгружаться установленными модулями, плагинами, компонентами. Учесть всевозможные папки подключаемых скриптов и т.п. довольно затруднительно или по крайней мере более хлопотно, чем указать такие общие правила.
2) Правильно ли я понимаю, что если в роботсе у нас была закрыта папка

Disallow: /templates/

а ниже было написано
Allow: *.js*
, то все скрипты из папки templates будут индексироваться, не смотря на то, что она закрыта?

Если не затруднит, добавтье его, пожалуйста на сайт. Был бы рад узнать ответы на свои вопросы )
Хотя, наверное, надо не полениться и залезть в кабинет Вебмастера и там потестить свои предположения по поводу выше написанного )
В любом случае, думаю, если я прав в своих предположениях, идея может быть полезна другим пользователям.
20.07.2015 20:10:45 Сергей отвечает:
Добрый день. На сколько я помню не совсем верно. У Disallow: /templates/ все равно будет приоритет, порядок директив не важен. То есть не важно что выше а что ниже.

А вообще как я часто стал писать и редактировать старые статьи: советую не пользоваться директивой Disallow, это уже не актуально. Чтобы не было дублей нужно использовать метатег canonical и метатег noindex, nofollow

Ответить на комментарий


30.07.2015 13:24:49 hard:
А где роботс находится??? Я искал там где фавикон шапка и тд, но там его нет! Помогите нубу))
30.07.2015 20:49:01 Сергей отвечает:
Добрый день. robots.txt находится в корневой папке вашего сайта.
16.09.2015 16:25:47 Кирилл отвечает:
Либо, на вашем сайте еще нету robots.txt

Ответить на комментарий


26.10.2016 11:57:42 UMS:
Спасибо! Отличная статья! Все ясно и понятно. Очень Полезная статья.

Ответить на комментарий


26.10.2016 12:07:35 UMS:
Как же закрыть ненужные страницы от индексации если через robots.txt не желательно? Я их закрыл, не указал в sitemap, в коде "noindex, nofollow", все равно идет их индексация.

Ответить на комментарий

Использую для работы
Мои расширения
Свежие статьи
Рекомендую
Горячо обсуждаемые
Подписка
  • Следовать в twitter:
  • Подписаться по RSS:
  • Подписаться по E-mail:
  • Следить ВКонтакте:
  • Следить на Facebook:
Пользовательское соглашение об условиях использования сайта и Политика конфиденциальности
Перепечатывание или копирование материалов сайта (текста, изображений и другого содержимого) для их публичного или коммерческого использования в сети Интернет, либо в печатных изданиях строго запрещены. При нарушении данного правила, с нашей стороны будут предприняты соответствующие меры, вплоть до судебной жалобы.
© site-on.net
Шрифт: +стандартно-