Что такое robots.txt, зачем он нужен сайту и как его настроить

Одним из ключевых документов, которые требуют детального подхода является Robots.txt.

Недостаточно просто создать сайт. Нужно грамотно настроить его, а это задача – не из простых. Одним из ключевых документов, которые требуют детального подхода является Robots.txt. Без него невозможна грамотная индексация и эффективная работа SEO-продвижения.

По своей сути, роботс – это текстовый файл. Он размещается в корневом каталоге веб-проекта и является своеобразной инструкцией для роботов Яндекса и Гугла (а также других поисковых систем). Файл показывает роботам какие странички нужно индексировать, а какие – нет. Например, зачем показывать пользователю страницы админки или неуникальный контент? Разве он принесет пользу? Ответ прост – нет. Вот как раз такие страницы роботс и скрывает от индексации.

Зачем robots.txt

1. Контроль доступа. Вы можете предотвратить индексацию определенных частей сайта, которые не должны попасть в поисковую выдачу (например, админ-панель или временные страницы).
2. Оптимизация ресурсов. Если у вас огромный, многостраничный сайт, блокировка ненужных для индексации разделов уменьшит нагрузку от поисковых роботов.
3. Предотвращение дублирования контента. Помогает избежать ситуации, когда одинаковый контент с разных URL индексируется поисковиками.

Ненужные страницы, которые не содержат в себе полезной информации для пользователей, благодаря robots.txt полностью исключаются из поиска. От правильной настройки файла зависит поисковая выдача и продвижение сайта. Если допустить даже небольшую ошибку в инструкциях и директивах, сайт можно выпасть из индексирования. Именно поэтому, если наблюдается отсутствие движения сайта в поисковых системах, веб-мастера сразу же обращаются к роботсу.

Рассказываем, о самых распространенных ошибках в SEO-продвижении. Обязательно к прочтению!

Как создать и где находится

Документ находится в корневой директории сайта. Создать файл можно двумя способами: воспользовавшись онлайн-генераторами или же написав его самостоятельно. Для самостоятельной разработки потребуется текстовый редактор (Блокнот, NotePad++, SublimeText).

При создании файла необходимо указать инструкции для роботов поисковой системы в зависимости от ваших задач, а после сохранить его в формате .txt.

Далее готовый файл необходимо загрузить в корневой каталог сайта. Для загрузки используют консоль, админку в CMS, панель управления сервером (Cpanel или ISPmanager), или же FTP-клиента.

Хотим обратить ваше внимание, на то, что любые ошибки в этом файле могут привести к нежелательной индексации или, наоборот, блокировке нужного контента. Поэтому, если вы никогда не сталкивались с подобной задачей, лучше доверить ее опытным профессионалам. Так, вы и время сэкономите и нервы.

А вы уже использовали турбо-страницы? Читайте нашу статью «Турбо-страницы – что это. Чем полезны и на что влияют». Не упускайте возможность увеличить трафик на сайт!

О директивах robots.txt

Директивы – словно указатели для поисковых систем, направляют их говоря «что нужно показывать», а что индексировать не стоит. Мы расскажем об основных директивах, которые должны быть в документе.

User-agent: Поисковый робот, к которому применяется правило. User-agent: * относится к всем роботам.
Disallow: URL, который нужно заблокировать. Например, Disallow: /admin/ блокирует доступ к разделу «admin». Кроме того, часто указывают запреты на страницы пагинации, с личными данными пользователей, логи, дублирующие веб-страницы, технические или служебные разделы.
Allow: URL, который можно индексировать, даже если он находится в заблокированном разделе.
Sitemap: Эта директива указывает местоположение файла XML sitemap вашего сайта. Это может помочь поисковым роботам быстрее и эффективнее находить и индексировать страницы вашего сайта. Например: Sitemap: https://example.com/sitemap.xml.
Crawl-delay: (не поддерживается Яндексом и Гуглом). Хотя не все поисковые роботы признают эту директиву, она может быть использована для указания задержки между запросами робота к серверу. Например, Crawl-delay: 10 означает, что робот должен ждать 10 секунд между запросами. Это может быть полезно для уменьшения нагрузки на сервер.

Что обязательно нужно запретить показывать поисковикам

1. Дубли страниц.

Образование дублей возможно по разным причинам, например, в результате формирования динамических ссылок. Поэтому дубли страниц — это первое, что нужно исключить из индекса. Доступ должен производиться по одному URL. Провести исключение можно посредством масок:

2. Страницы, которые имеют неуникальный, скопированный контент

Тут даже говорить не о чем. Неуникальный контент грозит сайту серьезными санкциями. Поэтому если вы не хотите попасть под фильтр Яндекса или Гугла, рекомендуем ограничить к ним доступ через файл роботс.

3. Страницы, где есть индикаторы сессий.

4. Веб-страницы, используемые для сценариев.

5. Файлы шаблонов, администраторской панели.

6. Страницы, которые не несут для пользователей какую-либо пользу.

Генераторы robots.txt

Задачу значительно упрощают онлайн-генераторы или утилиты для создания роботс. Инструментов масса. Каким именно воспользоваться выбирать только вам. Среди плюсов использования генератора:

Экономия времени;
Не надо платить веб-мастеру за настройку;
Подходит для тех, кто владеет большим количеством сайтов.

Однако, есть и минусы. В 90% случаев, онлайн-генераторы требуют корректировки. Поэтому без базовых знаний синтаксиса и алгоритмов написания файла – не обойтись.

Итог

robots.txt – важнейший инструмент, необходимый для быстрого и эффективного продвижения сайта. Он обязателен к настройке и является ключевым элементом базовой SEO-настройки. Благодаря его директивам можно оказывать непосредственное влияние на включение в индекс определенных страниц и разделов веб-сайта.

Файл выполняет следующие функции: ускоряет работу поисковых машин, способствует индексации «нужных» страниц, экономит краулинговый бюджет, разгружает сервер, а также убирает из выдачи хлам, который не несет пользы для пользователей.

Обязательно проверьте, настроен ли на вашем сайте robots.txt. Для этого введите в поисковую строку site.ru/robots.txt (где вместо site укажите домен вашего сайта).