Главная страница » WordPress SEO » Как создать идеальный файл robots.txt для СЕО в WordPress

Как создать идеальный файл robots.txt для СЕО в WordPress

07.07.2020

WordPress SEO

13 мин

2 644

И снова я вас приветствую, дорогие друзья!

Сегодня мы поговорим о таком важном файле как robots.txt, как его создать и что он означает для СЕО в WordPress.

Как создать идеальный файл robots.txt для СЕО в WordPress

Все любят «хаки».

Я не исключение — я люблю находить способы сделать мою жизнь лучше и проще.

Вот почему техника, о которой я собираюсь рассказать вам сегодня, является одной из моих самых любимых. Это законный СЕО-хак, который вы можете начать использовать прямо сейчас.

Это способ улучшить СЕО, используя естественную часть каждого сайта, о котором редко говорят. Это тоже не сложно реализовать.

Это файл robots.txt (также называемый протоколом или стандартом исключения роботов).

Этот крошечный текстовый файл является частью каждого веб-сайта в интернете, но большинство людей даже не знают об этом.

Он предназначен для работы с поисковыми системами, но удивительно, что это источник СЕО-сока, который только и ждет, чтобы быть разблокированным.

Я видел, как клиент за клиентом сгибаются пополам, пытаясь улучшить их СЕО. Когда я говорю им, что они могут редактировать небольшой текстовый файл, они не верят мне.

Тем не менее, существует много методов улучшения СЕО, которые не сложны и не требуют много времени, и это один из них.

Вам не нужно иметь никакого технического опыта, чтобы использовать возможности robots.txt. Если вы можете найти исходный код вашего сайта, вы можете использовать это.

Поэтому, когда вы будете готовы, следуйте за мной, и я покажу вам, как именно изменить файл robots.txt, чтобы поисковые системы его полюбили.

Почему файл robots.txt очень важен?

Во-первых, давайте посмотрим, почему файл robots.txt имеет очень важное значение.

Файл robots.txt, также известный как протокол исключения роботов или стандарт, представляет собой текстовый файл, который сообщает веб-роботам (чаще всего поисковым системам), какие страницы на вашем сайте нужно сканировать.

Он также сообщает веб-роботам, какие страницы не следует сканировать.

Допустим, поисковая система собирается посетить сайт. Прежде чем она зайдет на целевую страницу, она проверит robots.txt для инструкций.

Существуют различные типы файла robots.txt, поэтому давайте рассмотрим несколько различных примеров того, как они выглядят.

Допустим, поисковая система находит этот пример файла robots.txt:

пример файла robots.txt

Это основной скелет файла robots.txt.

Звездочка после «user-agent» означает, что файл robots.txt применяется ко всем веб-роботам, посещающим сайт.

Косая черта после «Disallow» говорит роботу, чтобы он не посещал никаких страниц на сайте.

Вам может быть интересно, почему кто-то хочет запретить веб-роботам посещать их сайт.

В конце концов, одна из главных целей СЕО — это заставить поисковые системы легко сканировать ваш сайт, чтобы они увеличивали ваш рейтинг.

Вот тут-то и кроется секрет этого СЕО-хака.

У вас, наверное, много страниц на вашем сайте, верно? Даже если вы думаете, что не знаете, идите и проверьте. Вы можете быть удивлены.

Если поисковая система обходит ваш сайт, она обходит каждую из ваших страниц.

А если у вас много страниц, то поисковому роботу потребуется некоторое время, чтобы обойти их, что может негативно сказаться на вашем рейтинге.

Это потому, что Googlebot (поисковый бот Google) имеет «бюджет обхода».

Это распадается на две части. Первая — это ограничение скорости обхода. Вот как Google объясняет это:

Ограничение скорости сканирования

Googlebot создан для того, чтобы быть хорошим «гражданином» интернета. Обход является его главным приоритетом, в то же время убедившись, что это не ухудшает опыт пользователей, посещающих сайт. Мы называем это «предел скорости обхода», который ограничивает максимальную скорость выборки для данного сайта.

Проще говоря, это представляет собой количество одновременных параллельных соединений, которые Googlebot может использовать для обхода сайта, а также время, которое он должен ждать между выборками. Скорость обхода может идти вверх и вниз в зависимости от нескольких факторов:

Работоспособность обхода: если сайт реагирует очень быстро в течение некоторого времени, лимит увеличивается, а это означает, что для обхода можно использовать больше соединений. Если сайт замедляется или реагирует на ошибки сервера, лимит снижается, и Googlebot реагирует медленнее.
Ограничение, установленное в Search Console: владельцы веб-сайтов могут уменьшить обход своего сайта Googlebot. Обратите внимание, что установка более высоких пределов не приводит к автоматическому увеличению обхода.

Вторая часть — это спрос на обход:

Спрос на обход

Даже если ограничение скорости сканирования не достигнуто, если нет необходимости в индексации, активность робота Googlebot будет низкой. Двумя факторами, которые играют важную роль в определении спроса на сканирование, являются:

Популярность: URL-адреса, которые более популярны в интернете, как правило, сканируются чаще, чтобы держать их более свежими в нашем индексе.
Стабильность: наши системы пытаются предотвратить устаревание URL-адресов в индексе.

Кроме того, общесайтовые события, такие как перемещения сайтов, могут вызвать увеличение спроса на сканирование, чтобы переиндексировать контент по новым URL-адресам.

Принимая во внимание скорость сканирования и спрос на сканирование, мы определяем бюджет сканирования как количество URL-адресов, которые робот Googlebot может и хочет сканировать.

В принципе, бюджет обхода — это «количество URL-адресов, которые Googlebot может и хочет обойти.»

Вы хотите помочь Googlebot потратить свой бюджет обхода для вашего сайта наилучшим образом. Другими словами, он должен ходить по вашим самым ценным страницам.

Существуют определенные факторы, которые, по мнению Google, «негативно влияют на обход и индексацию сайта».

Вот эти факторы:

Факторы, влияющие на бюджет обхода

Согласно нашему анализу, наличие большого количества URL-адресов с низкой добавленной стоимостью может негативно повлиять на обход и индексацию сайта. Мы обнаружили, что URL-адреса с низким добавленным значением попадают в эти категории в порядке значимости:

Фасетная навигация и идентификаторы сеансов
Дубликаты контента на сайте
Страницы ошибок
Взломанные страницы
Бесконечные пробелы и прокси
Низкое качество и спам-контент

Потеря ресурсов сервера на таких страницах приведет к истощению активности сканирования со страниц, которые действительно имеют ценность, что может привести к значительной задержке при обнаружении отличного контента на сайте.

Так что давайте вернемся к robots.txt.

Если вы создадите правильную страницу robots.txt, вы можете указать поисковым роботам (и особенно роботу Google) избегать определенных страниц.

Подумайте о последствиях. Если вы скажете поисковым роботам сканировать только ваш самый полезный контент, они будут сканировать и индексировать ваш сайт только на основе этого контента.

Как говорит Google:

«Вы не хотите, чтобы ваш сервер был перегружен сканером Google или тратить впустую бюджет на сканирование неважных или похожих страниц на вашем сайте».

Правильно используя файл robots.txt, вы можете сказать, что роботы поисковых систем разумно расходуют свои бюджеты на сканирование. И это то, что делает файл robots.txt таким полезным в контексте СЕО.

Заинтригованы силой robots.txt?

Так и должно быть! Давайте поговорим о том, как его найти и использовать.

Поиск вашего файла robots.txt

Если вы просто хотите быстро взглянуть на файл robots.txt, есть супер простой способ его просмотра.

Фактически, этот метод будет работать для любого сайта. Таким образом, вы можете просмотреть файлы других сайтов и посмотреть, что они делают.

Все, что вам нужно сделать, это ввести основной URL сайта в строку поиска вашего браузера (например, more-wp.ru, pruner.ru и т. д.). Затем добавьте /robots.txt в конец.

Произойдет одна из трех ситуаций:

1) Вы найдете файл robots.txt.

Вы найдете файл robots.txt

2) Вы найдете пустой файл.

Например, у Disney отсутствует файл robots.txt:

у Disney отсутствует файл robots.txt

3) Вы получите 404 ошибку.

Method возвращает 404 для robots.txt:

Вы получите 404 ошибку

Потратьте секунду и просмотрите на вашем сайте файл robots.txt.

Если вы найдете пустой файл или 404 ошибку, вы захотите исправить это.

Если вы все-таки нашли правильный файл, то, скорее всего, он настроен на настройки по умолчанию, которые были созданы при создании вашего сайта.

Мне особенно нравится этот метод для просмотра файла robots.txt других сайтов. Как только вы узнаете все тонкости работы robots.txt, это может быть ценным знанием.

Теперь давайте посмотрим на фактическое изменение вашего файла robots.txt.

Поиск вашего файла robots.txt

Все ваши дальнейшие шаги будут зависеть от того, есть ли у вас файл robots.txt. (Проверьте, вы это можете сделать, используя метод, описанный выше.)

Если у вас нет файла robots.txt, вам нужно создать его с нуля. Откройте простой текстовый редактор, например Блокнот (Windows) или TextEdit (Mac).

Для этого используйте только обычный текстовый редактор. Если вы используете такие программы, как Microsoft Word, программа может вставлять дополнительный код в текст.

Editpad.org — отличный бесплатный вариант, и вы увидите, что я использую его в этой статье.

Editpad.org

Вернемся к robots.txt. Если у вас есть файл robots.txt, вам нужно найти его в корневом каталоге вашего сайта.

Если вы не привыкли копаться в исходном коде, то может быть немного трудно найти редактируемую версию файла robots.txt.

Обычно вы можете найти свой корневой каталог, зайдя на сайт своей учетной записи хостинга, войдя в систему и перейдя в раздел управления файлами или FTP на своем сайте.

Вы должны увидеть что-то похожее на это:

Вы должны увидеть что-то похожее на это

Найдите свой файл robots.txt и откройте его для редактирования. Удалите весь текст, но сохраните файл.

Примечание. Если вы используете WordPress, вы можете увидеть файл robots.txt при переходе на yoursite.com/robots.txt, но не сможете найти его в своих файлах.

Это связано с тем, что WordPress создает виртуальный файл robots.txt, если в корневом каталоге нет файла robots.txt.

Если это произойдет с вами, вам нужно будет создать новый файл robots.txt.

Создание файла robots.txt

Вы можете создать новый файл robots.txt, используя выбранный вами текстовый редактор. (Помните, используйте только текстовый редактор.)

Если у вас уже есть файл robots.txt, убедитесь, что вы удалили текст (но не файл).

Во-первых, вам необходимо ознакомиться с некоторыми синтаксисами, используемыми в файле robots.txt.

У Google есть хорошее объяснение некоторых основных терминов robots.txt:

хорошее объяснение

Я собираюсь показать вам, как настроить простой файл robot.txt, а затем мы рассмотрим, как настроить его для СЕО.

Начните с установки термина пользовательского агента. Мы собираемся установить его так, чтобы он применялся ко всем веб-роботам.

Сделайте это, используя звездочку после термина пользовательского агента, например:

У Google есть хорошее объяснение

Затем введите «Disallow:», но после этого ничего не вводите.

Disallow

Поскольку после запрета ничего нет, веб-роботам будет предложено просканировать весь ваш сайт. Прямо сейчас все на вашем сайте — честная игра.

Пока что ваш файл robots.txt должен выглядеть так:

после термина пользовательского агента

Я знаю, что это выглядит супер просто, но эти две строки уже многое делают.

Вы также можете сделать ссылку на свою XML карту сайта, но это не обязательно. Если вы хотите, вот что надо набрать:

ваш файл robots.txt должен выглядеть так

Хотите верьте, хотите нет, но так выглядит базовый файл robots.txt.

Теперь давайте перейдем на следующий уровень и превратим этот маленький файл в СЕО-бустер.

Оптимизация robots.txt для СЕО

То, как вы оптимизируете robots.txt, зависит от содержания вашего сайта. Существует множество способов использования robots.txt в ваших интересах.

Я расскажу о некоторых наиболее распространенных способах его использования.

(Имейте в виду, что вы НЕ должны использовать robots.txt, чтобы блокировать страницы от поисковых систем. Это большое НЕТ и НЕТ.)

Одно из лучших применений файла robots.txt — это максимизировать бюджеты сканирования поисковых систем, сказав им не сканировать те части сайта, которые не отображаются в открытом доступе.

Например, если вы посетите файл robots.txt для этого сайта (more-wp.ru), вы увидите, что он запрещает страницу входа (wp-admin).

сделать ссылку на свою XML карту сайта

Поскольку эта страница используется только для входа в серверную часть сайта, роботам поисковых систем не имеет смысла тратить свое время на ее сканирование.

(Если у вас сайт на WordPress, вы можете использовать ту же самую строку запрета.)

Вы можете использовать аналогичную директиву (или команду), чтобы боты не сканировали определенные страницы. После запрета введите часть URL, которая идет после .ru или .com. Поместите это между двумя косыми чертами.

Так что, если вы хотите, чтобы бот не сканировал вашу страницу http://yoursite.com/page/, вы можете напечатать это:

вы можете напечатать это

Вам может быть интересно, какие типы страниц исключать из индексации. Вот несколько распространенных сценариев, где это может произойти:

Целеустремленный дублированный контент. В то время как дублированный контент — это в основном плохая вещь, есть несколько случаев, когда это необходимо и приемлемо.

Например, если у вас есть версия страницы для печати, у вас технически есть дублированный контент. В этом случае вы можете указать ботам не сканировать одну из этих версий (обычно это версия для печати).

Это также удобно, если вы разделяете страницы тестирования, которые имеют одинаковый контент, но разный дизайн.

Страницы спасибо. Страница благодарности — одна из любимых страниц маркетолога, потому что это означает новое лидерство.

…Правильно?

Оказывается, некоторые страницы с благодарностями доступны через Google. Это означает, что люди могут получить доступ к этим страницам, не проходя процесс захвата потенциальных клиентов, и это плохие новости.

Блокируя свои страницы благодарности, вы можете убедиться, что их видят только квалифицированные лидеры.

Допустим, ваша страница благодарности находится по адресу https://yoursite.com/thank-you/. В вашем файле robots.txt блокировка этой страницы будет выглядеть так:

блокировка этой страницы

Поскольку не существует универсальных правил, по которым страницы можно запретить, ваш robots.txt будет уникальным для вашего сайта. Используй свое суждение здесь.

Есть две другие директивы, которые вы должны знать: «noindex» и «nofollow».

Вы знаете эту директиву «disallow», которую мы уже использовали? На самом деле это не мешает странице проиндексироваться.

Теоретически, вы можете запретить страницу, но она все равно может оказаться в индексе.

Как правило, вы не хотите этого.

Вот почему вам нужна директива «noindex». Она работает с директивой «disallow», чтобы убедиться, что боты не посещают и не индексируют определенные страницы.

Если у вас есть страницы, которые вы не хотите индексировать (например, страницы с драгоценными благодарностями), вы можете использовать директивы «disallow» и «noindex»:

ваша страница благодарности

Теперь эта страница не будет отображаться в результатах поиска.

Наконец, есть директива «nofollow». На самом деле это то же самое, что и ссылка «nofollow». Короче говоря, он говорит веб-роботам не сканировать ссылки на странице.

Но директива «nofollow» будет реализована немного по-другому, потому что она на самом деле не является частью файла robots.txt.

Однако директива «nofollow» по-прежнему инструктирует веб-роботов, поэтому это та же концепция. Разница лишь в том, где это происходит.

Найдите исходный код страницы, которую вы хотите изменить, и убедитесь, что вы находитесь между тегами «< head >«.

что вы находитесь между тегами

Затем вставьте эту строку:

< meta name = "robots" content = "nofollow" >

Это должно выглядеть так:

Это должно выглядеть так

Убедитесь, что вы не ставите эту строку между любыми другими тегами — только тегами «< head >«.

Это еще один хороший вариант для страниц с благодарностью, поскольку веб-роботы не будут сканировать ссылки на любые ведущие магниты или другой эксклюзивный контент.

Если вы хотите добавить директивы «noindex» и «nofollow», используйте следующую строку кода:

< meta name = "robots" content = "noindex, nofollow" >

Это даст веб-роботам обе директивы одновременно.

Тестирование всего

Наконец, проверьте файл robots.txt, чтобы убедиться, что все правильно и работает так как надо.

Google предоставляет бесплатный тестер robots.txt как часть инструментов для веб-мастеров.

Сначала войдите в свою учетную запись для веб-мастеров, нажав «Войти» в правом верхнем углу.

учетную запись для веб-мастеров

Выберите вашу собственность (например, веб-сайт) и нажмите «Сканирование» на левой боковой панели.

Сканирование

Вы увидите «robots.txt Tester». Нажмите на него.

robots.txt Tester

Если в поле уже есть какой-либо код, удалите его и замените его новым файлом robots.txt.

Нажмите «Тест» в нижней правой части экрана.

в нижней правой части экрана

Если текст «Тест» меняется на «Разрешено», это означает, что ваш файл robots.txt действителен.

Вот еще немного информации об инструменте, чтобы вы могли узнать, что все означает в деталях.

Наконец, загрузите файл robots.txt в корневой каталог (или сохраните его там, если он у вас уже был). Теперь вы вооружены мощным файлом, и вы должны увидеть увеличение видимости поиска.

Вывод

Я всегда люблю делиться малоизвестными СЕО-«хаками», которые могут дать вам реальное преимущество во многих отношениях.

Правильно настроив файл robots.txt, вы не просто улучшаете свой собственный СЕО. Вы также помогаете своим посетителям.

Если роботы поисковых систем смогут разумно расходовать свои бюджеты на сканирование, они будут организовывать и отображать ваш контент в поисковой выдаче наилучшим образом, а это значит, что вы будете более заметны.

Это также не займет много усилий, чтобы настроить файл robots.txt. В основном это однократная настройка, и вы можете вносить небольшие изменения по мере необходимости.

Независимо от того, начинаете ли вы свой первый или пятый сайт, использование robots.txt может иметь существенное значение. Я рекомендую дать ему вращение, если вы еще не сделали этого раньше.

Какой у вас опыт создания файлов robots.txt?

А у меня на этом все — до новых и скорых встреч и всех вам благ!

Статья была обновлена: 13 декабря 2020 года

Оцените статью:

(+1 баллов, 1 оценок)

Загрузка...

Занимаюсь созданием сайтов на WordPress более 7 лет. Работал в нескольких веб-студиях, да и сейчас работаю. Иногда подрабатываю на фрилансе - как на нашем, так и на зарубежном. Везде зарекомендовал себя очень хорошо. Если нужен сайт на WordPress, шаблон для сайта или лендинг - не стесняйтесь, пишите. Рад буду помочь!

Как удалить JS и CSS, блокирующие рендеринг?

Скорость страницы для СЕО: вот что вам нужно знать

Полное руководство по WordPress СЕО

10 советов, как сохранить рейтинг СЕО после редизайна

Оставьте свой комментарий

Мы рады, что вы решили оставить комментарий. Пожалуйста, имейте в виду, что все комментарии модерируются в соответствии с нашей политикой конфиденциальности, и все ссылки являются "nofollow". Не используйте ключевые слова в поле "Имя". Давайте проведем личный и содержательный разговор, без спама и оскорблений.

Пока нет комментариев. Будь первым!