جدول المحتويات:

فيديو: الطريقة الصحيحة لانشاء خريطة Sitemap وملف robot txt لتسريع ارشفة بلوجر (يوليو 2024)

فيديو: الطريقة الصحيحة لانشاء خريطة Sitemap وملف robot txt لتسريع ارشفة بلوجر (يوليو 2024)
Anonim

إذا كنت تمتلك موقعًا على الويب وتهتم بصحة SEO الخاصة بموقعك ، فيجب أن تكون على دراية بملف robots.txt على نطاقك. صدق أو لا تصدق ، هذا عدد كبير بشكل مثير للقلق من الأشخاص الذين يطلقون المجال بسرعة ، ويقومون بتثبيت موقع ويب WordPress سريع ، ولا يكترثون أبدًا بأي شيء من خلال ملف robots.txt الخاص بهم.

هذا أمر خطير. يمكن لملف robots.txt الذي تم تكوينه بشكل سيء أن يدمر بالفعل صحة محركات البحث الخاصة بـ SEO في موقعك ، وأن يتلف أي فرص قد تكون لديك لزيادة عدد زياراتك.

ما هو ملف Robots.txt؟

تم تسمية ملف Robots.txt بشكل مناسب لأنه في الأساس ملف يسرد التوجيهات الخاصة بروبوتات الويب (مثل روبوتات محرك البحث) حول كيفية وما الذي يمكنهم الزحف إليه على موقع الويب الخاص بك. لقد كان هذا معيارًا على الويب يتبعه مواقع الويب منذ عام 1994 وتلتزم جميع برامج زحف الويب الرئيسية بهذا المعيار.

يتم تخزين الملف بتنسيق نصي (بامتداد txt) على المجلد الجذر لموقع الويب الخاص بك. في الواقع ، يمكنك عرض ملف robot.txt لأي موقع ويب فقط عن طريق كتابة النطاق متبوعًا بـ /robots.txt. إذا جربت ذلك باستخدام groovyPost ، فسترى مثالًا على ملف robot.txt منظم جيدًا.

الملف بسيط لكنه فعال. ملف المثال هذا لا يفرق بين الروبوتات. يتم إصدار الأوامر لجميع برامج الروبوت باستخدام وكيل المستخدم: * التوجيه. هذا يعني أن جميع الأوامر التي تتبعه تنطبق على جميع الروبوتات التي تزور الموقع للزحف إليه.

تحديد زواحف الويب

يمكنك أيضًا تحديد قواعد محددة لبرامج زحف الويب المحددة. على سبيل المثال ، قد تسمح لـ Googlebot (زاحف الويب من Google) بالزحف إلى جميع المقالات الموجودة على موقعك ، ولكن قد ترغب في عدم السماح لبرنامج زاحف الويب الروسي Yandex Bot من الزحف إلى المقالات الموجودة على موقعك والتي تحط من قدر معلومات روسيا.

هناك المئات من برامج زحف الويب التي تبحث في الإنترنت للحصول على معلومات حول مواقع الويب ، ولكن هناك 10 برامج شائعة يجب أن تكون مهتمًا بها مدرجة هنا.

  • Googlebot : محرك بحث Google Bingbot : محرك بحث Microsoft Bing Slurp : محرك بحث Yahoo DuckDuckBot : DuckDuckGo محرك بحث Baiduspider : محرك بحث بايدو الصيني YandexBot : محرك بحث Yandex الروسي Exabot : French Exalead search search MJ12bot : قاعدة بيانات فهرسة الارتباط الكبيرة

إذا أخذنا السيناريو المثال أعلاه ، إذا كنت ترغب في السماح لـ Googlebot بفهرسة كل شيء على موقعك ، ولكنك أردت منع Yandex من فهرسة محتوى مقالك الروسي ، فستقوم بإضافة الأسطر التالية إلى ملف robots.txt الخاص بك.


User-agent: googlebot
Disallow: Disallow: /wp-admin/
Disallow: /wp-login.php

User-agent: yandexbot
Disallow: Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /russia/

كما ترون ، القسم الأول يمنع Google فقط من الزحف إلى صفحة تسجيل الدخول إلى WordPress والصفحات الإدارية. القسم الثاني يحظر Yandex من نفسه ، ولكن أيضًا من المنطقة بأكملها من موقعك حيث نشرت مقالات ذات محتوى مناهض لروسيا.

هذا مثال بسيط على كيفية استخدام أمر Disallow للتحكم في برامج زحف معينة على الويب تزور موقع الويب الخاص بك.

أوامر Robots.txt الأخرى

Disallow ليس هو الأمر الوحيد الذي يمكنك الوصول إليه في ملف robots.txt. يمكنك أيضًا استخدام أي من الأوامر الأخرى التي ستوجه كيفية قيام الروبوت بالزحف إلى موقعك.

  • عدم السماح : أخبر وكيل المستخدم بتجنب الزحف إلى عناوين URL محددة أو أقسام كاملة من موقعك. السماح : يتيح لك ضبط صفحات أو مجلدات فرعية محددة على موقعك ، على الرغم من أنك قد تكون غير مسموح بمجلد أصل. على سبيل المثال ، يمكنك عدم السماح بـ: / about / ، لكن بعد ذلك: / about / ryan /. تأخير الزحف : هذا يخبر الزاحف بالانتظار لعدد xx من الثواني قبل البدء في الزحف إلى محتوى الموقع. ملف Sitemap: قم بتزويد محركات البحث (Google و Ask و Bing و Yahoo) بموقع ملفات خرائط XML الخاصة بك.

ضع في اعتبارك أن برامج الروبوت ستستمع فقط إلى الأوامر التي قدمتها عند تحديد اسم الروبوت.

من الأخطاء الشائعة التي يرتكبها الأشخاص عدم السماح لمناطق مثل / wp-admin / من جميع برامج الروبوت ، ولكن بعد ذلك حدد قسم googlebot وعدم السماح فقط للمناطق الأخرى (مثل / about /).

نظرًا لأن برامج الروبوت تتبع فقط الأوامر التي تحددها في القسم الخاص بهم ، تحتاج إلى إعادة جميع الأوامر الأخرى التي حددتها لجميع برامج الروبوت (باستخدام وكيل المستخدم *).

  • Disallow : الأمر المستخدم لإخبار وكيل المستخدم بعدم الزحف إلى عنوان URL معين. يُسمح بسطر "Disallow:" واحد فقط لكل عنوان URL. السماح (ينطبق فقط على Googlebot) : الأمر الذي يخبر Googlebot بأنه يمكنه الوصول إلى صفحة أو مجلد فرعي على الرغم من أنه قد يتم رفض الصفحة الرئيسية أو المجلد الفرعي. تأخير الزحف : كم ثانية يجب على الزاحف الانتظار قبل تحميل محتوى الصفحة والزحف إليه. لاحظ أن Googlebot لا يعترف بهذا الأمر ، ولكن يمكن تعيين معدل الزحف في وحدة تحكم بحث Google. ملف Sitemap : يستخدم لاستدعاء موقع ملف (ملفات) خريطة موقع XML المرتبطة بعنوان URL هذا. لاحظ أن هذا الأمر مدعوم فقط من قِبل Google و Ask و Bing و Yahoo.

ضع في اعتبارك أن ملف robots.txt يهدف إلى مساعدة برامج الروبوت المشروعة (مثل برامج روبوت محرك البحث) على الزحف إلى موقعك بشكل أكثر فعالية.

هناك الكثير من برامج الزحف الشائنة التي تزحف إلى موقعك للقيام بأشياء مثل كشط عناوين البريد الإلكتروني أو سرقة المحتوى الخاص بك. إذا كنت ترغب في محاولة استخدام ملف robots.txt الخاص بك لمنع برامج الزحف هذه من الزحف إلى أي شيء على موقعك ، فلا تهتم. يتجاهل منشئو برامج الزحف هذه عادة أي شيء تضعه في ملف robots.txt.

لماذا عدم السماح بأي شيء؟

يُعد الحصول على محرك بحث Google للزحف إلى أكبر قدر ممكن من المحتوى ذي الجودة على موقع الويب الخاص بك مصدر قلق رئيسي لمعظم مالكي مواقع الويب.

ومع ذلك ، لا تنفق Google سوى ميزانية محدودة للزحف ومعدل الزحف على المواقع الفردية. معدل الزحف هو عدد الطلبات في الثانية التي يقدمها Googlebot إلى موقعك أثناء حدث الزحف.

الأهم من ذلك هو ميزانية الزحف ، وهي إجمالي عدد الطلبات التي سيطلبها Googlebot للزحف إلى موقعك في جلسة واحدة. جوجل "تنفق" ميزانية الزحف من خلال التركيز على المناطق التي تحظى بشعبية كبيرة أو تغيرت مؤخرا.

أنت لست أعمى لهذه المعلومات. إذا قمت بزيارة أدوات مشرفي المواقع من Google ، يمكنك معرفة كيفية تعامل الزاحف مع موقعك.

كما ترى ، يحافظ الزاحف على أن نشاطه على موقعك ثابت تمامًا كل يوم. لا يزحف إلى جميع المواقع ، ولكن فقط تلك المواقع التي يعتبرها الأكثر أهمية.

لماذا تترك الأمر لـ Googlebot لتحديد ما هو مهم على موقعك ، عندما يمكنك استخدام ملف robots.txt لتخبره عن أهم الصفحات؟ سيمنع ذلك Googlebot من إضاعة الوقت في الصفحات منخفضة القيمة على موقعك.

تحسين ميزانية الزحف الخاصة بك

تتيح لك أدوات مشرفي المواقع من Google أيضًا التحقق مما إذا كان Googlebot يقرأ ملف robots.txt بشكل جيد وما إذا كانت هناك أية أخطاء.

يساعدك هذا على التحقق من أنك قمت بتنظيم ملف robots.txt الخاص بك بشكل صحيح.

ما الصفحات التي يجب عدم السماح بها من Googlebot؟ من الجيد بالنسبة لموقعك تحسين محركات البحث (SEO) لعدم السماح بفئات الصفحات التالية.

  • صفحات مكررة (مثل الصفحات المواتية للطابعة) شكرًا لك على الصفحات التي تتبع الطلبات المستندة إلى النموذجأمر أو نماذج استعلام المعلوماتتصفح الصفحات صفحات الصفحاتالمغناطيسات الرائدة "صفحات المبيعات"

لا تتجاهل ملف Robots.txt الخاص بك

أكبر خطأ يرتكبه مالكو مواقع الويب الجديدة هو عدم النظر إلى ملف robots.txt. قد يكون أسوأ موقف هو أن ملف robots.txt يحظر موقعك أو مناطق موقعك من الزحف على الإطلاق.

تأكد من مراجعة ملف robots.txt والتأكد من تحسينه. بهذه الطريقة ، ترى Google ومحركات البحث المهمة الأخرى كل الأشياء الرائعة التي تقدمها للعالم من خلال موقع الويب الخاص بك.

ما هو ملف robots.txt في المجال؟