اصطلاحات سئوسئو

فایل robots.txt چیست و نحوه ایجاد آن

ربات txt یکی از ساده ترین و ساده ترین پرونده برای ایجاد است ، اما رایج ترین پرونده ای است که باید با آن اشتباه گرفت.

با استفاده از فایل های txt ربات ها ، می توانید صفحه ای را از فهرست بندی خود حذف کنید ، و از این رو آن را از ساختن ارزش جستجوگر خود متوقف کنید.

شاید تعجب کنید که می دانید که یک فایل متنی کوچک ، معروف به robots.txt ، می تواند سقوط وب سایت شما باشد.

اگر به طور نادرست از آن استفاده كنید ، می توانید به روباتهای موتور جستجو بگویید كه كل وب سایت خود را خزیده نكنند ، این بدان معنی است كه در نتایج جستجو ظاهر نمی شود. 

فایل robots.txt چیست؟

Robots.txt یک فایل متنی است که در سرور وب شما ساکن است و توسط خزندگان وب (در درجه اول اما محدود به موتورهای جستجو) برای درک نحوه خزیدن وب سایت شما استفاده می شود.

چگونه کار می کند؟

قبل از اینکه موتور جستجوی وب سایت شما را خز کند ، به فایل robots.txt شما برای راهنمایی در مورد صفحات اجازه خزیدن و فهرست بندی در نتایج موتور جستجو نگاه می کند.

اگر می خواهید موتورهای جستجو ایندکس نشوند ، پرونده های Robots.txt مفید هستند:

  • صفحات تکراری یا شکسته شده را در وب سایت خود قرار دهید
  • صفحات نتایج جستجو داخلی(لینک های داخلی سایت)
  • مناطق خاصی از وب سایت یا دامنه کامل شما
  • فایلهای خاصی در وب سایت شما مانند تصاویر و PDF
  • صفحات ورود
  • اجرای وب سایت برای توسعه دهندگان
  • نقشه سایت XML شما

استفاده از پرونده های robots.txt به شما امکان می دهد صفحاتی را حذف کنید که هیچ فایده ای ندارند ، بنابراین موتورهای جستجو به جای آن روی خزیدن مهمترین صفحات تمرکز می کنند. موتورهای جستجو دارای “بودجه خزیدن” محدود هستند و فقط می توانند تعداد مشخصی از صفحات در روز را خزنده کنند ، بنابراین می خواهید با مسدود کردن همه URL های بی ربط ، به آنها بهترین فرصت برای پیدا کردن صفحات خود را بدهید.

شما همچنین ممکن است یک تاخیر crawl را پیاده سازی کنید ، که به روبات ها می گوید چند ثانیه صبر کنند تا خزیدن صفحات مشخصی انجام شود ، تا سرور شما بیش از حد نباشد. توجه داشته باشید که Googlebot این دستور را تأیید نمی کند ، بنابراین در عوض به جای راه حل قوی تر و اثبات آینده ، بودجه خزیدن خود را بهینه کنید .

نحوه ایجاد پرونده robots.txt

اگر در حال حاضر پرونده robots.txt ندارید ، توصیه می شود در اسرع وقت آنرا ایجاد کنید. برای انجام این کار ، شما باید:

  • یک فایل متنی جدید ایجاد کنید و آن را “robots.txt” بنامید – از ویرایشگر متنی مانند برنامه Notepad در رایانه های شخصی ویندوز یا TextEdit برای Mac ها استفاده کنید و سپس یک پرونده با متن “Save As” را ذخیره کنید ، و اطمینان حاصل کنید که پسوند پرونده “.txt” نامگذاری شده است
  • آن را در فهرست اصلی وب سایت خود بارگذاری کنید – این معمولاً یک پوشه سطح ریشه به نام “htdocs” یا “www” است که باعث می شود مستقیماً پس از نام دامنه شما ظاهر شود
  • برای هر زیر دامنه یک پرونده robots.txt ایجاد کنید – فقط در صورت استفاده از هر دامنه فرعی
  • تست – با وارد کردن yourdomain.com/robots.txt در نوار آدرس مرورگر ، پرونده robots.txt را بررسی کنید

چرا باید به robots.txt اهمیت دهید؟

robots.txt از دیدگاه SEO نقش اساسی دارد. این به موتورهای جستجو می گوید که چگونه می توانند به بهترین شکل وب سایت شما را جستجو کنند.

با استفاده از فایل robots.txt می توانید از دسترسی موتورهای جستجو به قسمت های خاصی از وب سایت خود جلوگیری کنید ، از محتوای تکراری جلوگیری کرده و به موتورهای جستجو نکات مفیدی درباره چگونگی کارآیی تر وب سایت شما ارائه دهید.

در هنگام ایجاد تغییر در robots.txt مراقب باشید : این پرونده امکان ایجاد قسمتهای زیادی از وب سایت شما را برای موتورهای جستجو غیرقابل دسترسی می کند.

برخی از دلایل داشتن پرونده /robots.txt در وب سایت ما می تواند شامل موارد زیر باشد:

  • ما محتوا داریم که می خواهیم از موتورهای جستجو مسدود شود.
  • پیوندها یا تبلیغات پولی وجود دارد که برای ربات های مختلف وب نیاز به دستورالعمل های ویژه دارند.
  • ما می خواهیم دسترسی به سایت خود را از روبات های معتبر محدود کنیم.
  • ما در حال ایجاد یک سایت زنده هستیم ، اما شما نمی خواهید موتورهای جستجو هنوز آن را ایندکس کنند.
  • برخی از موارد فوق صحیح است ، اما ما دسترسی کاملی به وب سرور و نحوه پیکربندی آن نداریم.

با این وجود ، روش های دیگر می توانند دلایل فوق را کنترل کنند ، اما پرونده /robots.txt یک مکان مرکزی درست و مستقیم برای مراقبت از آنها است. اگر ما یک فایل /robots.txt در وب سایت خود نداریم ، روبات های موتور جستجو دسترسی کامل به سایت ما دارند.

چه چیزی را در پرونده robots.txt خود قرار دهید

بیایید مثالهای مختلفی از چگونگی استفاده از فایل robots.txt را مرور کنیم. توجه داشته باشید که می توانید با انجام یک خط با هشتگ ( # ) نظرات خود را به پرونده اضافه کنید .

همه موارد زیر در ربات txt  کنار بذاریم

واضح است ، شما ممکن است بخواهید از ترکیبی از این روش ها برای مسدود کردن مناطق مختلف وب سایت خود استفاده کنید. موارد اساسی که باید به خاطر بسپارید:

  • اگر زیر فهرست را مجاز نمی کنید ، هر پرونده ، زیر فهرست یا صفحه وب در آن الگوی URL مجاز نخواهد بود
  • نماد ستاره ( * ) جایگزین هر شخصیت یا تعدادی از شخصیت ها می شود
  • نماد دلار ( $ ) انتهای URL را نشان می دهد ، بدون استفاده از این مورد برای مسدود کردن پسوند فایل ها ، ممکن است تعداد زیادی URL را به طور تصادفی مسدود کنید
  • آدرس های اینترنتی حساس به مورد هستند ، بنابراین ممکن است مجبور شوید نسخه های کلاه و غیر کلاه را برای گرفتن همه درج کنید
  • این می تواند موتورهای جستجو را چند روز تا چند هفته به طول انجامد تا متوجه نشانی اینترنتی مجاز نشود و آن را از فهرست آنها حذف کند
  • تنظیمات ” کاربر-عامل ” به شما امکان می دهد تا برخی از نقاط خزنده را مسدود کنید یا در صورت لزوم با آنها متفاوت رفتار کنید ، می توانید در اینجا لیست کاملی از ربات های عامل کاربر را پیدا کنید تا جایگزین نماد ستاره گیر (*) شوید.

اگر هنوز از ایجاد پرونده robot.txt متعجب هستید یا نگران هستید ، Google دارای یک ابزار آزمایش مفید در کنسول جستجو است . فقط وارد Search Console شوید ( یکبار تنظیم ) و به سادگی سایت را از لیست انتخاب کنید و Google یادداشت ها را برای شما باز می گرداند و هرگونه خطایی را برجسته می کند.

  • پرونده robots.txt خود را با استفاده از تستر گوگل Robots.txt تست کنید

Google یک بررسی اجمالی از آنچه که مسدود شده است و آنچه در صفحه پرونده robots.txt عمیق آنها مسدود نیست ، جمع آوری کرده است :

 نقشه سایت

ذکر پیوند به نقشه سایت شما در پرونده روبات ها یک اختیاری است اما یک عمل خوب برای دنبال کردن.

Robots txt اولین پرونده ای است که خزنده جستجو پس از فرود در وب سایت شما به دنبال آن است.

در دسترس بودن آدرس سایت نقشه سایت کار خزنده را آسان می کند زیرا می تواند از نقشه سایت برای ایجاد درک وب سایت خود استفاده کند.

فقط FYI ، Google از طریق کنسول جستجو به نقشه سایت شما دسترسی پیدا می کند ، اما این می تواند یک عمل خوب برای سایر نمایندگان کاربر باشد.

پرونده robots.txt در کجا قرار دارد؟

داشتن پرونده robots.txt در سرور شما کافی نیست. باید در پوشه ریشه وب سایت خود اقامت داشته باشد. قرار دادن آن در یک پوشه ، آن را بی فایده می کند.

این بدان معناست که باید هنگام وارد کردن دامنه اصلی خود به دنبال /robrob.txt (حساس به مورد) محتوای پرونده خود را ببینید.

اگر با خطای سرور 404 روبرو شدید یا URL برای دسترسی به پرونده روبات های شما با آنچه در بالا گفته شد متفاوت است ، در نظر بگیرید که پرونده ربات های شما به درستی تنظیم نشده است.

فایل robots.txt به چه صورت است؟

نمونه ای از آنچه ممکن است یک فایل ساده robots.txt برای وب سایت وردپرس به نظر برسد:

User-agent: *
Disallow: /wp-admin/

بیایید آناتومی فایل robots.txt را بر اساس مثال بالا توضیح دهیم:

  • User-agent: user-agentنشانگر راهنمایی که برای موتورهای جستجو در نظر گرفته شده است.
  • *: این نشان می دهد که دستورالعمل ها برای همه موتورهای جستجو طراحی شده اند.
  • Disallow: این یک دستورالعمل است که نشان می دهد چه محتوایی برای آن قابل دسترسی نیست user-agent.
  • /wp-admin/: این همان pathچیزی است که برای user-agent.

به طور خلاصه: این فایل robots.txt به همه موتورهای جستجو می گوید که از /wp-admin/فهرست خارج شوند.

بیایید اجزای مختلف پرونده های robots.txt را با جزئیات بیشتری تجزیه و تحلیل کنیم:

  • عامل کاربر
  • اجازه نده
  • اجازه
  • نقشه سایت
  • خزیدن-تاخیر

عامل کاربر در robots.txt

هر موتور جستجو باید خود را با a شناسایی کند user-agent. به عنوان Googlebotمثال ، روبات های گوگل ، ربات های یاهو و ربات Slurpبینگ BingBotو غیره را شناسایی می کنند.

این user-agentرکورد شروع یک گروه از بخشنامه ها را تعریف می کند. همه دستورالعمل های بین رکورد اول user-agentو بعدی user-agentبه عنوان دستورالعمل برای اولین بار تلقی می شوند user-agent.

بخشنامه ها می توانند در مورد عوامل خاص کاربر اعمال شوند ، اما می توانند برای همه نمایندگان کاربر نیز کاربرد داشته باشند. در این حالت از یک کارت ویزیت استفاده می شود User-agent: *:.

دستورالعمل را در robots.txt اجازه ندهید

شما می توانید به موتورهای جستجو بگویید که به پرونده ها ، صفحات یا بخش های خاصی از وب سایت خود دسترسی ندارند. این کار با استفاده از Disallowبخشنامه انجام می شود . این Disallowبخشنامه دنبال می شود pathکه نباید به آن دسترسی پیدا کرد. در صورت عدم pathتعریف ، این بخشنامه نادیده گرفته می شود.

مثال

User-agent: *
Disallow: /wp-admin/

در این مثال به کلیه موتورهای جستجو گفته شده است که به فهرست دسترسی نداشته باشند /wp-admin/.

دستورالعمل را در robots.txt مجاز کنید

از این Allowبخشنامه برای مقابله با Disallowبخشنامه استفاده می شود. این Allowدستورالعمل توسط گوگل و بینگ پشتیبانی می شود. با استفاده از دستورالعمل ها Allowو Disallowدستورالعمل ها می توانید به موتورهای جستجو بگویید که می توانند به یک فایل یا صفحه خاص در یک فهرست دسترسی پیدا کنند که در غیر این صورت مجاز نیست. این Allowدستورالعمل توسط pathقابل دسترسی دنبال می شود. اگر هیچ pathتعریف نشده باشد ، بخشنامه نادیده گرفته می شود.

مثال

User-agent: *
Allow: /media/terms-and-conditions.pdf
Disallow: /media/

در مثال بالا به کلیه موتورهای جستجو مجاز نیستند به فهرست دسترسی داشته باشند /media/، به جز پرونده /media/terms-and-conditions.pdf.

مهم: هنگام استفاده Allowو Disallowدستورالعمل ها با هم ، مطمئن شوید که از کارت های وحشی استفاده نمی کنید زیرا این ممکن است منجر به مغایرت دستورالعمل ها شود.

نمونه ای از بخشنامه های متناقض

User-agent: *
Allow: /directory
Disallow: *.html

موتورهای جستجو نمی دانند با URL چه کار کنند http://www.domain.com/directory.html. برای آنها مشخص نیست که آیا اجازه دسترسی دارند. وقتی دستورالعمل ها برای گوگل روشن نیستند ، با کمترین محدودیت دستورالعمل روبرو می شوند ، که در این حالت به معنای دسترسی واقعی آنها است

مطلب زیر بخوانید

سئو محلی چیست یک راهنمای ساده برای SEO محلی

نتیجه

ما اهمیت /robots.txt را در وب سایت خود ، نحو آنها و آنچه می توانیم با آن در مزایای وب سایت خود انجام دهیم ، دیدیم. ما همچنین شاهد استفاده از متا تگ ربات ها و محدودیت های آن بودیم.

با این حال ، اگر از آن استفاده کنیم ، باید اطمینان حاصل کنیم که از آن به درستی استفاده می شود. یک فایل صحیح /robots.txt می تواند روبات های وب را از ایندکس کردن صفحات وب سایت ما مسدود کند ، یا با انتقادی جدی تر ، باید اطمینان حاصل کنیم که صفحاتی را که موتورهای جستجو برای رتبه بندی آنها مسدود می کنند مسدود نمی کنیم.

منبع:source

مطالب مشابه

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا