ربات گوگل Google-bot
دوستان عزیزم سلام. من ربات گوگل هستم که بهم گوگل بات Google-bot هم گفته میشه.
وظیفه من، کرال کردن و ایندکس کردن تمامی محتوای وب بر اساس الگوریتم هایی هست که توی گوگل برام تعریف شده.
از کجا منو بشناسی؟
من وقتی یه صفحه ای رو میبینم، مشخصم. میتونی من رو با این User-agent بشناسی:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Safari/537.36
Googlebot/2.1 (+http://www.google.com/bot.html)
و نسخه موبایلی من:
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
من مدل های دیگه ای هم دارم:
برای تصاویر:
Googlebot-Image/1.0
برای اخبار:
Googlebot-News
و برای ویدئو ها:
Googlebot-Video/1.0
در تاریخ 11 آپریل 2019 DeepCrawl متوجه شد که گوگل در حال استفاده تستی از موتور رندرینگ نسخه 69 از مرورگر Google Chrome است.
در تاریخ 24 سپتامبر 2019، گفته شد که گوگل بات، از آخرین نسخه استیبل گوگل کروم برای رندر کردن صفحات وبی که کرال میکند، استفاده می کند.
At @DeepCrawl we've been running tests to catch Google's updated WRS (using a vrs higher than Chrome 41) out in the wild since Google has talked about working on it.
— Ashley (@BermanHale) April 11, 2019
Now, any test is a SMALL sample - but @KiwiAlec found some cool things to share.https://t.co/fa63JhurgJ
Crawl کردن چیه؟
کرال کردن به اقدامی گفته میشه که من صفحات مختلف رو در تمام اینترنت، میخونم.
ایندکس کردن چیه؟
ایندکس گوگل، به فهرستی که گوگل از تمام محتوای روی وب داره گفته میشه. من محتوایی از سایت ها رو که تشخیص بدم خوبه، ایندکس می کنم و توی فهرستی قرار میدم که وقتی کسی جستجویی انجام میده، محتوای خوب رو که به نیازش برسه، دوستانم توی گوگل بهش نشون بدن.
چطوری صفحات رو کرال می کنم؟
من یه روزی، از یه صفحه ای توی اینترنت کارم رو شروع کردم و با استفاده از راه های دسترسی ای که به صفحات مختلف داشتم، اونا رو توی صف گذاشتم و به نوبت سراغشون میرم و کرالشون می کنم.
بعد از اینکه کارم تموم شد، میرم سراغ صفحه بعدی.
ممکنه یه صفحه ای رو در طول روی، چند صد بار کرال کنم.
راه هایی که من با استفاده از اونا صفحات رو پیدا می کنم، موارد زیادی هستن. مهم ترینشون ایناس
- نقشه سایت (Sitemap) ای که برای سایت ها توی کنسول جستجوی گوگل ثبت میشه.
پس مطمئن باشید یه نقشه سایت دارید و اون رو ثبت کنید.
- لینک هایی که از صفحات مختلف به هم داده میشه.
به هر صفحه از سایتتون حداقل یه لینک وجود داشته باشه که بتونم پیداش کنم.
آیا من سایت شما رو زیاد کرال میکنم؟ سرور شما کند شده و دچار مشکل شده؟
من همیشه سعی می کنم تا بهترین نرخ کرال کردن (Crawl rate) رو برای سایت شما انتخاب کنم. ولی ممکن است گاهی با سرعت زیاد کرال کردن، باعث کند شدن سرور سایت شما شوم یا به هر دلیلی نیاز به کم کردن نرخ کرال کردن من داشته باشید.
در این صورت، میتونید از کنسول جستجوی گوگل > بخش تنظیمات > Crawl rate سرعت و نرخ کرال کردن من رو کم کنید.
در حالت کلی این کار رو پیشنهاد نمی کنم. پس تا وقتی که دچار مشکل نشدید و از دلیل اون مشکل اطمینان حاصل نکردید، بزارید کارم رو به بهترین شکل انجام بدم.
چطور میشه جلوی دسترسی من رو به بخش های خاصی از سایتت بگیری؟
به هر دلیلی، از جمله اینکه نیازی نداشته باشی من مثلا به بخش هایی از سایتت مثل بخش کاربری، بخش مدیریت (ادمین ) و ... دسترسی نداشته باشم تا هم منابع سرورت حفظ بشه و هم من بیخودی معطل نشم، میتونی با استفاده از فایل robots.txt
جلوی دسترسی من رو به این بخش ها بگیری
User-agent: googlebot
Disallow: /admin/
Disallow: /profile/
Allow: /profile/*.jpg
فقط حواست باشه دسترسی من رو به فایل های مهم مثل تصویر پروفایل کاربرا و فایل هایی که برای دیدن کامل و رندر کردن صفحات به اون ها نیاز دارم مثل فایل های CSS و JS نگیری. چون بهت شک میکنم :D