مهم (تخفیف درصد بالا): جهت حمایت از کاربران و کسب و کارهای آسیب دیده تا پایان امشب 50 و 90 درصد تخفیف فعال شد... جزئیات

Index Coverage گوگل؛ رفع خطاهای رایج ایندکس در کمترین زمان


Index-Coverage-Errors

Index Coverage گوگل؛ رفع خطاهای رایج ایندکس در کمترین زمان

اگر صاحب وب سایت هستید یا در حوزه سئو فعالیت می‌ کنید، احتمالا با خطاهای مربوط به Index Coverage در Google Search Console مواجه شده‌ اید. این خطاها می‌ توانند باعث شوند برخی از صفحات ارزشمند سایت شما در نتایج جستجوی گوگل ظاهر نشوند و در نتیجه، ترافیک ارگانیک سایت کاهش یابد.

خوشبختانه، با شناخت دقیق دلایل این مشکلات و بکارگیری راه حل های مناسب، می‌ توانید به سرعت آنها را شناسایی و رفع کرده تا عملکرد سایت خود را بهبود دهید.

گزارش Index Coverage در Google Search Console به شما بازخوردی درباره فرآیند Crawl و Index شدن صفحات سایت میده.

مشکلات گزارش شده به چهار وضعیت مختلف تقسیم میشن:

  • Valid
  • Valid with warnings
  • Error
  • Excluded

هر وضعیت شامل نوع های مختلفی از مشکل هاست که به شکل دقیق تر نشون میدن گوگل چه موردی رو توی سایت شما پیدا کرده.

همونطور که میدونید، Google Search Console یکی از ابزارهای ضروری برای هر کسیه که در حوزه سئو کار میکنه.

یکی از کارهایی که GSC انجام میده اینه که عملکرد ارگانیک سایت شما و وضعیت Crawl و Index شدن صفحات رو گزارش میده. موضوع دوم از طریق گزارش Index Coverage پوشش داده میشه که تمرکز این مطلب دقیقا روی همین گزارشه.

بعد از خوندن این مطلب، یه درک کامل از این پیدا میکنید که چطور از گزارش Index Coverage استفاده کنید تا عملکرد سئوی سایتتون بهتر بشه.

index-learnfiles1

قبل از اینکه بریم سر اصل مطلب، یه مرور سریع داشته باشیم روی مراحل: کشف (Discovering)، خزیدن (Crawling) و ایندکس (Indexing):

Discovering

برای اینکه یه موتور جستجو بتونه یه URL رو Crawl کنه، اول باید اون رو کشف کنه. این کشف میتونه از طریق روش های مختلفی انجام بشه مثل دنبال کردن لینک ها از صفحات دیگه (چه داخلی و چه خارجی) یا بررسی نقشه سایت XML URL هایی که کشف میشن، وارد صف انتظار برای Crawl میشن.

Crawling

توی مرحله خزیدن، موتورهای جستجو URL ها رو درخواست میدن و اطلاعاتشون رو جمع آوری میکنن. وقتی یه URL دریافت شد، تحویل Indexer داده میشه تا وارد مرحله Indexing بشه.

Indexing

توی این مرحله، موتور جستجو سعی میکنه اطلاعاتی که از مرحله Crawl به دست اومده رو تجزیه و تحلیل و درک کنه. ساده بگیم، توی مرحله Indexing مشخص میشه اون URL چقدر برای کوئری های مختلف مرتبط و با اعتباره. وقتی URL ها ایندکس میشن، قابلیت این رو دارن که توی نتایج موتور جستجو (SERPs) نمایش داده بشن.

یه لحظه اینو تو ذهنتون نگه دارید یعنی صفحات شما فقط وقتی میتونن توی SERPs ظاهر بشن که مرحله آخر یعنی Indexing با موفقیت انجام شده باشه.

گزارش Index Coverage در Google Search Console چیست؟

وقتی گوگل داره سایت شما رو Crawl و Index میکنه، نتایج این فرآیند رو ثبت و در قالب گزارش Index Coverage توی Google Search Console نمایش میده.

در واقع این گزارش، نوعی بازخورد فنی درباره جزئیات تکنیکی فرآیند Crawl و Index شدن صفحات سایت شما هست. اگه مشکلی جدی شناسایی بشه، گوگل برای شما نوتیفیکیشن میفرسته.

(یه پشنهاد عالی): اگر میخوای تحلیل، بهینه‌ سازی و رتبه گرفتن در گوگل رو اصولی یاد بگیری؛ پیشنهاد میکنم همین حالا آموزش 0 تا 100 سئو رو با درصد تخفیف بالا تهیه کنی و صدرنشین موتورهای جستجو باشی. برای ورود به دوره اینجا رو کلیک کن.

البته این نوتیفیکیشن ها معمولا با تاخیر ارسال میشن، پس بهتره فقط به اونا اکتفا نکنید و خودتون گزارش رو به شکل منظم بررسی کنید تا از مشکلات مهم سئو باخبر بشید.

بازخورد گوگل در این گزارش به چهار وضعیت دسته بندی میشه:

  • Valid
  • Valid with warnings
  • Excluded
  • Error

چه زمانی باید از گزارش Index Coverage استفاده کنید؟

گوگل میگه اگه سایت شما کمتر از ۵۰۰ صفحه داره، احتمالا نیازی به استفاده از گزارش Index Coverage ندارید. برای این نوع سایت ها، گوگل پیشنهاد میکنه از عملگر site استفاده کنید.

اما ما کاملا با این نظر مخالفیم.

اگه ترافیک ارگانیک از گوگل برای کسب و کار شما مهمه، شما نیاز دارید از گزارش Index Coverage استفاده کنید چون این گزارش اطلاعات دقیق‌ تری ارائه میده و خیلی قابل اعتمادتر از استفاده از عملگر site برای بررسی مشکلات ایندکس شدن هست.

توضیح گزارش Index Coverage

گزارش Index Coverage در سرچ کنسول، وضعیت ایندکس شدن صفحات سایت را نمایش می‌ دهد و به شناسایی خطاها و مشکلات فنی کمک می‌ کند.

index-learnfiles2

اسکرین شاتی که بالا دیدید مربوط به یه سایت نسبتاً بزرگه که چالش های فنی جالبی داره.

برای پیدا کردن گزارش Index Coverage سایت خودتون، مراحل زیر رو دنبال کنید:

  1. وارد Google Search Console بشید
  2. یک Property انتخاب کنید
  3. از منوی سمت چپ، زیر بخش Index روی گزینه Coverage کلیک کنید

گزارش Index Coverage چهار وضعیت مختلف رو از هم تفکیک میکنه:

  • Valid: صفحاتی که ایندکس شدن
  • Valid with warnings: صفحاتی که ایندکس شدن ولی مشکلاتی دارن که بهتره بررسیشون کنید
  • Excluded: صفحاتی که ایندکس نشدن چون سیگنال های مشخصی از طرف سایت دریافت شده که نباید ایندکس بشن
  • Error: صفحاتی که به دلایلی قابل ایندکس شدن نبودن

هر وضعیت شامل یک یا چند نوع مشکل هست. در ادامه میخوایم توضیح بدیم که هر نوع چیه، آیا نیاز به اقدام داره یا نه و اگه داره باید چه کاری انجام بدید.

گزارش Index Coverage یه نمای کلی فوق العاده به شما میده و کمک میکنه بهتر بفهمید که گوگل چطور سایت شما رو میبینه. یکی از کارهایی که معمولا نادیده گرفته میشه، بررسی صفحات Valid در Search Console هست. این کار باعث میشه بفهمید آیا صفحاتی دارن ایندکس میشن که نباید ایندکس بشن یا نه.

ما خیلی وقت ها میبینیم که صفحات دارای پارامتر URL کنار نسخه های Canonical ایندکس میشن که این موضوع باعث ایجاد مشکل های تکراری شدن محتوا (Duplicate Content) و استفاده غیر بهینه از Crawl Budget میشه.

وقتی این صفحات رو شناسایی کردید، میتونید از ابزار URL Parameters توی Search Console استفاده کنید تا به گوگل بگید با این صفحات چطور برخورد کنه و اگه لازم بود اون ها رو از Crawl شدن بلاک کنید. این کار باعث میشه دید دقیق تری نسبت به ساختار سایت و نحوه رفتار گوگل با صفحاتتون داشته باشید.

Valid URLs

همونطور که قبلا گفتیم، URL های Valid صفحاتی هستن که ایندکس شدن. دو نوع زیر مجموعه وضعیت “Valid” محسوب میشن: Indexed, not submitted in sitemap ،Submitted and indexed

Submitted and indexed

این URL ها از طریق نقشه سایت XML ارسال شدن و بعدش توسط گوگل ایندکس شدن.

Indexed, not submitted in sitemap

این URL ها از طریق نقشه سایت ارسال نشده بودن ولی گوگل به هر حال اون ها رو پیدا کرده و ایندکس کرده.

حالا بررسی کنید که آیا این URL ها واقعا باید ایندکس بشن یا نه؟

اگه باید ایندکس بشن، اون ها رو به نقشه سایت اضافه کنید. اگه نباید ایندکس بشن، مطمئن بشید که از دستور noindex توی تگ های HTML استفاده شده و اگه ممکنه باعث مصرف غیرضروری از Crawl Budget بشن، توی فایل robots.txt هم اون ها رو بلاک کنید.

برای مطالعه بیشتر در زمینه تگ های HTML، پیشنهاد میشه مقاله «تگ های HTML» رو مطالعه کنید.

نکته : اگه نقشه سایت XML دارید ولی اون رو توی Google Search Console ثبت نکردید، تمام URL ها با نوع “Indexed, not submitted in sitemap” گزارش میشن که ممکنه یه مقدار گیج کننده باشه.

برای سایت های بزرگ مثلا با بیش از ۱۰,۰۰۰ صفحه، منطقیه که نقشه سایت رو به چند بخش کوچکتر تقسیم کنید. این کار باعث میشه خیلی سریع تر بتونید مشکلات ایندکس شدن رو توی هر بخش یا نوع محتوای خاص تشخیص بدید.

اضافه کردن نقشه سایت XML به ازای هر پوشه یا زیر مجموعه ای از صفحات باعث میشه داده های شما دقیق تر و جزئی تر بشه.

در نظر داشته باشید که اکثر گزارش های Google Search Console محدودیت در تعداد ارورها و پیشنهادهایی که نمایش میدن دارن؛ پس داشتن چند نقشه سایت جداگانه به شما این امکان رو میده که اطلاعات دقیق تر و قابل کنترل تری دریافت کنید.

گزارش Index Coverage یکی از بهترین بخش های نسخه جدید Google Search Console هست. برای سایت هایی که یه نقشه سایت XML بروز دارن، مورد “Indexed, not submitted in sitemap” میتونه بینش های جالبی به شما بده.

مثلا گوگل داره کدوم URL ها رو ایندکس میکنه که نباید ایندکس بشن؟ الگوهای تکراری بین اون ها چی هست؟

با استفاده از فیلتر داخل گزارش میتونید الگوهای رایج URL ها رو دسته بندی کنید و حجم URL های تحت تاثیر رو در پایین گزارش بررسی کنید.

اگه یه بخش خاص از سایت تاثیر زیادی گرفته باشه، میتونید برید سراغ گزارش وضعیت “Excluded” تا علت اصلی ایندکس نشدن یا ایندکس اشتباه URL ها رو پیدا کنید. مثلا ممکنه گوگل یه Canonical دیگه رو انتخاب کرده باشه یا ریدایرکت ها باعث مشکل در ایندکس شدن شده باشن.

URL Valid با هشدار (Valid with warnings)

وضعیت “Valid with warnings” فقط شامل دو نوع هست:

Indexed without content ،Indexed, though blocked by robots.txt

Indexed, though blocked by robots.txt

گوگل این URL ها رو ایندکس کرده، در حالی که توی فایل robots.txt بلاک شده بودن. به طور معمول گوگل نباید این URL ها رو ایندکس میکرد ولی چون لینک هایی به این صفحات پیدا کرده، تصمیم گرفته که اون ها رو ایندکس کنه. احتمال داره که Snippet هایی که برای این صفحات نشون داده میشه کیفیت خوبی نداشته باشه.

این URL ها رو بررسی کنید، فایل robots.txt رو بروزرسانی کنید و در صورت لزوم از دستور noindex برای جلوگیری از ایندکس شدن اون ها استفاده کنید.

Indexed without content

گوگل این URL ها رو ایندکس کرده اما هیچ محتوایی روی اون ها پیدا نکرده. دلایل احتمالی این اتفاق میتونه شامل موارد زیر باشه:

  • گوگل نتونسته صفحه رو رندر کنه چون بلاک شده یا مثلا کد وضعیت HTTP مثل 403 دریافت کرده
  • محتوا توی فرمتی بوده که گوگل ایندکسش نمیکنه
  • یه صفحه خالی منتشر شده
  • Cloaking

برای مطالعه بیشتر در زمینه Cloaking، پیشنهاد میشه مقاله «Cloaking در سئو» رو مطالعه کنید.

این URL ها رو بررسی کنید تا مطمئن بشید واقعا خالی هستن یا نه. از مرورگر خودتون و ابزار URL Inspection توی Google Search Console استفاده کنید تا ببینید گوگل موقع درخواست این صفحات چی میبینه. اگه همه چیز درست به نظر میرسه، فقط درخواست ایندکس مجدد (Request Indexing) بدید.

Excluded URLs

وضعیت “Excluded” شامل نوع های زیر میشه:

  • Alternate page with proper canonical tag
  • Blocked by page removal tool
  • Blocked by robots.txt
  • Blocked due to access forbidden (403)
  • Blocked due to other 4xx issue
  • Blocked due to unauthorized request (401)
  • Crawl anomaly
  • Crawled – currently not indexed
  • Discovered – currently not indexed
  • Duplicate without user-selected canonical
  • Duplicate, Google chose different canonical than user
  • Duplicate, submitted URL not selected as canonical
  • Excluded by ‘noindex’ tag
  • Not found (404)
  • Page removed because of legal complaint
  • Page with redirect
  • Soft 404

بخش “Excluded” در گزارش Coverage خیلی سریع تبدیل شده به یکی از منابع کلیدی برای بررسی های سئو، مخصوصا وقتی میخواید صفحات دارای مشکلات فنی یا محتوایی رو شناسایی و اولویت بندی کنید.

چند نمونه از کاربردهای مهم این بخش:

  • شناسایی URL هایی که مشکل Crawl یا Index دارن و ممکنه توی شبیه سازی های Crawl شخصی شما مشخص نشن، مخصوصا وقتی به فایل های لاگ دسترسی ندارید که بتونید صحت اطلاعات رو بررسی کنید
  • کمک به اولویت بندی بهینه سازی فنی و محتوایی، با توجه به اینکه گوگل دقیقا کجا داره مشکل میبینه، چه درصدی از صفحات دارن Crawl Budget سایت رو هدر میدن، کدوم صفحات به خاطر کیفیت پایین ایندکس نمیشن، و کدوم ارورها باعث تجربه کاربری ضعیف شدن
  • تایید این موضوع که توی سناریوهای تکرار محتوا (Duplicate Content) که فکر میکردید با تگ Canonical رفع شدن، گوگل هنوز اون ها رو نادیده گرفته و چون لینک هایی به اون صفحات با سیگنال های مختلف وجود داره، هنوز اون ها رو بررسی میکنه، الان میتونید اون موارد رو هم پیدا کنید و برطرفشون کنید
  • شناسایی صفحات دارای مشکل Soft 404 که ممکنه از دید شما پنهون مونده باشن

این اطلاعات به شما کمک میکنه تصمیم های دقیق تر، سریع تر و هدفمندتری برای بهینه سازی سایتتون بگیرید.

Alternate page with proper canonical tag

این URL ها نسخه های تکراری از صفحات دیگه هستن و به درستی با تگ canonical به نسخه اصلی اشاره کردن.

اگه این صفحات نباید canonical بشن، تگ canonical اون ها رو تغییر بدید و به خودشون اشاره بدید (self-referencing). همچنین حواستون به تعداد صفحات موجود در این بخش باشه. اگه تعداد این صفحات زیاد شده ولی تعداد صفحات قابل ایندکس سایت تغییر خاصی نکرده، ممکنه با ساختار لینک دهی داخلی ضعیف یا مشکل در مصرف Crawl Budget مواجه باشید.

Blocked by page removal tool

این URL ها به خاطر درخواست حذف URL، فعلا توی نتایج جستجوی گوگل نمایش داده نمیشن. وقتی یه URL به این شکل پنهان میشه، فقط برای ۹۰ روز از نتایج گوگل مخفی میمونه. بعد از اون مدت، ممکنه دوباره توسط گوگل ایندکس بشه و ظاهر بشه.

ابزار حذف URL فقط باید به عنوان یه راه حل موقت و سریع برای پنهان کردن صفحات استفاده بشه. همیشه پیشنهاد میشه اقدامات دیگه‌ ای هم انجام بدید تا واقعا از ظاهر شدن مجدد این صفحات جلوگیری کنید.

از طریق دستور noindex به گوگل سیگنال واضح بدید که نباید این URL ها رو ایندکس کنه و مطمئن بشید که قبل از تموم شدن اون ۹۰ روز، گوگل این صفحات رو دوباره Crawl کنه.

Blocked by robots.txt

این URL ها توسط فایل robots.txt سایت شما بلاک شدن و توسط گوگل ایندکس نشدن یعنی گوگل سیگنال های کافی برای ایندکس کردن اون ها دریافت نکرده. اگه سیگنال ها قوی بودن، این URL ها تحت وضعیت “Indexed, though blocked by robots.txt” نمایش داده میشدن.

مطمئن بشید که بین این URL ها هیچ صفحه مهمی وجود نداشته باشه.

Blocked due to access forbidden (403)

گوگل نتونسته به این URL ها دسترسی پیدا کنه و کد پاسخ 403 دریافت کرده.

مطمئن بشید که گوگل و موتورهای جستجوی دیگه به URL هایی که میخواید رتبه بگیرن، دسترسی کامل دارن. اگه URL هایی که نمیخواید رتبه بگیرن توی این لیست هستن، بهتره که از دستور noindex (توی کد HTML یا هدر HTTP) استفاده کنید.

Blocked due to other 4xx issue

گوگل نتونسته به این URL ها دسترسی پیدا کنه چون اون ها کدهای پاسخ 4xx غیر از 401، 403 و 404 دریافت کردن. مثلا URL های اشتباه یا ناقص ممکنه کد 400 برگردونن.

این URL ها رو با ابزار URL Inspection بررسی کنید تا ببینید میتونید این رفتار رو بازسازی کنید یا نه. اگه این URL ها براتون مهم هستن، علت مشکل رو پیدا و برطرف کنید و اون ها رو به نقشه سایت اضافه کنید. اگه نمیخواید این URL ها ایندکس بشن، مطمئن بشید که هیچ لینکی (داخلی یا خارجی) به اون ها وجود نداره.

Blocked due to unauthorized request (401)

این URL ها برای گوگل قابل دسترسی نبودن چون گوگل بعد از درخواست این صفحات، کد پاسخ 401 دریافت کرده که یعنی مجاز به دسترسی نبوده. این مورد معمولا برای محیط های تست (Staging) اتفاق میفته که با احراز هویت HTTP از دسترسی عمومی محافظت میشن.

مطمئن بشید که هیچ URL مهمی توی این لیست وجود نداره. اگه وجود داره، دلیلش رو بررسی کنید چون این یه مشکل جدی سئو محسوب میشه. اگه محیط تست شما اینجا لیست شده، بررسی کنید که گوگل چطور اون رو پیدا کرده و هرگونه لینک داخلی یا خارجی به اون رو حذف کنید.

یادتون باشه: اگه موتورهای جستجو به اون لینک ها دسترسی پیدا کردن، احتمال داره کاربران هم بتونن بهشون دسترسی پیدا کنن.

Crawl anomaly

نکته : نوع Crawl anomaly بازنشسته شده

با بروزرسانی Index Coverage در ژانویه 2021، نوع مشکل Crawl anomaly حذف شده. به جای اون، حالا مشکل ها به شکل دقیق تری دسته بندی میشن، مثل:

  • Blocked due to other 4xx issue
  • Blocked due to access forbidden (403)
  • Submitted URL blocked due to other 4xx issue
  • Submitted URL returned 403

این URL ها ایندکس نشدن چون گوگل موقع درخواست اون ها با یه “Crawl anomaly” مواجه شده. این نوع مشکل معمولا به این معنیه که کدهای پاسخ 4xx یا 5xx دریافت شده که توی گزارش Index Coverage نوع اختصاصی خودشون رو ندارن.

index-learnfiles3

با استفاده از ابزار URL Inspection چند تا از این URL ها رو بررسی کنید تا ببینید میتونید مشکل رو بازسازی کنید یا نه. اگه تونستید، بررسی کنید که دقیقا چه مشکلی وجود داره. اگه هیچ مشکلی پیدا نکردید و همه چیز درست کار میکنه، فقط اون ها رو زیر نظر داشته باشید چون ممکنه این یه مشکل موقتی بوده باشه.

Crawled – currently not indexed

این URL ها توسط گوگل Crawl شدن اما هنوز ایندکس نشدن. دلایل احتمالی برای اینکه یه URL با این وضعیت نشون داده بشه:

  • URL به تازگی Crawl شده و هنوز نوبت ایندکس شدنش نرسیده
  • گوگل از وجود این URL باخبره ولی اون رو به اندازه کافی مهم تشخیص نداده که ایندکسش کنه مثلا به این خاطر که لینک داخلی کمی داره یا اصلا نداره، محتواش تکراریه یا خیلی ضعیفه (Thin Content)
index-learnfiles4

مطمئن بشید که بین این URL ها هیچ صفحه مهمی وجود نداره. اگه صفحه مهمی پیدا کردید، بررسی کنید که چه زمانی Crawl شده. اگه زمان Crawl خیلی اخیر بوده و شما میدونید که اون URL لینک داخلی کافی برای ایندکس شدن داره، احتمالا به زودی ایندکس میشه و جای نگرانی نیست.

“Crawled – currently not indexed” یکی از گزارش هایی در Search Console هست که بالاترین پتانسیل برای اقدام عملی رو داره.

متاسفانه، بررسی این گزارش مثل بازی کارآگاهیه چون گوگل هیچ وقت دقیق به شما نمیگه چرا یه URL ایندکس نشده.

دلایل ممکنه شامل موارد زیر باشن:

  • محتوای ضعیف (Thin Content)
  • کیفیت پایین
  • محتوای تکراری
  • صفحه بندی (Pagination)
  • ریدایرکت
  • یا اینکه گوگل به تازگی صفحه رو کشف کرده و به زودی ایندکسش میکنه

اگه شما تشخیص دادید که اون صفحه واقعا مهمه و باید ایندکس بشه، این دقیقا فرصت شما برای اقدام کردنه.

Discovered – currently not indexed

این URL ها توسط گوگل شناسایی شدن اما هنوز Crawl و در نتیجه ایندکس نشدن یعنی گوگل از وجودشون باخبره و اون ها رو توی صف Crawl قرار داده.

این وضعیت میتونه به این دلایل اتفاق افتاده باشه:

  • گوگل درخواست Crawl این URL ها رو داده اما نتونسته موفق بشه مثلا چون سرور سایت در اون لحظه بار زیادی داشته
  • یا اینکه هنوز نوبت Crawl شدن این صفحات نرسیده و گوگل فعلا بهشون نرسیده
index-learnfiles5

این مورد رو زیر نظر داشته باشید. اگه تعداد URL های این بخش داره زیاد میشه، ممکنه با مشکل Crawl Budget مواجه شده باشید یعنی سایت شما از گوگل توجه بیشتری میخواد اما گوگل حاضر نیست اینقدر زمان و منابع براش صرف کنه.

این موضوع میتونه به دلایلی مثل موارد زیر باشه:

  • اعتبار دامنه سایت پایین باشه
  • سایت کند باشه
  • یا اغلب اوقات در دسترس نباشه (Down یا دچار ارور سرور)

این وضعیت برای URL ها تا حدی، جزئی طبیعی از فرآیند گوگل هست و یادتون باشه که این گزارش ممکنه کمی از وضعیت واقعی عقب تر باشه.

همیشه ابتدا با ابزار URL Inspection بررسی کنید که وضعیت واقعی URL چی هست و اگه دیدید تعداد زیادی از صفحات مهم توی این بخش گیر کردن، باید خیلی دقیق بررسی کنید که گوگل داره دقیقا چی رو Crawl میکنه (تو این مرحله فایل های لاگ سرور میتونن خیلی بهتون کمک کنن).

بررسی کنید که آیا گوگل داره توی بخش هایی با ارزش پایین گیر میکنه یا نه، مثلا:

  • ترکیب های مختلف فیلترها
  • تقویم های رویداد که باعث تولید بی نهایت URL تکراری یا مشابه میشن

اگه Crawl Budget گوگل صرف این صفحات کم ارزش بشه، صفحات مهم شما ممکنه دیرتر یا اصلا ایندکس نشن.

اگه دیدید تعداد زیادی از URL ها توی دسته “duplicate without user-selected canonical” قرار گرفتن، این میتونه نشونه یه مشکل سراسری در سایت باشه.

مثال هایی از این نوع مشکل:

  • تگ canonical اشتباه قرار گرفته باشه
  • تگ canonical توی بخش <head> شکسته یا ناقص باشه
  • یا اینکه توسط جاوااسکریپت به صورت ناخواسته تغییر کرده یا حذف شده باشه

این موارد میتونن باعث بشن گوگل نتونه تشخیص بده کدوم نسخه از صفحه رو ایندکس کنه و در نتیجه ممکنه اصلا ایندکس نکنه.

Duplicate, Google chose different canonical than user

گوگل این URL ها رو خودش پیدا کرده و اون ها رو محتوای تکراری تشخیص داده حتی با اینکه شما تگ canonical رو به نسخه دلخواه خودتون تنظیم کردید، گوگل اون رو نادیده گرفته و یه canonical دیگه انتخاب کرده. این اتفاق معمولا توی سایت های چند زبانه با صفحات خیلی شبیه به هم و محتوای ضعیف (Thin Content) دیده میشه.

با استفاده از ابزار URL Inspection بررسی کنید که گوگل کدوم URL رو به عنوان canonical انتخاب کرده و ببینید آیا این تصمیم منطقی هست یا نه، مثلا ممکنه گوگل یه canonical دیگه انتخاب کرده باشه چون اون نسخه لینک های بیشتری داره یا محتوای بیشتری روش هست.

این تصمیم خود گوگله که یه نسخه از صفحه رو انتخاب کنه و اون رو ایندکس کنه تا منابعش رو صرفه جویی کنه اما برای کسی که سئو کاره، اینکه گوگل انتخاب شما رو نادیده میگیره چیز خوشایندی نیست.

این مشکل معمولا وقتی اتفاق میفته که یه سایت محتوای مشابه با تغییرات جزئی برای بازارهای مختلف داره مثل لوکالایز کردن متن یا صفحات تکراری توی بخش های مختلف سایت وجود دارن. یادتون باشه که ویژگی hreflang فقط یه پیشنهاد برای گوگله نه یه دستور قطعی. پس این ویژگی لزوما مشکل شما رو حل نمیکنه.

ممکنه گوگل URL درستی رو نشون بده اما عنوان و توضیحات (Title و Meta Description) نسخه‌ ای رو نمایش بده که خودش به عنوان canonical انتخاب کرده.

متاسفانه Google Search Console راهی برای رفع مستقیم این مشکل نشون نمیده اما حداقل به شما نشون میده که یه مشکلی وجود داره و میتونید میزان گستردگی اون رو بسنجید.

چند راهکار پیشنهادی:

تولید محتوای کاملا یونیک برای صفحات. اگه hreflang به تنهایی کافی نیست یا قرار دادن تگ noindex روی نسخه های کپی این صفحات تا جلوی ایندکس شدنشون گرفته بشه.

Duplicate, submitted URL not selected as canonical

شما این URL ها رو از طریق نقشه سایت XML به گوگل معرفی کردید اما تگ canonical براشون تعریف نکردید. گوگل این URL ها رو به عنوان محتوای تکراری تشخیص داده و تصمیم گرفته خودش یه canonical برای اون ها انتخاب کنه.

(یه پشنهاد عالی): اگر میخوای یاد بگیری که چطور با محتوایی که مینویسی، گوگل رو تسخیر کنی؛ پیشنهاد میکنم همین حالا آموزش تخصصی تولید محتوا سئو شده رو با درصد تخفیف بالا تهیه کنی و حرفه ای برای موتورهای جستجو محتوا بنویسی. برای ورود به دوره اینجا رو کلیک کن.

دقت کنید که این مورد خیلی شبیه به “Duplicate, Google chose different canonical than user” هست ولی دو تفاوت مهم داره:

شما به‌ طور صریح از گوگل خواستید که این صفحات رو ایندکس کنه ولی خودتون هیچ canonical مشخص نکردید. برای این URL ها، تگ canonical مناسب تعریف کنید که به نسخه دلخواه و اصلی صفحه اشاره کنه. این کار باعث میشه گوگل متوجه بشه کدوم نسخه رو ایندکس کنه و از ایندکس کردن نسخه های تکراری جلوگیری بشه.

نکته: وقتی دارید یه مهاجرت سایت (Website Migration) انجام میدید، یکی از بهترین کارها اینه که نقشه سایت XML که شامل URL های قدیمی هست رو موقتا نگه دارید تا فرآیند مهاجرت سریع تر انجام بشه.

این URL های قدیمی تا زمانی که توی نقشه سایت باقی بمونن، تحت وضعیت “Duplicate, submitted URL not selected as canonical” نمایش داده میشن. وقتی اون ها رو از نقشه سایت حذف کنید، وضعیتشون به “Page with redirect” تغییر میکنه.

Excluded by ‘noindex’ tag

این URL ها توسط گوگل ایندکس نشدن چون دستور noindex داشتن (چه داخل سورس HTML یا در هدر HTTP). مطمئن بشید که بین این URL ها هیچ صفحه مهمی وجود نداره. اگه صفحه مهمی پیدا کردید، دستور noindex رو حذف کنید و با استفاده از ابزار URL Inspection درخواست ایندکس بدید.

همچنین بررسی کنید آیا لینک داخلی به این صفحات وجود داره یا نه چون معمولا نمیخواید صفحه هایی که noindex شدن به صورت عمومی در دسترس باشن. یادتون باشه اگه هدف شما اینه که یه صفحه کلا غیرقابل دسترس بشه، بهترین راه اینه که از احراز هویت HTTP (HTTP Authentication) استفاده کنید.

وقتی دارید بخش Excluded by ‘noindex’ tag رو بررسی می کنید، فقط این مهم نیست که صفحات مهم اشتباهی توی این لیست نباشن بلکه باید مطمئن بشید که صفحات کم‌ کیفیت (Low Quality) که باید noindex باشن، واقعا توی این گزارش قرار گرفتن.

اگه میدونید سایت شما مقدار زیادی محتوا تولید میکنه که باید تگ “noindex” داشته باشن، حتما بررسی کنید که این صفحات توی این گزارش لیست شده باشن. این یعنی تگ به درستی اعمال شده و گوگل هم اون رو شناسایی کرده.

Not found (404)

این URL ها توی نقشه سایت XML شما نبودن ولی گوگل به نحوی اونا رو پیدا کرده و نتونسته ایندکسشون کنه چون کد وضعیت HTTP 404 برگردوندن. احتمالش هست که گوگل این URL ها رو از طریق سایت های دیگه پیدا کرده باشه یا اینکه قبلا این صفحات وجود داشتن و بعدا حذف شدن.

مطمئن بشید که صفحات مهمی بین این URL ها نباشه. اگه صفحه مهمی پیدا کردید یا محتواش رو بازیابی کنید یا URL رو با ریدایرکت 301 به نزدیک ترین جایگزین مرتبط هدایت کنید. اگه URL رو به یه جایگزین واقعا مرتبط ریدایرکت نکنید، ممکنه گوگل اون رو به عنوان Soft 404 در نظر بگیره.

Page removed because of legal complaint

این URL ها به خاطر شکایت قانونی از ایندکس گوگل حذف شدن.

مطمئن بشید که از وجود تمام URL هایی که توی این لیست هستن باخبر باشید چون ممکنه کسی با نیت بد درخواست حذف اون ها رو از ایندکس گوگل داده باشه.

Page with redirect

این URL ها به صفحات دیگه ریدایرکت میشن و برای همین توسط گوگل ایندکس نمیشن.

Soft 404

این URL ها به عنوان خطای Soft 404 شناخته شدن. یعنی URL ها کد وضعیت HTTP 404 برنمیگردونن اما محتوای صفحه طوریه که نشون میده انگار واقعا صفحه ای وجود نداره. مثلا پیامی مثل “صفحه پیدا نشد” نشون داده میشه.

در بعضی موارد این ارورها به خاطر ریدایرکت هایی هستن که به صفحاتی اشاره میکنن که از نظر گوگل به اندازه کافی مرتبط نیستن مثلا یه صفحه محصول که به صفحه دسته بندی خودش ریدایرکت شده یا حتی به صفحه اصلی سایت.

اگه این URL ها واقعا باید خطای 404 باشن، حتما مطمئن بشید که کد وضعیت HTTP 404 برمیگردونن. اگه این صفحات اصلا 404 نیستن، مطمئن بشید که محتوای صفحه این موضوع رو نشون بده و کاربر رو گمراه نکنه.

توی سایت های فروشگاهی (E-commerce) خیلی وقت ها خطاهای Soft 404 دیده میشه. اکثر مواقع این مورد مشکلی ایجاد نمیکنه اما گاهی میتونه نشونه ای از این باشه که گوگل صفحات شما رو کم ارزش تلقی کرده.

پس همیشه یه نگاهی بندازید و بررسی کنید:

آیا محتوای صفحه منطقی و مفید هست؟

اگه URL رو ریدایرکت کردید، آیا مقصد اون واقعا مرتبط و درست انتخاب شده؟

این بررسی ها بهتون کمک میکنه مطمئن بشید که صفحات فروشگاهتون درست ایندکس میشن و ارزش خودشون رو از دست نمیدن.

URL های دارای وضعیت Error

وضعیت “Error” شامل انواع زیر هست:

Redirect error

Server error (5xx)

Submitted URL blocked by robots.txt

Submitted URL blocked due to other 4xx issue

Submitted URL has crawl issue

Submitted URL marked ‘noindex’

Submitted URL not found (404)

Submitted URL seems to be a Soft 404

Submitted URL returned 403

Submitted URL returns unauthorized request (401)

Redirect error

این URL هایی که ریدایرکت دارن، قابل Crawl شدن نیستن چون گوگل موقع دنبال کردن ریدایرکت ها به مشکل خورده. چند مثال از مشکلات احتمالی که ممکنه گوگل باهاش مواجه شده باشه:

  • Loop در ریدایرکت ها (ریدایرکت حلقه ای)
  • زنجیره ریدایرکت خیلی طولانی (گوگل فقط تا ۵ ریدایرکت رو در هر بار Crawl دنبال میکنه)
  • ریدایرکت به URL هایی که خیلی طولانی هستن
index-learnfiles6
نمایش زنجیره ریدایرکت

بررسی کنید که دقیقا چه مشکلی توی این ریدایرکت ها وجود داره و اون ها رو اصلاح کنید.

برای شروع، اینجا یه روش ساده هست تا کد وضعیت HTTP صفحات رو بررسی و شروع به دیباگ کردن کنید، از ابزارهایی مثل Redirect Checker یا DevTools مرورگر (تب Network) استفاده کنید تا ببینید هر URL چه کدی برمیگردونه و مسیر ریدایرکت چطوریه.

با این کار میتونید به راحتی ریشه مشکل رو پیدا و رفعش کنید.

Server error (5xx)

این URL ها به گوگل کد خطای 5xx برگردوندن که باعث شده گوگل نتونه اون صفحات رو Crawl کنه.

بررسی کنید که چرا این URL ها کد 5xx برمیگردونن و مشکل رو برطرف کنید. خیلی وقت ها این خطاها موقتی هستن و به این دلیل رخ میدن که سرور بیش از حد شلوغ بوده.

یادتون باشه User-Agent که درخواست رو ارسال میکنه میتونه روی کد وضعیت HTTP تاثیر بذاره، پس مطمئن بشید که بررسی هاتون رو با User-Agent گوگل‌بات (Googlebot) انجام میدید.

حتما فایل های لاگ سرور و تنظیمات محدودسازی نرخ درخواست ها (Rate Limiting) رو بررسی کنید. استفاده از نرم افزارهایی برای بلاک کردن ربات های مخرب یا اسکرپرها ممکنه باعث بشه ربات های موتور جستجو هم به اشتباه بلاک بشن.

در اکثر مواقع، این درخواست ها قبل از رسیدن به سرور و ثبت در لاگ ها مسدود میشن، پس حتما هر دو منبع رو بررسی کنید تا بتونید مشکل احتمالی رو دقیق شناسایی کنید.

Submitted URL blocked by robots.txt

شما این URL ها رو از طریق نقشه سایت XML به گوگل معرفی کردید اما به خاطر بلاک شدن توسط فایل robots.txt ایندکس نشدن.

این نوع خطا خیلی شبیه به دو نوع دیگه‌ ایه که قبلا توضیح دادیم اما تفاوت های کوچیکی بینشون وجود داره:

  • اگه این URL ها ایندکس میشدن، توی بخش “Indexed, though blocked by robots.txt” نشون داده میشدن.
  • اگه این URL ها ایندکس نشده بودن ولی از طریق نقشه سایت معرفی نشده بودن، توی نوع “Blocked by robots.txt” قرار می‌گرفتن.

این تفاوت ها شاید جزئی باشن ولی برای رفع مشکل و دیباگ دقیق خیلی مفیدن.

اگه URL های مهمی توی این لیست هستن، مطمئن بشید که توسط فایل robots.txt بلاک نشده باشن. برای این کار، یکی از URL ها رو انتخاب کنید و روی گزینه TEST ROBOTS.TXT BLOCKING در سمت راست کلیک کنید تا دستور مربوطه رو پیدا کنید.

اگه URL هایی هستن که نمیخواید گوگل بهشون دسترسی داشته باشه، باید اون ها رو از نقشه سایت XML حذف کنید.

ویژگی ‘Submitted URL blocked by robots.txt’ خیلی کمک میکنه بفهمیم کجا خراب کردیم و بهمون این فرصت رو میده که سریع درستش کنیم. این یکی از اولین چیزهایی هست که باید بعد از راه اندازی دوباره سایت یا انجام مهاجرت بررسی بشه.

سایت های بزرگ جمع آوری کننده محتوا (aggregator) یا فروشگاه های اینترنتی (e-commerce) معمولا بعد از راه اندازی نهایی، دایرکتوری های مهمی رو توی فایل robots.txt به اشتباه غیرفعال (disallow) میذارن. این بخش همچنین به خوبی نشون میده که کدوم نقشه های سایت XML قدیمی هستن و اونطور که باید بروز نمیشن.

Submitted URL blocked due to other 4xx issue

شما این URL ها رو از طریق یک نقشه سایت XML ارسال کردید اما گوگل کدهای وضعیت 4xx دریافت کرده که شامل 401، 403 یا 404 نبوده.

سعی کنید این URL ها رو با استفاده از ابزار URL inspection بررسی کنید تا ببینید میتونید مشکل رو بازتولید کنید یا نه. اگه تونستید، بررسی کنید مشکل از کجاست و درستش کنید. اگه این URL ها به درستی کار نمیکنن و نباید ایندکس بشن، اون ها رو از نقشه سایت XML حذف کنید.

Submitted URL has crawl issue

شما این URL ها رو از طریق نقشه سایت XML ارسال کردید اما گوگل با مشکلاتی هنگام خزیدن (crawl) مواجه شده. نوع “Submitted URL has crawl issue” مثل یه دسته عمومی برای خطاهای خزیدن هست که توی هیچ کدوم از دسته بندی های دیگه قرار نمیگیرن.

اغلب اوقات، این مشکلات خزیدن موقتی هستن و اگه دوباره بررسی بشن، یه طبقه بندی “عادی” مثل “Not found (404)” براشون نمایش داده میشه.

سعی کنید چند تا از این URL ها رو با ابزار URL inspection بررسی کنید تا ببینید میتونید مشکل رو بازتولید کنید یا نه. اگه تونستید، بررسی کنید مشکل چیه. اگه هیچ مشکلی پیدا نکردید و همه چیز درست کار میکنه فقط پیگیر بمونید چون ممکنه مشکل موقتی بوده باشه.

Submitted URL marked ‘noindex’

شما این URL ها رو از طریق نقشه سایت XML ارسال کردید اما این URL ها شامل دستور noindex هستن (یا توی کد HTML منبع یا توی هدر HTTP).

اگه URL های مهمی توی لیست هستن، مطمئن بشید که دستور noindex رو حذف میکنید. URL هایی که نباید ایندکس بشن، باید از نقشه سایت XML حذف بشن.

دستور noindex در robots، یکی از سیگنال های مختلفیه که مشخص میکنه آیا یک URL باید ایندکس بشه یا نه. مواردی مثل canonical ها، لینک های داخلی، ریدایرکت ها، تگ hreflang، نقشه سایت و… همه روی تفسیر این موضوع تاثیر میذارن. گوگل صرفا برای سرگرمی دستورات رو نادیده نمیگیره، در نهایت هدفش کمک کردنه!

وقتی سیگنال های متناقض وجود داشته باشه مثل وقتی که canonical و noindex همزمان روی یک صفحه باشن، گوگل باید انتخاب کنه که به کدوم راهنما عمل کنه. به طور کلی، گوگل بیشتر تمایل داره که canonical رو به noindex ترجیح بده.

Submitted URL not found (404)

شما این URL ها رو از طریق نقشه سایت XML ارسال کردید اما به نظر میاد که این URL ها وجود ندارن. این نوع خطا خیلی شبیه به نوع “Not found (404)” هست که قبلا در موردش صحبت کردیم، تنها تفاوت اینجاست که اینجا شما اون URL ها رو از طریق نقشه سایت ارسال کردید.

اگه URL های مهمی توی لیست هستن، محتوای اون ها رو بازیابی کنید یا با استفاده از ریدایرکت 301 اونا رو به نزدیک ترین جایگزین منتقل کنید. در غیر این صورت، این URL ها رو از نقشه سایت XML حذف کنید.

Submitted URL seems to be a Soft 404

شما این URL ها رو از طریق نقشه سایت XML ارسال کردید اما گوگل اون ها رو به عنوان “soft 404” در نظر گرفته. این URL ها ممکنه وضعیت HTTP 200 رو برگردونن، در حالی که در واقع یه صفحه 404 رو نمایش میدن، یا محتوای صفحه طوریه که این تصور رو ایجاد میکنه که صفحه وجود نداره.

این نوع خطا خیلی شبیه به نوع Soft 404 هست که قبلا بررسی کردیم، تنها تفاوت اینه که توی این حالت، شما URL ها رو از طریق نقشه سایت ارسال کردید.

اگه این URL ها واقعا 404 هستن، مطمئن بشید که وضعیت HTTP مناسب 404 برمیگردونن و از نقشه سایت XML حذف شدن. اگه این صفحات واقعا 404 نیستن، باید مطمئن بشید که محتوای صفحه این موضوع رو نشون میده.

Submitted URL returned 403

شما این URL ها رو از طریق نقشه سایت XML ارسال کردید اما گوگل اجازه دسترسی به اون ها رو نداشته و پاسخ HTTP 403 دریافت کرده.

این نوع خطا خیلی شبیه به مورد بعدیه، با این تفاوت که توی حالت پاسخ 401، گوگل انتظار وارد کردن اطلاعات ورود (login credentials) رو داشته.

اگه این URL ها قراره برای عموم قابل دسترس باشن، دسترسی آزاد به اون ها بدید. در غیر این صورت، اون ها رو از نقشه سایت XML حذف کنید.

Submitted URL returns unauthorized request (401)

شما این URL ها رو از طریق نقشه سایت XML ارسال کردید اما گوگل پاسخ HTTP 401 دریافت کرده یعنی اجازه دسترسی به این URL ها نداشته.

این حالت معمولا توی محیط های staging دیده میشه که از طریق احراز هویت HTTP (HTTP Authentication) برای عموم قابل دسترس نیستن.

این نوع خطا خیلی شبیه به نوع “Blocked due to unauthorized request (401)” هست که قبلا بهش پرداختیم، تنها تفاوت اینجاست که اینجا URL ها از طریق نقشه سایت ارسال شدن.

بررسی کنید که آیا کد وضعیت 401 به درستی برگردونده شده یا نه. اگه همینطوره، پس این URL ها باید از نقشه سایت XML حذف بشن. اگه نه، اجازه دسترسی گوگل به این URL ها رو فراهم کنید.

پرسش های متداول درباره گزارش Index Coverage

گزارش Index Coverage چه اطلاعاتی ارائه میده؟

گزارش Index Coverage بازخوردی از گوگل در مورد نحوه خزش (crawl) و ایندکس کردن سایت شما ارائه میده. این گزارش شامل اطلاعات ارزشمندی هست که میتونه به بهبود عملکرد SEO شما کمک کنه.

چه زمانی باید از گزارش Index Coverage استفاده کنید؟

در حالی که گوگل گفته این گزارش فقط برای سایت هایی با بیش از 500 صفحه مفید هست، ما پیشنهاد میکنیم هر کسی که ترافیک ارگانیک براش اهمیت داره ازش استفاده کنه. این گزارش اطلاعات خیلی دقیق تری ارائه میده و از ابزار site: برای بررسی مشکلات ایندکس بسیار قابل اعتمادتره، پس نباید از دستش بدید.

هر چند وقت یک بار باید گزارش Index Coverage رو بررسی کنم؟

این بستگی به وضعیت سایت شما داره. اگه یه سایت ساده با چند صد صفحه دارید، شاید ماهی یک بار کافی باشه. ولی اگه میلیون ها صفحه دارید و هر هفته هزاران صفحه جدید اضافه میشه، بهتره هر هفته مهم ترین انواع خطاها رو بررسی کنید.

چرا تعداد زیادی از صفحات من با وضعیت “Excluded” لیست شدن؟

دلایل مختلفی برای این موضوع وجود داره ولی اغلب میبینیم که بیشتر این URL ها، URL های canonical شده، URL های ریدایرکت شده یا URL هایی هستن که از طریق فایل robots.txt سایت مسدود شدن.

این موضوع مخصوصا برای سایت های بزرگ خیلی سریع افزایش پیدا میکنه.

از شما ممنونیم که تا انتها با ما همراه بودین، امیدواریم که این آموزش براتون مفید و کاربردی باشه، همچنین اگر سوال یا ابهامی وجود داشت، با ما در میان بگذارین.

نظرات کاربران

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

آموزش های پیشنهادی

نوشته های دیگر در دسته بندی مقالات آموزشی

مدل سازی سه بعدی در Unreal Engine 5

مدل سازی سه بعدی در Unreal Engine 5؛ نکات و ترفندهای کاربردی

مدل سازی سه بعدی در Unreal Engine 5 با ترفندهای حرفه ای
اسکرین شات با وضوح بالا

اسکرین شات در آنریل انجین 5؛ روش گرفتن تصاویر با کیفیت

اسکرین شات در آنریل انجین ۵؛ آموزش سریع ثبت تصاویر واضح و با کیفیت
آموزش هک

آموزش هک