Chuyên gia Semalt: Hướng dẫn ngăn Google thu thập dữ liệu trang web cũ

Khi trang web của bạn phát triển, bạn sẽ cố gắng hết sức để tìm cách cải thiện khả năng hiển thị và độ tin cậy của nó trên internet. Đôi khi, những ảnh hưởng của cách các trang web của chúng tôi sử dụng để hoạt động vẫn còn ở phía sau và đây là lúc chúng tôi nên chú ý.

Tìm hiểu các mẹo sau từ Max Bell, Giám đốc thành công của khách hàng của Semalt , để ngăn Google thu thập dữ liệu các trang web cũ.

Vài tuần trước, một trong những khách hàng của tôi nói với tôi rằng anh ta có một trang web thương mại điện tử. Nó đã trải qua nhiều thay đổi khác nhau: từ cấu trúc URL đến sơ đồ trang web, mọi thứ đã được sửa đổi để làm cho trang web hiển thị rõ hơn.

Khách hàng nhận thấy một số thay đổi trong Google Search Console của mình và tìm thấy lỗi Thu thập thông tin ở đó. Những gì ông quan sát thấy rằng có một số lượng lớn các URL cũ và mới đang tạo ra lưu lượng truy cập giả mạo. Tuy nhiên, một số trong số họ đã hiển thị lỗi Truy cập từ chối 403 và Không tìm thấy 404.

Khách hàng của tôi nói với tôi rằng vấn đề lớn nhất mà anh ta gặp phải là một sơ đồ trang web cũ tồn tại trong thư mục gốc. Trang web của anh ấy đã sử dụng nhiều plugin Google XML Sitemaps trước đây, nhưng bây giờ anh ấy phụ thuộc vào SEO SEO của Yoast cho sơ đồ trang web. Tuy nhiên, nhiều plugin sơ đồ trang web cũ khác nhau đã tạo ra một mớ hỗn độn cho anh ta. Chúng đã có mặt trong thư mục gốc có tên là sitemap.xml.gz. Vì anh ấy bắt đầu sử dụng các plugin Yoast để tạo sơ đồ trang web cho tất cả các bài đăng, danh mục trang và thẻ, anh ấy không cần các plugin đó nữa. Thật không may, người này đã không gửi sitemap.xml.gz đến Google Search Console. Anh ta chỉ gửi sơ đồ trang web Yoast của mình và Google cũng đang thu thập các sơ đồ trang web cũ của anh ta.

Bò cái gì?

Người này đã không xóa sơ đồ trang web cũ khỏi thư mục gốc, do đó cũng được lập chỉ mục. Tôi đã quay lại với anh ấy và giải thích rằng một sơ đồ trang web chỉ là một gợi ý về những gì nên được thu thập trong kết quả của công cụ tìm kiếm . Bạn có thể nghĩ rằng việc xóa các sơ đồ trang web cũ sẽ ngăn Google thu thập dữ liệu URL không còn tồn tại, nhưng điều đó không đúng. Kinh nghiệm của tôi nói rằng Google cố gắng lập chỉ mục cho mỗi URL cũ nhiều lần trong ngày, đảm bảo rằng các lỗi 404 là có thật và không phải là một tai nạn.

Googlebot có thể lưu trữ bộ nhớ của các liên kết cũ và mới mà nó sẽ tìm thấy trong sơ đồ trang web của trang web của bạn. Nó truy cập trang web của bạn theo định kỳ, đảm bảo rằng mọi trang đều được lập chỉ mục chính xác. Googlebot cố gắng đánh giá xem các liên kết hợp lệ hay không hợp lệ để khách truy cập không gặp phải bất kỳ vấn đề nào.

Rõ ràng là các quản trị web sẽ bị nhầm lẫn khi số lỗi Thu thập dữ liệu của họ tăng lên. Tất cả trong số họ muốn giảm nó đến một mức độ lớn. Làm cách nào để thông báo cho Google để bỏ qua tất cả các sơ đồ trang web cũ? Bạn có thể làm như vậy bằng cách tiêu diệt tất cả các lần thu thập thông tin trang web không mong muốn và lẻ. Trước đây, cách duy nhất để làm cho nó có thể là các tệp .htaccess. Cảm ơn WordPress đã cung cấp cho chúng tôi một số plugin.

Các trang web WordPress có tệp này trong các thư mục gốc của họ. Vì vậy, bạn chỉ cần truy cập FTP và kích hoạt các tệp ẩn trong cPanel. Đi đến tùy chọn Trình quản lý tệp để chỉnh sửa tệp này theo yêu cầu của bạn. Bạn không nên quên rằng chỉnh sửa sai có thể làm hỏng trang web của bạn, vì vậy bạn phải luôn sao lưu tất cả dữ liệu.

Khi bạn đã thêm đoạn mã vào tệp, tất cả các URL đã hết hạn sẽ biến mất khỏi Lỗi thu thập dữ liệu của bạn ngay lập tức. Bạn không nên quên rằng Google muốn bạn giữ cho trang web của bạn tồn tại, giảm khả năng xảy ra lỗi 404.

mass gmail