Crawl Budget(ngân sách thu thập trang web) là một trong những khái niệm SEO dường như không được quan tâm đúng mức. Rất nhiều người trong chúng ta đã nghe về nó, nhưng chủ yếu chúng ta có xu hướng chấp nhận ngân sách thu thập dữ liệu, vì cho rằng chúng ta đã được chỉ định một hạn ngạch thu thập dữ liệu nhất định mà chúng ta ít có tác động.
Hầu hết các quản trị web không quan tâm nhiều về tốc độ thu thập dữ liệu. Nhưng nếu bạn điều hành một website quy mô lớn, ngân sách thu thập là điều chúng ta nên tối ưu hóa để thành công hơn với SEO.
Tất nhiên với SEO, mối quan hệ giữa ngân sách thu thập và xếp hạng không đơn giản. Vào tháng 1 năm 2017, Google đã xuất bản một bài đăng trên Blog Trung tâm quản trị trang web, nơi công cụ tìm kiếm nói rõ rằng việc tự thu thập thông tin không phải là một yếu tố xếp hạng. Nhưng theo một cách nào đó, ngân sách thu thập rất quan trọng đối với SEO.
Trong hướng dẫn này, tôi sẽ hướng dẫn bạn các khái niệm cơ bản liên quan đến thu thập thông tin, các cơ chế đằng sau cách các công cụ tìm kiếm phân bổ ngân sách thu thập dữ liệu cho các website và mẹo giúp bạn sử dụng ngân sách thu thập dữ liệu tốt nhất để tối đa hóa thứ hạng và lưu lượng truy cập không phải trả tiền .
Nội dung:
Crawl Budget (ngân sách thu thập dữ liệu) là gì?
Xác định ngân sách thu thập dữ liệu của bạn
Cách tối đa ngân sách thu thập dữ liệu của bạn
- Đảm bảo các trang quan trọng có thể thu thập dữ liệu và nội dung sẽ không cung cấp giá trị nếu tìm thấy trong tìm kiếm bị chặn
- Tránh các chuỗi chuyển hướng dài
- Quản lý tham số URL
- Tìm và sửa lỗi HTTP status
- Sử dụng RSS
- Giữ Sitemap của bạn sạch sẽ và cập nhật
- Chăm sóc cấu trúc website và liên kết nội bộ
Spider web: tốt và xấu
Spider web, trình thu thập thông tin hoặc bot, là các chương trình máy tính liên tục “truy cập” và thu thập dữ liệu các trang web để thu thập thông tin nhất định từ và về chúng.
Tùy thuộc vào mục đích thu thập thông tin, người ta có thể phân biệt các loại nhện sau:
- Search Engine spider,
- Web service spider,
- Hacker spiders.
Search Engine spider được quản lý bởi các công cụ tìm kiếm như Google, Yahoo hoặc Bing. Những con nhện như vậy tải xuống bất kỳ trang web nào chúng có thể tìm thấy và đưa chúng vào chỉ mục(Index) của công cụ tìm kiếm.
Web service spider: như công cụ SEO, mua sắm, du lịch và các trang web phiếu giảm giá, có các chỉ mục web và trình thu thập dữ liệu riêng. Ví dụ: WebMeUp có một con nhện tên là Blexbot. Blexbot thu thập tới 15 tỷ trang mỗi ngày để thu thập dữ liệu backlink và đưa dữ liệu đó vào chỉ mục liên kết của nó (dữ liệu được sử dụng trong SEO SpyGlass ).
Hacker spider: Họ sử dụng các con nhện để kiểm tra các trang web chống lại các lỗ hổng khác nhau. Khi họ tìm thấy kẽ hở, họ có thể cố gắng truy cập vào trang web hoặc máy chủ của bạn.
Bạn có thể nghe mọi người nói về những con nhện tốt và xấu. Tôi phân biệt chúng theo cách này: bất kỳ con nhện nào có mục đích thu thập thông tin với mục đích bất hợp pháp đều xấu. Tất cả phần còn lại là tốt.
Hầu hết các con nhện tự nhận mình với sự trợ giúp của chuỗi tác nhân người dùng và cung cấp URL nơi bạn có thể tìm hiểu thêm về con nhện:
- Mozilla / 5.0 (tương thích; Googlebot / 2.1; + http: //www.google.com/bot.html) hoặc
- Mozilla / 5.0 (tương thích; BLEXBot / 1.0; + http: //webmeup-crawler.com/).
Trong bài viết này, tôi sẽ tập trung vào các công cụ tìm kiếm và cách chúng thu thập dữ liệu trang web.
Crawl Budget (ngân sách thu thập dữ liệu) là gì?
Ngân sách thu thập là số lần nhện công cụ tìm kiếm truy cập trang web của bạn trong một khoảng thời gian nhất định.
Ví dụ: Googlebot thường truy cập trang web của tôi khoảng 1.000 lần mỗi tháng, tôi có thể nói rằng 1K là ngân sách thu thập dữ liệu hàng tháng của tôi cho Google.
Lưu ý rằng không có giới hạn chung về số lượng và tần suất của những lần thu thập thông tin này; chúng tôi sẽ nhận được các yếu tố hình thành ngân sách thu thập dữ liệu của bạn trong giây lát.
Tại sao ngân sách thu thập dữ liệu lại quan trọng?
Về mặt logic, bạn nên quan tâm đến việc ngân sách thu thập vì bạn muốn Google khám phá càng nhiều trang quan trọng của website càng tốt. Bạn cũng muốn nó nhanh chóng tìm thấy nội dung mới trên trang web của bạn. Ngân sách thu thập dữ liệu của bạn càng lớn (và bạn càng quản lý ngân sách thông minh hơn), điều này sẽ xảy ra càng nhanh.
Xác định ngân sách thu thập dữ liệu của bạn
Bạn có thể biết ý tưởng về ngân sách thu thập dữ liệu trang web của mình trong Google Search Console và Bing Webmaster Tools . Dữ liệu thu thập thông tin bạn sẽ nhận được trong các công cụ này rất chung chung, nhưng đủ cho bước này.
Giả sử, bạn cần xác định ngân sách thu thập dữ liệu Google. Đăng nhập vào tài khoản Search Console của bạn và đi đến Các công cụ báo cáo cũ -> Số liệu thống kê thu thập dữ liệu. Tại đây, bạn sẽ thấy số trang trung bình của trang được thu thập thông tin mỗi ngày.
Số liệu thống kê thu thập dữ liệu website SeoTheTop |
Từ báo cáo trên, tôi có thể thấy rằng trung bình, Google thu thập 4903 trang của trang web của tôi mỗi ngày. Từ đó, tôi có thể nhận ra rằng ngân sách thu thập dữ liệu hàng tháng của mình là 4903 * 30 = 147090.
Tất nhiên, con số đó dễ bị thay đổi và biến động. Nhưng nó sẽ cung cấp cho bạn một ý tưởng vững chắc về số lượng trang trên trang web của bạn mà bạn có thể mong đợi được thu thập thông tin trong một khoảng thời gian nhất định.
Nếu bạn cần phân tích chi tiết hơn về số liệu thống kê thu thập dữ liệu của mình theo từng trang, bạn sẽ phải phân tích dấu chân của con nhện trong nhật ký máy chủ của mình. Vị trí của các tệp nhật ký phụ thuộc vào cấu hình máy chủ. Apache thường lưu trữ chúng ở một trong những vị trí sau:
/var/log/httpd/access_log
/var/log/apache2/access.log
/var/log/httpd-access.log
Nếu bạn không chắc chắn làm thế nào để có quyền truy cập vào nhật ký máy chủ, hãy tìm kiếm sự trợ giúp từ quản trị viên hệ thống hoặc nhà cung cấp dịch vụ lưu trữ.
Các tệp nhật ký thô rất khó đọc và phân tích. Để hiểu được những điều đó, bạn sẽ cần các kỹ năng diễn đạt thông thường ở cấp độ Jedi hoặc các công cụ chuyên dụng. Tôi thích sử dụng WebLogExpert (họ có phiên bản dùng thử 30 ngày).
Ngân sách thu thập dữ liệu được chỉ định như thế nào?
Khi SEO đi, chúng tôi không biết chính xác làm thế nào các công cụ tìm kiếm hình thành ngân sách thu thập cho các trang web. Theo Google, công cụ tìm kiếm có tính đến hai yếu tố để xác định ngân sách thu thập dữ liệu:
- Mức độ phổ biến – các trang phổ biến hơn được thu thập thông tin thường xuyên hơn và
- Tính ổn định – Google không để thông tin về các trang bị cũ. Đối với quản trị trang web, điều đó có nghĩa là nếu nội dung của trang được cập nhật thường xuyên, Google sẽ cố gắng thu thập dữ liệu trang thường xuyên hơn.
Có vẻ như Google sử dụng thuật ngữ phổ biến để thay thế PageRank đã lỗi thời.
Quay trở lại năm 2010, Matt Cutts của Google đã nói như sau về chủ đề này:
“Số lượng trang mà chúng tôi thu thập được tỷ lệ thuận với PageRank của bạn”.
Mặc dù PageRank không còn được cập nhật công khai, nhưng vẫn an toàn khi cho rằng ngân sách thu thập dữ liệu của trang web tỷ lệ thuận với số lượng backlink và tầm quan trọng của website trong mắt của Google – điều hợp lý là Google đang tìm cách đảm bảo các trang quan trọng nhất vẫn là tươi nhất trong chỉ số của nó.
Còn liên kết nội bộ thì sao? Bạn có thể tăng tốc độ thu thập dữ liệu của một trang cụ thể bằng cách chỉ ra nhiều liên kết nội bộ hơn cho nó không?
Để trả lời những câu hỏi này, tôi quyết định kiểm tra mối tương quan giữa cả liên kết bên trong và bên ngoài và thống kê thu thập dữ liệu. Tôi đã thu thập dữ liệu cho 11 trang web và thực hiện một phân tích đơn giản. Tóm lại, đây là những gì tôi đã làm.
Phân tích
Mối tương quan mạnh mẽ giữa số lượt truy cập của nhện và số lượng liên kết bên ngoài(backlink). Đồng thời, mối tương quan giữa lượt truy cập của nhện và các liên kết bên trong tỏ ra rất yếu. Điều này cho thấy rằng các backlink rất quan trọng đối với việc thu thập dữ liệu trang web so với liên kết nội bộ.
Cách để tăng ngân sách thu thập dữ liệu của bạn là xây dựng liên kết và xuất bản nội dung mới? Nếu chúng ta đang nói về ngân sách cho toàn bộ trang web của bạn, tôi sẽ nói có: phát triển hồ sơ liên kết của bạn và cập nhật trang web thường xuyên và ngân sách thu thập dữ liệu của trang web của bạn sẽ tăng theo tỷ lệ thuận.
Nhưng khi chúng tôi lấy các trang riêng lẻ, đó là nơi nó trở nên thú vị. Như bạn sẽ tìm hiểu trong các cách thực hiện bên dưới, bạn có thể đang lãng phí rất nhiều ngân sách thu thập dữ liệu của mình mà không nhận ra. Bằng cách quản lý ngân sách của bạn một cách thông minh, bạn thường có thể tăng gấp đôi số lần thu thập dữ liệu cho từng trang riêng lẻ – nhưng nó vẫn sẽ tỷ lệ thuận với số lượng backlink của mỗi trang.
Cách tối đa ngân sách thu thập dữ liệu của bạn
Bây giờ chúng tôi đã nhận ra rằng thu thập thông tin rất quan trọng đối với việc lập chỉ mục, không phải đã đến lúc tập trung vào các cách tốt nhất để quản lý ngân sách thu thập dữ liệu của bạn cho niềm vui SEO tối thượng?
Có khá nhiều điều bạn nên (hoặc không nên) làm để cho phép các con nhện tìm kiếm tiêu thụ nhiều trang hơn trên trang web của bạn và làm điều đó thường xuyên hơn. Dưới đây là danh sách hành động để tối đa hóa sức mạnh của ngân sách thu thập dữ liệu của bạn:
1. Đảm bảo các trang quan trọng có thể thu thập dữ liệu và nội dung sẽ không cung cấp giá trị nếu tìm thấy trong tìm kiếm bị chặn.
.Htaccess và robot.txt của bạn không được chặn các trang quan trọng của website và các bot sẽ có thể truy cập các tệp CSS và Javascript. Đồng thời, bạn có thể và nên chặn nội dung mà bạn không muốn hiển thị trong tìm kiếm.
Các ứng cử viên tốt nhất để chặn là các trang có nội dung trùng lặp, các khu vực ‘đang được xây dựng’ trên trang web, các URL được tạo động, v.v.
Hãy nhớ rằng các công cụ tìm kiếm không phải lúc nào cũng tôn trọng các hướng dẫn có trong tệp robots.txt.
Mặc dù trang có trang bị chặn trong tệp robots.txt, Google vẫn biết về nó. Nó không lưu trữ bộ nhớ cache hoặc tạo một đoạn mã chuẩn cho nó. Tuy nhiên, đôi khi nó đánh nó. Đây là những gì Google nói về vấn đề này:
Robots.txt Disallow không đảm bảo rằng một trang sẽ không xuất hiện trong kết quả: Google vẫn có thể quyết định, dựa trên thông tin bên ngoài như các liên kết đến, rằng nó có liên quan. Nếu bạn muốn chặn một cách rõ ràng một trang khỏi bị lập chỉ mục, thay vào đó, bạn nên sử dụng thẻ meta của robot noindex hoặc tiêu đề HTTP X-Robots-Tag. Trong trường hợp này, bạn không nên không cho phép trang trong tệp robots.txt, vì trang phải được thu thập thông tin để thẻ được nhìn thấy và tuân theo.
Ngoài ra, nếu bạn không cho phép các khu vực lớn trên trang web của mình bằng cách chặn các thư mục hoặc sử dụng các hướng dẫn ký tự đại diện, Googlebot có thể cho rằng bạn đã nhầm lẫn và vẫn thu thập dữ liệu một số trang từ các khu vực bị hạn chế.
Vì vậy, nếu bạn đang cố gắng tiết kiệm ngân sách thu thập dữ liệu của mình và chặn các trang riêng lẻ mà bạn không cho là quan trọng, hãy sử dụng robot.txt. Nhưng nếu bạn không muốn Google biết về một trang – hãy sử dụng thẻ meta theo hướng dẫn của Google.
2. Tránh các chuỗi chuyển hướng dài.
Nếu có một số lượng vô lý 301 và 302 chuyển hướng liên tiếp trên trang web của bạn, các con nhện tìm kiếm sẽ dừng theo dõi các chuyển hướng tại một số điểm và trang đích có thể không được thu thập thông tin. Thêm vào đó, mỗi URL được chuyển hướng là một sự lãng phí “đơn vị” ngân sách thu thập dữ liệu của bạn. Hãy chắc chắn rằng bạn sử dụng chuyển hướng không quá hai lần liên tiếp và chỉ khi thực sự cần thiết.
3. Quản lý tham số URL.
Các hệ thống quản lý nội dung phổ biến tạo ra rất nhiều URL động mà trên thực tế dẫn đến một và cùng một trang. Theo mặc định, các bot công cụ tìm kiếm sẽ coi các URL này là các trang riêng biệt; do đó, bạn có thể vừa lãng phí ngân sách thu thập dữ liệu của mình và, có khả năng, gây lo ngại về sao chép nội dung.
Nếu công cụ hoặc CMS của trang web của bạn thêm các tham số vào các URL không ảnh hưởng đến nội dung của các trang, hãy đảm bảo bạn cho Googlebot biết về nó bằng cách thêm các tham số này vào tài khoản Google Search Console, trong Thu thập thông tin -> Thông số URL.
4. Tìm và sửa lỗi HTTP status.
Bất kỳ URL nào mà Google tìm nạp, bao gồm CSS và Java Script, sẽ tiêu tốn một đơn vị ngân sách thu thập dữ liệu của bạn. Bạn không muốn lãng phí nó trên trang 404 hay 503, phải không? Dành một chút thời gian để kiểm tra trang web của bạn xem có bất kỳ lỗi liên kết hoặc lỗi máy chủ nào không và khắc phục những lỗi đó ngay khi bạn có thể.
5. Sử dụng RSS.
Từ những gì tôi quan sát được, nguồn cấp dữ liệu RSS là một trong những trang được truy cập hàng đầu bởi Google spider. Nếu một phần nhất định trên trang web của bạn thường được cập nhật (blog, trang sản phẩm nổi bật, phần mới đến), hãy đảm bảo tạo nguồn cấp RSS cho nó và gửi nó đến Trình cấp dữ liệu của Google. Hãy nhớ giữ các nguồn cấp RSS miễn phí từ không chính tắc, bị chặn khỏi lập chỉ mục hoặc các trang 404.
6. Giữ Sitemap của bạn sạch sẽ và cập nhật.
Sơ đồ trang web XML rất quan trọng để thu thập thông tin trang web thích hợp. Họ nói với các công cụ tìm kiếm về việc tổ chức nội dung của bạn và cho phép các bot tìm kiếm khám phá nội dung mới nhanh hơn. Sơ đồ trang web XML của bạn phải được cập nhật thường xuyên và không có rác (các trang 4xx, các trang không chính tắc, các URL chuyển hướng đến các trang khác và các trang bị chặn khỏi lập chỉ mục).
Nếu bạn điều hành một trang web lớn có nhiều phần phụ, sẽ rất hữu ích khi tạo một sơ đồ trang web riêng cho mỗi phần phụ. Điều này sẽ giúp quản lý sơ đồ trang web của bạn dễ dàng hơn và cho phép bạn nhanh chóng phát hiện các khu vực của trang web nơi xảy ra sự cố thu thập dữ liệu.
Ví dụ: bạn có thể có một sơ đồ trang web cho bảng thảo luận, một sơ đồ trang web khác cho blog và thêm một sơ đồ trang web để bao gồm các trang web chính. Đối với các trang web thương mại điện tử, nên tạo sơ đồ trang web riêng cho các danh mục sản phẩm lớn.
Hãy chắc chắn rằng tất cả các sơ đồ trang web có thể được tìm thấy bởi các con nhện. Bạn có thể bao gồm các liên kết đến sơ đồ trang web trong tệp robots.txt và đăng ký chúng trong Bảng điều khiển tìm kiếm.
7. Chăm sóc cấu trúc website và liên kết nội bộ.
Mặc dù liên kết nội bộ không có mối tương quan trực tiếp với ngân sách thu thập dữ liệu của bạn, cấu trúc trang web vẫn là một yếu tố quan trọng để làm cho nội dung của bạn có thể được tìm kiếm bởi các bot tìm kiếm. Cấu trúc website giống như cây logic có nhiều lợi ích – chẳng hạn như trải nghiệm người dùng và lượng thời gian khách truy cập của bạn sẽ dành cho trang web của bạn – và thu thập thông tin được cải thiện chắc chắn là một trong số đó.
Nói chung, giữ cho các khu vực quan trọng của website không xa hơn 3 lần nhấp từ bất kỳ trang nào là lời khuyên tốt. Bao gồm các trang và danh mục quan trọng nhất trong menu hoặc chân trang. Đối với các trang web lớn hơn, như blog và website thương mại điện tử, các phần có bài đăng / sản phẩm liên quan và bài đăng / sản phẩm nổi bật có thể giúp ích rất nhiều trong việc đưa trang đích ra khỏi đó – cho cả người dùng và bot công cụ tìm kiếm.
Nếu bạn cần các hướng dẫn chi tiết, tôi khuyên bạn nên thông qua hướng dẫn liên kết nội bộ này.
Như bạn có thể thấy, SEO không phải là tất cả về ‘nội dung có giá trị’ và ‘liên kết có uy tín’. Khi phần trước của trang web của bạn trông bóng bẩy, có lẽ đã đến lúc thực hiện một số hoạt động tối ưu cho các Bot – chắc chắn sẽ có những điều kỳ diệu trong việc cải thiện hiệu suất trang web của bạn trong tìm kiếm.
Bây giờ bạn có tất cả các công cụ và kiến thức cần thiết để thuần hóa các công cụ tìm kiếm, hãy tiếp tục và kiểm tra nó trên trang web của riêng bạn và vui lòng chia sẻ kết quả trong phần Comment!
Tối ưu Ngân sách thu thập là cần thiết trong Technical SEO, để tối ưu các thành phần quan trọng khác của SEO kỹ thuật tham khảo: 17 yếu tố SEO kỹ thuật quan trọng và cách tối ưu
SeoTheTop biên tập, Nguồn: Link Assistant
Bài viết liên quan: