Trong việc tối ưu hóa kỹ thuật SEO, robots.txt là một trong những yếu tố quan trọng. Bất kỳ sự cố hoặc cấu hình không đúng trong file robots.txt của bạn đều có thể gây ra các vấn đề về SEO và có thể ảnh hưởng tiêu cực đến thứ hạng của trang web trên các bảng tìm kiếm. Vậy, chúng ta hãy cùng Brand Design khám phá chi tiết về file robots.txt trong bài viết này.
File robots.txt là gì?
File robots.txt là một tập tin văn bản quan trọng nằm trong thư mục gốc của một trang web. Nhiệm vụ của nó là cung cấp chỉ dẫn cho các công cụ tìm kiếm về việc thu thập thông tin và dữ liệu từ trang web để lập chỉ mục. Trong quá trình tối ưu hóa kỹ thuật SEO, file robots.txt là một trong những yếu tố đầu tiên mà mọi người nên kiểm tra và tối ưu.
Một sự cố hoặc cấu hình sai trong file robots.txt có thể gây ra những vấn đề SEO và có thể ảnh hưởng tiêu cực đến thứ hạng của trang web trên các bảng tìm kiếm. Do đó, hiểu rõ về file robots.txt là vô cùng quan trọng.
Cú pháp sử dụng trong SEO?
File robots.txt chứa các cú pháp và thuật ngữ quan trọng để chỉ định hành vi của các công cụ tìm kiếm và bọ thu thập dữ liệu. Dưới đây là một số thuật ngữ phổ biến trong cú pháp file robots.txt:
- User-agent: Đây là trình thu thập dữ liệu web như Googlebot, Bingbot.
- Disallow: Chỉ thị này được sử dụng để thông báo cho user-agent rằng họ không nên thu thập bất kỳ URL cụ thể nào. Mỗi URL sẽ có một dòng Disallow riêng.
- Allow: Chỉ thị này được sử dụng để thông báo cho user-agent rằng họ được phép truy cập vào thư mục con hoặc một trang cụ thể. Tuy nhiên, thư mục con và các trang có thể vẫn bị không cho phép.
- Crawl-delay: Đây là chỉ thị dùng để thông báo cho trình thu thập web biết rằng họ cần đợi bao lâu trước khi tải và thu thập nội dung của trang. Lưu ý rằng Googlebot không chấp nhận chỉ thị này, nên cần phải tăng tốc độ thu thập dữ liệu trong Google.
- Sitemap: Đây là thuật ngữ được sử dụng để cung cấp vị trí của Sitemap XML liên kết với URL được đề cập. Chỉ thị này chỉ được hỗ trợ bởi các công cụ tìm kiếm như Google, Ask, Bing và Yahoo.
Cả Google và Bing sử dụng hai biểu thức chính trong cú pháp file robots.txt để chỉ định các trang hoặc thư mục con mà bạn muốn loại trừ.
Ký tự “*” đại diện cho bất kỳ chuỗi ký tự nào và áp dụng cho tất cả các bot của Google.
Ký tự “$” được sử dụng với phần cuối của URL.
Định nghĩa một tệp robots.txt chuẩn:
Cú pháp cơ bản nhất của tệp robots.txt bao gồm:
User-agent: [tên user-agent]
Disallow: [chuỗi URL không được phép thu thập thông tin]
Đây là một cú pháp hoàn chỉnh trong tệp robots.txt. Thực tế cho thấy, một cú pháp có thể chứa nhiều user agents và các chỉ thị như disallows (không cho phép), allows (cho phép), crawl-delays (thu thập dữ liệu chậm chễ)… Các chỉ thị được viết liên tục mà không cách dòng.
Tuy nhiên, khi một tệp robots.txt có nhiều lệnh cho một bot, mặc định bot sẽ tuân thủ lệnh rõ ràng và đầy đủ nhất. Trong tệp robots.txt, mỗi bộ user agents xuất hiện dưới các cú pháp riêng biệt và được phân tách bằng dấu ngắt dòng.
Dưới đây là một số ví dụ khác về các cú pháp lệnh trong tệp robots.txt:
-
Chặn tất cả trình thu thập dữ liệu web khỏi thu thập bất kỳ nội dung nào:
User-agent: *
Disallow: /
Sử dụng cú pháp này trong tệp robots.txt yêu cầu tất cả các trình thu thập dữ liệu web không thu thập dữ liệu từ bất kỳ trang nào trên trang web, bao gồm trang chủ.
-
Cho phép tất cả trình thu thập dữ liệu web truy cập vào tất cả nội dung:
User-agent: *
Disallow:
Khi sử dụng cú pháp này, tệp robots.txt yêu cầu trình thu thập dữ liệu web thu thập dữ liệu từ tất cả các trang trên trang web, bao gồm trang chủ.
-
Chặn một trình thu thập dữ liệu web cụ thể khỏi một thư mục cụ thể:
User-agent: Googlebot
Disallow: /thư mục-cụ-thể/
Cú pháp này yêu cầu trình thu thập dữ liệu Googlebot (hoặc user agent khác) không thu thập dữ liệu từ bất kỳ trang nào chứa chuỗi URL của thư mục cụ thể.
-
Chặn một trình thu thập dữ liệu web cụ thể khỏi một trang cụ thể:
User-agent: Bingbot
Disallow: /trang-web.html
Cú pháp này yêu cầu trình thu thập dữ liệu Bingbot không thu thập dữ liệu từ trang cụ thể được nhắc đến.
Tại sao cần tạo file robots.txt?
Tạo file robots.txt cho trang web của bạn mang lại nhiều lợi ích, giúp bạn kiểm soát việc thu thập thông tin từ các bot của công cụ tìm kiếm trong các khu vực cụ thể trên trang web. Tuy nhiên, bạn cần đặc biệt chú ý khi tạo file này vì nếu có chỉ thị sai, các bot của Google có thể không lập chỉ mục trang web của bạn.
Tuy có rủi ro như vậy, việc tạo file robots.txt cho trang web WordPress là cần thiết vì nhiều lý do sau đây:
- Ngăn chặn nội dung trùng lặp: File robots.txt giúp ngăn chặn sự xuất hiện của nội dung trùng lặp trên trang web.
- Bảo mật khu vực riêng tư: File robots.txt cho phép bạn giữ một số khu vực trong trang web ở chế độ riêng tư, không cho phép các bot truy cập và thu thập thông tin.
- Kiểm soát trang tìm kiếm nội bộ: Bằng cách sử dụng file robots.txt, bạn có thể chỉ định các trang tìm kiếm nội bộ mà bạn muốn loại bỏ khỏi kết quả tìm kiếm trên các công cụ tìm kiếm (SERP).
- Xác định vị trí Sitemap: File robots.txt cho phép bạn chỉ định vị trí của Sitemap trang web, giúp các công cụ tìm kiếm dễ dàng tìm và lập chỉ mục các trang trong Sitemap.
- Ngăn chặn lập chỉ mục nội dung không cần thiết: Bạn có thể sử dụng file robots.txt để ngăn các công cụ tìm kiếm lập chỉ mục các tệp hình ảnh, tài liệu kỹ thuật số hoặc nội dung khác nhất định trên trang web.
- Chỉ thị Crawl-delay: File robots.txt cho phép bạn sử dụng chỉ thị Crawl-delay để thiết lập thời gian trễ giữa các lượt thu thập thông tin, giúp tránh quá tải máy chủ khi các bot thực hiện việc thu thập dữ liệu đồng thời.
Việc tạo và cấu hình đúng file robots.txt mang lại sự kiểm soát và tối ưu cho quá trình tìm kiếm và lập chỉ mục trang web của bạn.
Công dụng của File robots.txt đối với website
Trong quá trình xây dựng website, việc sử dụng File robots.txt có những công dụng quan trọng sau:
- Chặn Google trong quá trình xây dựng web: Khi xây dựng web và chưa hoàn thiện, việc chặn bot của Google không lập chỉ mục những nội dung chưa hoàn thiện là cần thiết. Điều này giúp tránh việc hiển thị những nội dung chưa hoàn chỉnh trên kết quả tìm kiếm của Google. Tuy nhiên, khi website đã hoạt động ổn định, không nên chèn các đoạn mã này vào File robots.txt, vì điều này sẽ khiến trang web không xuất hiện trên kết quả tìm kiếm.
- Chèn Sitemap: Sitemap được coi như một bản đồ giúp Google khám phá các trang web của bạn. Nếu số lượng bài viết được lập chỉ mục của trang web quá lớn mà không có Sitemap, Google có thể không có đủ tài nguyên để lập chỉ mục tất cả. Điều này dẫn đến việc một số nội dung quan trọng không được hiển thị. Do đó, chèn Sitemap vào File robots.txt là một công dụng quan trọng của nó.
- Chặn bọ quét backlink: Các công cụ như Moz, Majestic và Ahrefs được sử dụng để quét backlink của một trang web. Tuy nhiên, File robots.txt có thể được sử dụng để ngăn chặn việc này, ngăn đối thủ phân tích backlink của bạn.
- Chặn các thư mục cần bảo mật: Các thư mục như wp-includes, phpinfo.php, wp-admin, memcached, cgi-bin thường chứa mã nguồn của website và cần được bảo mật. Sử dụng File robots.txt giúp ngăn Google lập chỉ mục những thư mục này, tránh việc thông tin quan trọng bị lấy cắp hoặc bị tấn công từ phía hacker.
- Chặn các mã độc hại: Ngoài các công cụ quét backlink, còn có các phần mềm độc hại khác mà đối thủ có thể sử dụng để sao chép nội dung hoặc gửi quá nhiều request tới máy chủ của bạn. File robots.txt có thể được sử dụng để chặn các mã độc hại này, giúp bảo vệ hệ thống và tiết kiệm tài nguyên.
xem thêm: Lợi ích của việc sử dụng Majestic SEO
Với những công dụng trên, File robots.txt đóng vai trò quan trọng trong việc kiểm soát và bảo vệ website của bạn.
Hạn chế của File robots.txt
File robots.txt là một công cụ quan trọng để điều khiển truy cập của các robot tìm kiếm đến trang web. Tuy nhiên, nó cũng có những hạn chế mà cần được hiểu rõ để tránh tác động tiêu cực đến hoạt động của trang web. Dưới đây là những hạn chế của File robots.txt:
- Hỗ trợ lệnh không đồng nhất: Một số trình duyệt tìm kiếm không hỗ trợ đầy đủ các lệnh và chỉ thị trong File robots.txt. Điều này có nghĩa là một số robot tìm kiếm có thể bỏ qua hoặc không hiểu các chỉ thị cụ thể trong tệp robots.txt. Để đảm bảo bảo mật dữ liệu quan trọng, nên sử dụng các phương pháp bảo vệ khác, chẳng hạn như đặt mật khẩu cho nội dung riêng tư trên máy chủ.
- Sự đa dạng trong phân tích dữ liệu: Các công cụ thu thập dữ liệu web sử dụng phương pháp phân tích dữ liệu riêng của họ. Điều này có nghĩa là mỗi công cụ có thể hiểu cú pháp và chỉ thị trong File robots.txt theo cách khác nhau. Điều này đặt ra thách thức cho nhà phát triển web để đảm bảo rằng cú pháp được sử dụng phù hợp với các công cụ thu thập dữ liệu khác nhau.
- Khả năng lập chỉ mục bị vượt qua: Mặc dù bạn có chặn một URL cụ thể trong File robots.txt, nhưng Google vẫn có thể thu thập dữ liệu và lập chỉ mục cho URL đó. Điều này xảy ra khi nội dung trang quan trọng và không muốn công khai. Trong trường hợp này, để đảm bảo an ninh tốt nhất, cần xóa URL đó trên trang web để ngăn người dùng tìm thấy nó khi tìm kiếm trên Google.
Tóm lại, File robots.txt là một công cụ hữu ích trong việc điều khiển truy cập của robot tìm kiếm, nhưng cần nhìn nhận các hạn chế và sử dụng các biện pháp bảo mật bổ sung để đảm bảo an toàn và bảo mật của trang web.
Vị trí của File robots.txt trong một trang web
File robots.txt được đặt ở một vị trí cụ thể trong một trang web. Thông thường, trong hệ thống WordPress, file này được đặt trong thư mục gốc của trang web, thường được gọi là “www” hoặc “public_html”. Đây là vị trí mặc định và không thể chỉnh sửa được. Để tạo một file robots.txt riêng, bạn cần tạo một file mới và thay thế file cũ trong thư mục gốc.
Cách hoạt động của File robots.txt
File robots.txt đóng vai trò quan trọng trong quá trình hoạt động của các công cụ tìm kiếm. Mỗi công cụ tìm kiếm thực hiện hai công việc chính:
- Crawl (Thu thập dữ liệu): Công cụ tìm kiếm thu thập dữ liệu trên trang web để khám phá nội dung. Để làm điều này, nó đi qua các liên kết để chuyển từ trang này sang trang khác. Quá trình này được gọi là “spidering” hay “crawling”.
- Index (Lập chỉ mục): Sau khi thu thập dữ liệu, công cụ tìm kiếm lập chỉ mục nội dung để người dùng có thể tìm kiếm thông tin trong trang. Quá trình này giúp tăng tính khả dụng của thông tin trên công cụ tìm kiếm.
Khi công cụ tìm kiếm đến một trang web, trước khi thu thập dữ liệu trong trang, nó sẽ tìm kiếm file robots.txt. Nếu file này tồn tại, công cụ tìm kiếm sẽ đọc nội dung của nó trước khi tiếp tục công việc trên trang web.
Trong file robots.txt, chúng ta có thể định rõ cách mà các công cụ tìm kiếm thực hiện quá trình thu thập dữ liệu và các chỉ thị cụ thể cho việc này. Nếu file robots.txt không chứa bất kỳ chỉ thị nào hoặc không tồn tại, các công cụ tìm kiếm sẽ truy cập tất cả các trang trong trang web và thực hiện công việc của mình.
Cách kiểm tra xem trang web có file robots.txt hay không?
Để kiểm tra xem trang web của bạn có file robots.txt hay không, bạn có thể thực hiện các bước sau:
- Mở trình duyệt web và nhập tên miền gốc của trang web vào thanh địa chỉ.
- Thêm “/robots.txt” vào cuối đường dẫn URL.
Ví dụ: Để kiểm tra xem trang web của Brand Design có file robots.txt hay không, bạn chỉ cần nhập địa chỉ sau vào thanh địa chỉ của trình duyệt: “branddesign/robots.txt”. Nếu không có trang .txt nào xuất hiện sau khi bạn nhập đường dẫn này vào, điều đó có nghĩa là trang web không có file robots.txt.
Hướng dẫn cách tạo file robots.txt cho trang web
Để tạo và quản lý file robots.txt cho trang web WordPress của bạn, có một số cách đơn giản bạn có thể thực hiện. Dưới đây là hướng dẫn tạo file robots.txt bằng 3 cách khác nhau trên nền tảng WordPress:
- Sử dụng Yoast SEO:
- Đăng nhập vào trang web WordPress của bạn và truy cập vào bảng điều khiển (Dashboard).
- Trên thanh bên trái, nhấp vào “SEO”, sau đó chọn “Tools” và “File editor”.
- Trong trình chỉnh sửa file, bạn sẽ thấy mục “robots.txt” và bạn có thể tạo hoặc chỉnh sửa file này tại đây.
- Sử dụng plugin All in One SEO:
- Cài đặt và kích hoạt plugin All in One SEO trên trang web của bạn.
- Trong trang quản lý của plugin, điều hướng đến “All in One SEO” → “Features Manager” và kích hoạt tính năng “Robots.txt”.
- Bạn có thể tạo và chỉnh sửa file robots.txt từ giao diện hiển thị của plugin.
- Tạo và tải lên file robots.txt qua FTP:
- Sử dụng một phần mềm chỉnh sửa văn bản như Notepad hoặc TextEdit để tạo nội dung cho file robots.txt.
- Sau khi tạo xong, sử dụng một chương trình FTP như FileZilla để tải lên file robots.txt lên thư mục public_html trên máy chủ của bạn.
Lưu ý: Khi tạo file robots.txt, hãy đảm bảo rằng nội dung của file tuân thủ các quy tắc và chỉ thị của robots.txt để đảm bảo rằng trang web của bạn hoạt động đúng và tương thích với các công cụ tìm kiếm.
Những quy tắc khi tạo file robots.txt
Khi tạo file robots.txt, có một số quy tắc và lưu ý cần được tuân thủ. Dưới đây là những quy tắc quan trọng khi làm việc với file robots.txt:
- Định dạng và vị trí:
- File phải được đặt tên chính xác là “robots.txt”.
- Tên và nội dung trong file phải phân biệt chữ hoa và chữ thường. Vì vậy, không được đặt tên là “Robots.txt” hoặc “robots.TXT”.
- Trang web chỉ được phép có một file robots.txt.
- File robots.txt phải được đặt trong thư mục gốc của máy chủ lưu trữ sử dụng cho trang web.
- Mã hóa và vị trí tệp:
- File robots.txt phải được mã hóa bằng UTF-8 vì Google có thể bỏ qua các ký tự không thuộc UTF-8 và làm cho quy tắc trong file không hợp lệ.
- Để các bot của công cụ tìm kiếm tìm thấy file robots.txt, file cần nằm trong thư mục gốc của trang web.
- Chỉ thị Disallow và đường dẫn:
- Không nên sử dụng “/wp-content/themes/” hoặc “/wp-content/plugins/” trong chỉ thị Disallow. Điều này có thể gây trở ngại cho việc bot nhận diện chính xác giao diện và plugin của trang web.
- Các file robots.txt thường được công khai và có thể truy cập trên trang web. Vì vậy, không nên sử dụng file robots.txt để ẩn thông tin cá nhân.
- Sitemap và Subdomain:
- Mỗi Subdomain của một Root Domain sẽ có file robots.txt riêng biệt. Điều này giúp chỉ ra vị trí của sitemap được liên kết với domain ở cuối file robots.txt.
Những lưu ý khi sử dụng file robots.txt
Khi sử dụng file robots.txt, hãy lưu ý các điểm sau đây:
- Các liên kết trên trang web bị chặn bởi file robots.txt sẽ không được các công cụ thu thập thông tin website theo dõi, trừ khi các liên kết này được liên kết với các trang khác.
- Link juice (sức mạnh của liên kết) sẽ không được truyền từ trang bị chặn sang trang đích. Do đó, nếu bạn muốn tăng cường sức mạnh của link juice thông qua các trang này, hãy sử dụng các phương pháp khác thay vì xây dựng file robots.txt.
- Không nên sử dụng file robots.txt để ngăn chặn thông tin nhạy cảm như thông tin cá nhân người dùng xuất hiện trong kết quả tìm kiếm.
- Các công cụ tìm kiếm lưu trữ nội dung trong file robots.txt và thường cập nhật ít nhất một lần mỗi ngày. Nếu bạn muốn nội dung trong file được cập nhật nhanh hơn, bạn có thể sử dụng chức năng Gửi của Trình kiểm tra tệp robots.txt.
Khi nào cần sử dụng file robots.txt?
File robots.txt có thể được sử dụng trong các tình huống sau đây để quản lý quá trình thu thập thông tin trên trang web và cung cấp trải nghiệm tốt hơn cho người dùng:
- Chặn công cụ tìm kiếm trong quá trình xây dựng website: Khi xây dựng và hoàn thiện website, thường cần một khoảng thời gian để chỉnh sửa và làm việc trên các nội dung trước khi công bố. Trong giai đoạn này, không nên để các công cụ tìm kiếm index trang web. Việc chặn công cụ tìm kiếm sẽ ngăn chặn các trang chưa hoàn thiện được hiển thị trong kết quả tìm kiếm và bảo vệ dịch vụ SEO của bạn.
- Tránh bị đối thủ chiếm ưu thế: Khi sử dụng công cụ tìm kiếm nhúng vào trang web, các trang kết quả sẽ có URL riêng. Mặc dù Google vẫn có thể index những trang này, nhưng đối thủ có thể lợi dụng để tìm kiếm các từ khóa tiêu cực và tạo tổn hại cho danh tiếng của trang web của bạn. Để ngăn chặn điều này, bạn có thể chặn toàn bộ các trang kết quả không cho phép đánh giá nội dung và index.
- Chặn các công cụ thu thập liên kết: Các công cụ như Ahrefs thường sử dụng robot để thu thập thông tin về website, bao gồm các backlink, từ khóa tự nhiên, tên miền tham chiếu và các trang quan trọng khác. Đối thủ có thể sử dụng các công cụ này để phân tích trang web của bạn. Để ngăn chặn điều này, bạn có thể sử dụng file robots.txt để chặn các công cụ thu thập liên kết.
Lưu ý: Trong quá trình sử dụng file robots.txt, hãy đảm bảo tuân thủ các quy tắc và lưu ý đã được mô tả trong quyền hạn sử dụng file robots.txt.
Dưới đây là một số câu hỏi thường gặp và câu trả lời tương ứng về file robots.txt:
- Kích thước tối đa của file robots.txt là bao nhiêu?File robots.txt có kích thước tối đa là 500 kilobyte.
- Làm thế nào để chỉnh sửa file robots.txt trong WordPress?Bạn có thể thực hiện chỉnh sửa file robots.txt trong WordPress bằng hai cách: thủ công hoặc sử dụng Plugin WordPress SEO như Yoast. Plugin này cho phép bạn chỉnh sửa file robots.txt từ giao diện quản trị WordPress.
- Vị trí của file robots.txt trong WordPress trên website ở đâu?File robots.txt của WordPress được đặt tại đường dẫn: domain.com/robots.txt
- Điều gì sẽ xảy ra khi Disallow và Noindex xuất hiện trong nội dung của file robots.txt?Khi sử dụng các lệnh Disallow và Noindex trong file robots.txt, các lệnh này chỉ áp dụng cho các đường dẫn tương đối. Điều này có nghĩa là các con bot của công cụ tìm kiếm sẽ bị cấm truy cập vào những đường dẫn được chỉ định.
- Làm cách nào để chặn Web Crawler?Để chặn Web Crawler, bạn có thể thực hiện các bước sau trong WordPress:
- Truy cập vào mục Settings > Reading.
- Chọn tùy chọn “Search Engine Visibility”.
- Khi đã chọn, thêm đoạn mã “meta name=’robots’ content=’noindex,follow'” vào trang web của bạn.
- WordPress cũng sẽ tự động thêm dòng “User-agent: * Disallow: /” vào file robots.txt của trang web.
Với những thông tin mà chúng tôi vừa cung cấp, bạn hi vọng bạn đã hiểu rõ hơn về file robots.txt. Bằng cách tạo và chỉnh sửa file robots.txt trong WordPress theo ý muốn, bạn có thể hỗ trợ các bot của công cụ tìm kiếm thu thập và chỉ mục trang web của bạn một cách nhanh chóng hơn.