Robot.txt là gì? Cách tạo file robot.txt cho trang web

Robot.txt là gì? Cách tạo file robot.txt cho trang web
  • Bạn chưa biết gì về file robot.txt?
  • Tại sao bạn nên tạo robot.txt cho trang web?
  • Làm sao để tạo file robot.txt bây giờ?

Mọi câu hỏi sẽ được giải quyết trong bài viết dưới đây. Các bạn theo dõi để tìm thấy câu trả lời thích hợp cho mình nhé!

File robots.txt là gì?

File robots.txt là một tập tin văn bản chuẩn quy định website, cho phép các công cụ tìm kiếm thu thập nhanh chóng và chính xác dữ liệu trên website.

Robot.txt là gì

Robot.txt là gì

Tệp này có thể chứa các lệnh như: meta robots, page-subdirectory, site-wide instructions… Nó còn hướng dẫn các công cụ xử lý các liên kết trên trang.

Thực tế file robot.txt thường được các nhà quản trị web sử dụng trong việc cho phép hay ngăn chặn những nội dung hay phần nào đó trên trang được index hay không.

Cú pháp của tệp robots.txt

Các cú pháp được xem là ngôn ngữ riêng của các tập tin robots.txt.

  • User-agent: Phần này là tên của các trình thu thập dữ liệu như: Googlebot, Bingbot, Ahrefbot…
  • Disallow: Lệnh này để thông báo những nội dung bot không được thu thập dữ liệu.
  • Allow (chỉ áp dụng cho Googlebot): Lệnh này cho phép bot thu thập dữ liệu một trang hoăc thư mục con, mặc dù trang hoặc thư mục chứa nó lại không được phép thu thập dữ liệu.
  • Crawl-delay: Phần này thông báo trang sau khi tải bao nhiêu giây, thì các công cụ được thu thập dữ liệu. Tuy nhiên google sẽ không nhận lệnh này, bạn có thể cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
  • Sitemap: Lệnh này được sử dụng để cung cấp các vị trí của bất kì XML sitemap nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi Google, Ask, Bing và Yahoo.

Đối với sitemap tôi đã có 1 bài viết rất chi tiết: Sitemap là gì? Cách tạo sitemap cho website wordpress bạn tham khảo thêm nhé!

Mẫu định dạng chuẩn của robot.txt

Mẫu định dạng chuẩn của robot.txt

Mẫu định dạng chuẩn của robot.txt

Tuy nhiên, bạn vẫn có thể lược bỏ các phần “crawl-delays”, “allow” và “sitemap”.

Bạn cũng có thể tùy chỉnh file robot theo từng trang web để sao cho phù hợp. Trên thực tế thì tệp robots.txt có thể chứa nhiều dòng User-agent và nhiều chỉ thị của người dùng.

Trong file robot.txt bạn có thể chỉ định riêng từng con bot có thể thu thập dữ liệu, và mỗi lệnh này thường cách nhau 1 dòng.

Lưu ý về file robots.txt chuẩn

Để chặt tất cả các con bot không được thu thập dữ liệu trang trang web chúng ta dùng câu lệnh:

User-agent: *

Disallow: /

Để cho phép tất cả các con bot truy cập để thu thập thông tin chúng ta dùng:

User-agent: *

Disallow:

Để chặn google bot thu thập thông tin trong mục nào đó trên trang bạn có thể dùng:

User-agent: Googlebot

Disallow: /example-subfolder/

Ví dụ cho file robots.txt chuẩn

Dưới đây là ví dụ về tệp robots.txt hoạt động cho trang web www.example.com:

User-agent: *

Disallow: /wp-admin/

Allow: /

Sitemap: https://www.example.com/sitemap_index.xml

Để tôi giải thích sơ qua ý nghĩa của tệp robot.txt đơn giản này: Cho phép tất cả các trình thu thập dữ liệu vào trang web để thu thập thông tin toàn trang web nhưng ngoại trừ các thông tin về quản trị. Thông báo địa chỉ sitemap để bot có thể thu thập dữ liệu nhanh hơn.

Làm sao để tạo file robot.txt cho website?

Nếu bạn thấy trang của mình chưa có file robot.txt thì bạn có thể thực hiện theo 3 cách dưới đây:

Cách 1: Sử dụng Yoast SEO

Bạn có thể chỉnh sửa hoặc tạo tệp robots.txt cho wordpress trên chính WordPress Dashboard với vài bước đơn giản.

Đăng nhập vào website của bạn. Khi đăng nhập vào, bạn sẽ thấy giao diện của trang Dashboard.

Nhìn phía bên trái màn hình, click vào SEO =» Tools =» File editor.

Tuy cập vào tool của Yoast SEO

Tuy cập vào tool của Yoast SEO

Chọn trình chỉnh sửa tập tin

Chọn trình chỉnh sửa tập tin

Tính năng File editor sẽ không xuất hiện nếu wordpress của bạn vẫn chưa được kích hoạt tính chỉnh sửa file. Do vậy hãy kích hoạt chúng thông qua FTP (File Transfer Protocol – Giao thức truyền tập tin).

Lúc này bạn sẽ thấy mục .htaccess file và một nút Create robots.txt file  đây là nơi giúp bạn tạo file robots.txt

Cách 2: sử dụng plugin All in One SEO

Plugin All in One SEO để tạo file robots.txt nhanh chóng. Đây cũng là một plugin tiện ích cho wordpress – Đơn giản, dễ sử dụng cho những ai không muốn chỉnh sửa tệp này, tệp kia trên web.

Để tạo file robots.txt, bạn phải đến giao diện chính của plugin All in One SEO Pack.

Chọn All in One SEO » Features Manager » Nhấp Active cho mục robots.txt 

Giao diện quản lý plugin

Giao diện quản lý plugin All in One SEO

Tìm đến file robot.txt và tiến hành active.

Kích hoạt file robot.txt

Kích hoạt file robot.txt

Điểm hạn chế của việc này chính là các malware có thể ẩn theo các plugin đi vào trang web ảnh hưởng đến bảo mật trang web.

Cách 3: Tạo file robot.txt rồi up thẳng lên host

Nếu web của bạn là code tay hoặc không muốn sử dụng plugin thì cách này hữu hiệu nhất.

Bạn chỉ mất vài phút để tạo file robots.txt này bằng tay. Sử dụng Notepad hoặc Text edit để tạo mẫu file robots.txt theo hướng dẫn tôi đã giới thiệu ở đầu viết.

Sau đó upload file này thẳng lên host mà không cần sử dụng plugin. Quá trình này rất đơn giản không tốn bạn quá nhiều thời gian đâu.

Tại sao bạn cần tạo file robots.txt cho wordpress?

Trong phần checklist SEO web site thì robot.txt là một phần cần phải kiểm tra. Nếu trang của bạn không có file này thì thực sự là một lỗi kỹ thuật SEO khá lớn.

Đôi khi cũng có nhiều người mắc phải một số lỗi khiến toàn bộ trang web dừng lập chỉ mục và ảnh hưởng lến đến website.

Việc tạo file robot.txt luôn là hữu ích bởi vì:

  • Ngăn chặn nội dung trùng lặp xuất hiện trong website (lưu ý rằng các robot meta thường là lựa chọn tốt hơn cho việc này)
  • Giữ một số phần của trang web ở chế độ riêng tư
  • Giữ các trang kết quả tìm kiếm nội bộ không hiển thị trên SERP
  • Chỉ định vị trí của sitemap
  • Ngăn các công cụ tìm kiếm index một số tệp nhất định trên trang web của bạn (hình ảnh, PDF, …)
  • Dùng lệnh crawl delay để cài đặt thời gian. Điều này sẽ ngăn việc máy chủ của bạn bị quá tải khi các trình thu thập dữ liệu tải nhiều nội dung cùng một lúc.

Thực sự nếu bạn bận quá cũng có thể không cần tạo file này, tuy nhiên nó chỉ mất khoảng 10 phút đổ lại thôi, không tốn quá nhiều thời gian của bạn.

Làm thế nào để kiểm tra website có robots.txt không?

Nếu bạn đang lo lắng không biết trang web của mình đã có file robot.txt chưa thì bạn có thể làm theo hướng dẫn dưới đây:

Hãy nhập root domain của bạn, sau đó thêm /robots.txt vào cuối URL. Nếu không có trang .txt xuất hiện, thì chắc chắn website bạn hiện không tạo robots.txt cho wordpress rồi. Rất đơn giản!

VD: Đối với trang web GAD, để kiểm tra file này tôi sẽ làm:

Nhập: https://gadvn.com/robots.txt vào trình duyệt và nhấn enter.

Nếu hiện lên là “404 not found” hoặc “trang không tì thấy” nghĩa là web của bạn chưa có robot.txt

Không tìm thấy file robot.txt

Không tìm thấy file robot.txt

Một số lưu ý khi sử dụng robot.txt

Hãy đảm bảo rằng file này không ngăn chặn nội dung index trên trang, ngoại trừ thông tin đăng nhập (wp-admin)

Không sử dụng robot.txt để chặn các thông tin người dùng, hay thông tin tác giả trên trang. Nếu bạn muốn loại bỏ nó khỏi kết quả tìm kiếm hãy để nó ở trạng thái noindex.

Hiện tại có rất nhiều con bọ tìm kiếm thông tin của các web khác nhau. Vì vậy đừng ngăn cản bất cứ co bọ nào thu thập thông tin về bạn. Cây cao thì đón gió, trang của bạn lớn thì cũng nên đương đầu với những áp lực lớn đi.

Vậy là mình đã chia sẻ xong về robot.txt rồi.

Nếu gặp bất kỳ vấn đề nào trong quá trình tạo file cũng như chỉnh sửa robots.txt, comment bên dưới bài viết nhé! Tôi sẽ trả lời sớm cho bạn.


Hậu Bùi là một chàng trai có niềm đam mê với marketing. Tốt nghiệp chuyên ngành Marketing, đã chinh chiến trong lĩnh vực marketing hơn 3 năm. Mong muốn chia sẻ những kiến thức thực chiến marketing đến những người có cùng đam mê.

Leave a Reply

Your email address will not be published. Required fields are marked *

Hãy cho GADVN biết một số thông tin về bạn

Hãy cho Gadvn biết 1 số thông tin của bạn


.