robot.txt Máy phát điện
Tạo tệp robots.txt cho trang web của bạn ngay lập tức. Thêm quy tắc tác nhân người dùng, cho phép/không cho phép đường dẫn, độ trễ thu thập dữ liệu và URL sơ đồ trang web. Trình tạo robots.txt miễn phí, theo thời gian thực.
Tạo tệp robots.txt cho trang web của bạn ngay lập tức. Thêm quy tắc tác nhân người dùng, cho phép/không cho phép đường dẫn, độ trễ thu thập dữ liệu và URL sơ đồ trang web. Trình tạo robots.txt miễn phí, theo thời gian thực.
robots.txt là một tệp văn bản thuần túy nằm ở thư mục gốc của trang web, cho trình thu thập thông tin biết đường dẫn nào chúng có thể truy cập và đường dẫn nào chúng nên tránh. Định dạng này có từ năm 1994 và được hầu hết mọi công cụ tìm kiếm và trình thu thập thông tin hoạt động tốt hỗ trợ. Tệp này mang tính chất tư vấn — các trình thu thập thông tin độc hại bỏ qua nó — nhưng các trình thu thập thông tin hợp pháp (Google, Bing, v.v.) tôn trọng các chỉ thị của nó một cách đáng tin cậy.
Các cách sử dụng phổ biến: chặn trình thu thập thông tin khỏi khu vực quản trị (/wp-admin/, /admin/), loại trừ các tham số URL tìm kiếm theo khía cạnh tạo ra nội dung trùng lặp, ngăn lập chỉ mục đường dẫn dàn dựng hoặc phát triển, khai báo vị trí sơ đồ trang web và cho phép các tác nhân người dùng cụ thể trong khi chặn những người khác. Tệp được đọc vào đầu mỗi phiên thu thập thông tin.
Trình tạo này xây dựng một tệp robots.txt đúng cú pháp từ thông tin đầu vào của biểu mẫu. Các mẫu phổ biến (cho phép tất cả, chặn tất cả, chặn các đường dẫn cụ thể) là các mẫu; quy tắc tùy chỉnh có thể được thêm vào cho mỗi tác nhân người dùng. Đầu ra nằm ở /robots.txt của thư mục gốc trang web của bạn.
Robot.txt viết tay dễ bị lỗi. Các lỗi cú pháp (phân biệt chữ hoa chữ thường, khớp đường dẫn chính xác, thứ tự quy tắc) âm thầm tạo ra hành vi sai — các đường dẫn bạn muốn chặn vẫn được thu thập thông tin hoặc các đường dẫn bạn muốn lập chỉ mục sẽ bị loại trừ. Một trình tạo tạo cú pháp đúng sẽ tránh được những cạm bẫy này.
robots.txt cũng có những tương tác tinh tế với các công cụ SEO khác. Việc không cho phép đường dẫn trong robots.txt không ngăn đường dẫn đó xuất hiện trong kết quả tìm kiếm (Google có thể lập chỉ mục URL mà không cần thu thập dữ liệu); meta noindex yêu cầu trang phải được thu thập dữ liệu trước. Biết sử dụng công cụ nào cho mục đích nào quan trọng; máy phát điện có thể hướng dẫn bạn.
Chọn một mẫu, tùy chỉnh, triển khai.
Định dạng: Tác nhân người dùng: <name> theo sau là chỉ thị Cho phép/Không cho phép. * phù hợp với tất cả các bot. Tên cụ thể (Googlebot, Bingbot) nhắm mục tiêu các trình thu thập thông tin cụ thể. Nhiều khối tác nhân người dùng có thể xếp chồng các quy tắc.
Không cho phép: <path> chặn các đường dẫn bắt đầu bằng tiền tố đã cho. Disallow: / chặn toàn bộ trang web. Không cho phép: /admin/ chặn mọi thứ trong /admin/. Dấu gạch chéo có vấn đề; Không cho phép: /admin (không có dấu gạch chéo) cũng khớp với /administrator.
Độ trễ thu thập dữ liệu (tính bằng giây) yêu cầu thu thập thông tin chậm hơn. Sơ đồ trang web (URL tuyệt đối) khai báo vị trí sơ đồ trang web của bạn. # bắt đầu một dòng bình luận.