robots.txt 작성하기

작성 : 2022-11-29수정 : 2023-04-21

목차 펼치기


  • root 경로에 위치해야 크롤러 봇이 인식할 수 있다.

  • 별도로 접근 권한을 명시하지 않을 경우, 크롤링 접근 가능한 것으로 간주된다.

  • User-agent

    : 크롤링 봇 이름

  • Disallow

    : 접근 차단 경로

  • Allow

    : 접근 허용 경로


javascript
1User-agent: *
2Disallow: /private/

robots.txt



User-agent

구글 : Googlebot

빙 : Bingbot

네이버 : Yeti

다음 : Daum

야후 : Slurp

덕덕고 : DuckDuckBot


Disallow

  • 접근 차단 경로 지정


Allow

  • 접근 허용 경로 지정

  • 크롤링이 제한된 상위 경로 중, 세부 디렉토리를 따로 크롤링 허용하고 싶을 때

    사용

  • Disallow 보다 우선 순위의 명령어이기 때문에, Disallow와 의도치 않게 상충되는 경로는 없는 지 확인하며 사용



문법

  • 빈 문자열 : 모든 것과 매칭

  • /

    : 모든 페이지

  • /admin

    : 해당 디렉토리 또는 파일

  • /admin/

    : 해당 디렉토리

  • /*.jpg$

    : jpg 파일 제외. 파일명 뒤에는 반드시 $으로 종료를 나타내야한다.


javascript
1# 모든 봇에 대하여 모든 페이지 허용
2User-agent: *
3Allow: /
4
5# 루트페이지만 수집 허용
6User-agent: *
7Disallow: /
8Allow: /$

robots.txt 작성 예시


Sitemap

  • sitemap.xml의 주소를 알려준다.

javascript
1User-agent: *
2Allow: /
3
4Sitemap: https://example.com/sitemap.xml

Contact Me

All Icons byiconiFy