robots.txt란?

정의
robots.txt는 웹사이트의 루트 디렉토리에 위치하는 텍스트 파일로, 검색엔진 크롤러(봇)에게 어떤 페이지를 크롤링해도 되고 어떤 페이지는 크롤링하지 말아야 하는지를 알려주는 역할을 합니다. 이 파일은 Robots Exclusion Protocol 또는 Robots Exclusion Standard라고 불리는 표준을 따릅니다.
robots.txt 파일은 웹사이트의 교통 경찰과 같은 역할을 합니다. 검색엔진 봇이 웹사이트에 방문했을 때 가장 먼저 확인하는 파일이며, 이를 통해 사이트 운영자의 크롤링 정책을 파악합니다. 예를 들어, 관리자 페이지나 중복 콘텐츠, 테스트 페이지 등 검색 결과에 노출되지 않기를 원하는 영역을 지정할 수 있습니다.
중요한 점은 robots.txt는 '요청'이지 '강제'가 아니라는 것입니다. 대부분의 정상적인 검색엔진 봇(구글, 네이버, 빙 등)은 이 파일의 규칙을 존중하지만, 악의적인 봇이나 스크래퍼는 무시할 수 있습니다. 따라서 민감한 정보를 보호하기 위해서는 robots.txt만으로는 부족하며, 적절한 접근 제어나 암호화 등의 보안 조치가 필요합니다.
특징
- 크롤 예산 최적화: 중요하지 않은 페이지의 크롤링을 차단하여, 검색엔진이 정말 중요한 페이지에 더 많은 리소스를 할당하도록 유도할 수 있습니다.
- 중복 콘텐츠 방지: 비슷한 내용의 페이지나 다양한 파라미터로 생성되는 중복 URL을 차단하여 SEO 문제를 예방할 수 있습니다.
- 사이트맵 위치 명시: robots.txt 파일 내에 사이트맵의 위치를 명시하여 검색엔진이 쉽게 찾을 수 있도록 합니다.
- 단순하고 표준화된 형식: 특별한 기술 지식 없이도 텍스트 에디터로 쉽게 작성하고 수정할 수 있습니다.
- 즉시 적용: 파일을 업로드하면 즉시 효력이 발생하며, 검색엔진 봇이 다음에 방문할 때부터 새로운 규칙을 적용합니다.
활용 방법
robots.txt 파일을 효과적으로 작성하고 관리하는 방법은 다음과 같습니다.
1단계: 기본 구조 이해 robots.txt 파일은 "User-agent"와 "Disallow/Allow" 지시어를 기본으로 합니다. User-agent는 어떤 봇에게 적용할 규칙인지를 지정하고, Disallow는 크롤링을 금지할 경로를, Allow는 크롤링을 허용할 경로를 지정합니다.
2단계: 차단할 영역 식별 웹사이트에서 검색엔진에 노출되지 않아야 할 영역을 파악합니다. 일반적으로 관리자 페이지(/admin), 개인정보 관련 페이지, 중복 콘텐츠, 테스트 페이지, 검색 결과 페이지, 장바구니나 체크아웃 페이지 등이 해당됩니다.
3단계: robots.txt 파일 작성 텍스트 에디터로 robots.txt 파일을 작성합니다. 모든 봇에 대한 규칙은 "User-agent: *"로 시작하며, 특정 봇에 대한 규칙을 별도로 지정할 수도 있습니다.
4단계: 루트 디렉토리에 업로드 작성한 robots.txt 파일을 웹사이트의 루트 디렉토리에 업로드합니다. 파일은 반드시 https://yoursite.com/robots.txt 형태로 접근 가능해야 합니다.
5단계: 테스트 Google Search Console의 robots.txt 테스터 도구를 사용하여 파일이 올바르게 작성되었는지, 원하는 URL이 제대로 차단되거나 허용되는지 확인합니다.
6단계: 정기적인 검토 웹사이트 구조가 변경될 때마다 robots.txt 파일도 함께 업데이트해야 합니다. 실수로 중요한 페이지를 차단하지 않았는지 정기적으로 검토하는 것이 중요합니다.