본문 바로가기
IT/블로그 운영팁

[SEO] Robot.txt & 네이버 웹마스터도구 등록

 

1. Robots.txt 란

robots.txt는 웹 크롤러 또는 "로봇"에게 사이트의 어느 부분을 크롤링하거나 색인화해야 하는지에 대한 지침을 제공하기 위해 웹 사이트의 서버에 배치되는 텍스트 파일입니다. 사이트 콘텐츠에 액세스 하는 검색 엔진 봇 및 기타 자동 에이전트와의 통신을 위한 표준입니다. robots.txt는 일반적으로 검색 엔진이 웹 사이트의 페이지 및 리소스를 색인화하는 방법을 관리하는 데 사용됩니다.

robots.txt 파일을 확인하는 방법은 웹브라우저 주소창에 “자신의 도메인/robots.txt” 를 검색해 보면 알 수 있습니다.주소창에서 https://4kangs.tistory.com/robots.txt를 검색하면 다음과 같은 내용을 확인할 수 있습니다.

Robots.txt 파일 예시

만약 위의 이미지처럼 보이지 않고 페이지가 없다고 나온다면 정말로 없거나 다른 경로에 robots.txt를 업로드 했기때문입니다. 

robots.txt는 검색로봇에게 웹 사이트의 페이지를 수집하도록 제한하거나 허용하도록 설정할 수 있습니다. Robots.txt를 활용하여 특정 경로를 크롤링하지 못하도록 설정할 수도 있고 구글과 네이버뿐만 아니라 얀덱스(러시아), 바이두(중국)  등 모든 검색엔진 로봇들은 웹 사이트의 모든 정보를 읽게 하여 검색엔진 결과에 반영, 노출하게 할 수 있습니다.

대부분의 웹 사이트에서는 검색 노출을 많이 하기 위해서 제한하지 않고 모든 페이지를 허용하고 있지만 검색엔진에서 기본적으로 robots.txt 파일 유무를 파악하고 로직 점수도 부여하기 때문에 robot.txt 를 확인해 보고 제대로 적용하는 게 좋겠습니다.

 

2. Robots.txt 기능

 

비공개 페이지 차단
사이트에는 검색결과에 노출되면 안되는 페이지들이 있습니다. 예를 들면 관리자 페이지는 검색엔진에 노출될 필요가 없습니다. 사람들은 페이지에 접속과 동시에 관리자 페이지에 도착한다면 99%는 이탈 하게 될 것입니다. 문제는 이탈률(Bounce Rate) 이 높은 페이지의 경우 구글은 랭킹 하락 시키기 때문에 robots.txt를 사용하여 검색봇으로부터 이러한 페이지를 아예 크롤링하지 못하도록 차단시켜야 합니다.

유효 크롤링 최대화
검색봇은 웹 사이트의 모든 페이지를 크롤링하고 색인하지 않습니다. robots.txt로 중요하지 않은 페이지를 차단함으로써 검색봇은 실제로 중요한 페이지들을 조금이라도 더 크롤링 할 수 있습니다.

Sitemap.xml 경로 지정
robots.txt 파일 하단에 sitemap.xml 경로를 지정해주면 검색엔진 봇이 이를 참고하여 웹 페이지들을 색인하는데 도움을 줄 수 있습니다.

 

3. Robots.txt 설정

Robots.txt 파일은 텍스트 파일(TXT)로 작성하면 됩니다. 이 파일은 웹 사이트 디렉터리 최상단(root)에 위치해야 합니다. 다른 곳에 업로드하면 검색엔진은 Robots.txt을 찾을 수 없습니다.           

요소 설명
User-agent 사이트를 크롤링하는 크롤러 명시 (e.g. Googlebot, Yandexbot, Yeti)
Allow 크롤러의 접근 허용 범위 명시
Disallow 크롤러들의 접근 제한 범위 명시
#Sitemap files 등록 된 sitemap.xml 파일 경로 명시

 

* Robots.txt 예제

- 모든 검색엔진의 로봇에 접근을 허용할 경우

User-agent: *
Allow: /

- 모든 검색엔진의 로봇에 접근을 허용하지 않을경우

User-agent: *
Disallow: /

- 다른 검색엔진 로봇의 수집은 허용하지 않고, 구글 검색엔진의 로봇만 허용할 경우 

User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /

검색엔진 로봇에게 Sitemap.xml 파일의 위치를 알려주며, 모든 검색엔진의 로봇에 접근을 허용할 경우

User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml

 

4. 티스토리 블로그 Robots.txt 수정

티스토리 블로그에서는 맨 위에 보여드렸던 이미지처럼 기본적으로 robots.txt를 제공합니다.

모든 봇의 접근을 허용하지만 몇몇 관리자 폴더는 접근 금지시켜 놨고 구글봇은 20분마다 크롤링하게끔 설정을 해놨네요. 검색봇들의 과도한 크롤링으로 이해 사이트에 과부하가 걸릴 수 있기 때문에 이런 설정을 해놓은 듯합니다.

티스토리 블로그는 루트 디렉터리에 이미  robots.txt를 만들어서 제공했고 사용자들에게 루트디렉터리 접근을 막고 있기 때문에 수정할 수 없습니다. 구글링을 하다 보면 블로그 스킨 수정 디렉터리에  robots.txt를 업로드하는 방법이 있던데 이것은 당연히 아니다. 스킨 디렉터리는 루트디렉터리가 아니니까요.

수정은 안됩니다(단호)! 저도 사이트맵 경로를 넣고 싶은데 많이 아쉽네요. 이것도 자동으로 티스토리에서 해줬으면 좋겠어요. 

 

5. Robots.txt 네이버 적용

 검색시장의 50% 이상을 네이버가 점유하고 있으니 우리의 사이트도 네이버에서 잘 검색되어야 페이지뷰가 많이 오르겠죠.  네이버 검색에 우리 사이트를 등록하고 robots.txt를 적용하는 방법을 알아봅시다

1) 네이버 웹마스터도구에 사이트 등록

일단 네이버서치어드바이저(https://searchadvisor.naver.com)에 접속하여 네이버에 로그인한 후 우측 상단 웹마스터 도구 버튼을 클릭합니다.

등록하려는 사이트 주소를 입력해 줍니다.

 

방금 입력한 사이트의 소유자가 본인이 맞는지 네이버가 확인을 해야겠답니다. 아무나 등록하게 하면 안 되니까요.

두 가지 방법을 제시하고 있는데요. 아래 HTML태그 입력방식으로 선택해 주세요. 위의 방법은 루트디렉터리에 뭔가 업로드해야 하는데 우리는 루트에 접근할 수 없으니까요. 

일단 시키는 대로 그레이색 바탕의 텍스트 <meta name="naver-site-verification" content="123456sdfgkfj1238973987" /> 를 복사한 후 이 창은 열어둔 채

새 창을 열어 우리의 티스토리 관리자 페이지에 로그인해서 스킨편집 페이지를 열고 html편집버튼을 누릅니다.

거기서 < head> 를 찾아봅시다. < head> 바로 밑에 아까 복사해 둔 텍스트를 붙여 넣기 한 후 적용합니다.

 

다시 네이버 서치콘솔 등록화면으로 돌아와 소유확인 버튼을 클릭합니다. 보안문자 입력을 하면 소유확인이 되었다고 팝업창이 뜹니다. 사이트목록에는  방금 등록을 마친 내 사이트 주소가 따끈따끈하게 올라와 있습니다.

 

2) 네이버 웹마스터도구에 robots.txt 적용

우리의 할 일은robots.txt를 네이버에 제대로 적용하는 것임을 잊지 않으셨겠죠?

사이트목록에 나타난 우리의 사이트 주소를 클릭하면 해당 사이트의 웹마스터도구 메인페이지가 나오는데요. 왼쪽 메뉴에서 검증> robots.txt를 클릭하면 robots.txt정보에는 빈 공간으로 나타날 텐데 바로 하단 수집요청 버튼을 클릭하면 티스토리의 robots.txt를 읽어와 표시해 줍니다. 이게 끝입니다.

 

6. 일반 웹사이트 Robots.txt 적용

일반 웹사이트의 경우에는 직접 robots.txt파일을 만들고 루트디렉터리에 업로드해줍니다. 개발자에게 루트디렉토리에 이 파일을 업로드해 달라고 말하면 금방 이해하고 해 주십니다.