什麼是robots.txt?

定義
robots.txt是位於網站根目錄的文字檔案,它告訴搜尋引擎爬蟲(機器人)哪些頁面可以抓取,哪些頁面不應該抓取。該檔案遵循稱為機器人排除協定(Robots Exclusion Protocol)或機器人排除標準(Robots Exclusion Standard)的標準。
robots.txt檔案就像網站的交通警察。它是搜尋引擎機器人訪問網站時首先檢查的檔案,透過它,機器人可以了解網站擁有者的抓取政策。例如,您可以指定不希望出現在搜尋結果中的區域,如管理員頁面、重複內容或測試頁面。
重要的一點是,robots.txt是「請求」而不是「命令」。雖然大多數合法的搜尋引擎機器人(Google、Naver、Bing等)會尊重此檔案中的規則,但惡意機器人或爬蟲可以忽略它們。因此,僅靠robots.txt不足以保護敏感資訊,還需要適當的存取控制或加密措施。