找回密碼
 立即註冊
查看: 122|回復: 2

痞酷網 robots.txt 設置自我學習

[複製鏈接]
發表於 3 天前 | 顯示全部樓層 |閱讀模式
robots.txt 是一種網站用來指引網路蜘蛛(或稱爬蟲)那些頁面可以抓取、哪些禁止訪問的標準協議。它通過在網站根目錄放置一個名為robots.txt 的文字檔,控制蜘蛛抓取行為,幫助網站控制流量和保護私有內容,同時優化搜尋引擎的爬取效率。

1. 限制網路蜘蛛訪問特定頁面或目錄:指定「Disallow」規則阻止網路蜘蛛抓取不希望公開的資源(如管理後台、重複內容頁等)。
2. 允許網路蜘蛛訪問特定頁面或目錄:可用「Allow」規則明確指定允許抓取的路徑。
3. 指定站點地圖位置:可通過Sitemap 告知網路蜘蛛站點地圖文件的位置,幫助網路蜘蛛更有效地索引網站。

基本語法︰
1. User-agent:目標網路蜘蛛名稱︰Google是Googlebot,微軟的Bing是msbot 等等,如果用 * 表示所有網路蜘蛛。
2. Disallow:禁止網路蜘蛛訪問的路徑。
3. Allow:允許網路蜘蛛訪問的路徑。
4. Sitemap:網站地圖URL。

robots.txt 是告訴網路蜘蛛如何抓取的「協議」,不是強制執行,部分網路蜘蛛可能忽略,它不能用來防止頁面被索引或顯示,若要防止索引須用noindex標籤,文件必須放在網站根目錄,例如︰ https://bbs.pigoo.com/robots.txt

防止伺服器因網路蜘蛛高流量過載,管理網站資源的曝光與隱私,提高搜尋引擎優化(SEO)效率。

以下是2026-1-19 論壇的robots.txt,#字當註解或忽略

#
# robots.txt for Discuz! X3.5
#

User-agent: *
Allow: /forum.php?mod=viewthread
Allow: /forum.php?mod=forumdisplay
Allow: /forum.php?mod=guide
Allow: /thread-
Allow: /forum-

Disallow: /api/
Disallow: /data/
Disallow: /source/
Disallow: /install/
Disallow: /template/
Disallow: /config/
Disallow: /uc_client/
Disallow: /uc_server/
Disallow: /admin.php
Disallow: /search.php
Disallow: /member.php
Disallow: /api.php
Disallow: /misc.php
Disallow: /connect.php
Disallow: /forum.php?mod=redirect*
Disallow: /forum.php?mod=post*
Disallow: /home.php?mod=spacecp*
Disallow: /*?mod=misc*
Disallow: /*?mod=attachment*
Disallow: /*?_dsign=*
Disallow: /*?mod=logging*
Disallow: /*?mod=medal*
Disallow: /*highlight=*
Disallow: /*"target*

Sitemap: https://bbs.pigoo.com/sitemap.xml
 樓主| 發表於 3 天前 | 顯示全部樓層
原本Discuz! X3.5 的內建robots.txt 有下列4行︰

Allow: /data/attachment/
Allow: /data/avatar/
Allow: /data/cache/
Allow: /uc_server/data/avatar/

1. 請網路蜘蛛去/data/attachment/ 抓取,這個目錄下還有很多目錄,是只同意網路蜘蛛抓取/data/attachment/這個而已,或是連同該目錄下所有的目錄一併抓取?

2. 請網路蜘蛛去/data/avatar/ 抓取,這個目錄只有index.htm 及noavatar.svg 這兩個檔案,沒有其它目錄,index.htm 大小為0,也不是網頁,抓這兩個用途是什麼?

3. 請網路蜘蛛去/data/cache/ 抓取,這個目錄有非常多的js,及css,沒有其它目錄,抓取js 與css 對SEO 有何幫助?沒有幫助的話其用途為何?

4. 請網路蜘蛛去/uc_server/data/avatar/ 抓取,這個目錄裡面跟2. 一樣只有index.htm 及noavatar.svg 這兩個檔案,但還有一個000目錄,這個目錄裡面是一些會員頭像圖,跟1. 問題一樣,網路蜘蛛會抓會連同抓取子目錄嗎?

沒有Allow,也沒有Disallow 的目錄及檔案,網路蜘蛛會如何處置?

請不用去問AI,AI 說的也不見得會準,我家有SI 大模型也問不準,歡迎有實際經驗的會員指導一下。
回復

使用道具 舉報

 樓主| 發表於 前天 03:21 PM | 顯示全部樓層
1. Allow: /data/attachment/
這條規則允許抓取 /data/attachment/ 目錄本身,同時允許抓取該目錄下所有的子目錄。
除非有進一步的禁止命令,否則就是覆蓋子級。

2.

3. Allow: /data/cache/

SEO優化:Robots.txt允許搜索引擎抓取網站的JS和CSS


如果robots.txt 裡面既沒有Allow,也沒有Disallow,一般默認為可訪問。
以static 目錄為例,這個目錄裡面都是靜態資源,訪問與否只在於頁面效果,不影響收錄。
回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

手機版|禁閉室|連繫我們|痞酷網電子技術論壇

GMT+8, 2026-1-22 07:50 PM , Processed in 0.020671 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2001-2026 Discuz! Team.

快速回復 返回頂部 返回列表