做網(wǎng)站優(yōu)化這些年遇到過形形色色的robots協(xié)議的寫法,有的站長還會利用botots屏蔽對方的友情連接,不是沒有是你還沒遇到;蛟S有一天你會無意間發(fā)現(xiàn)。robots協(xié)議做為做網(wǎng)站優(yōu)化基礎(chǔ)知識是一個(gè)告訴搜索引擎蜘蛛或機(jī)器人來到網(wǎng)站內(nèi),哪些內(nèi)容是可以檢索,哪些內(nèi)容是禁止抓取的。任何一個(gè)網(wǎng)站都必須有robots協(xié)議,不僅可以保證蜘蛛來一趟能夠很好的檢索你想暴漏的內(nèi)容,還會減輕蜘蛛不必要的工作量,一個(gè)合格robots協(xié)議蜘蛛還是很喜歡的,原因很簡單蜘蛛的來訪第一個(gè)爬行的就是你的robots文件。
說的直白一點(diǎn)robots協(xié)議就是放出你想放出的內(nèi)容,禁止你要禁止的內(nèi)容。對于新人剛接觸到做網(wǎng)站優(yōu)化,剛認(rèn)識到robots都不清楚如何編寫,這里給大家具體分析一下robots的編寫格式與方式。
robots.txt怎么寫
User-agent: * 這個(gè)口令的意思是說允許所有搜索引擎來訪抓取
Disallow: /wp-* 由于wordpress內(nèi)wp開頭的文件和文件夾交多,這里是禁止抓去以wp開始 或者wp目錄下的內(nèi)容
Allow: /wp-content/uploads/ 由于這個(gè)目錄下有一些站內(nèi)的圖片,大家都知道百度圖片也是 可以被收錄并有所排名,所以我把這一塊想的放出來,意思 就是允許抓去這個(gè)目錄下的內(nèi)容。
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
這些是禁止抓去所有以這些格式結(jié)尾的文件
Disallow: /?* 禁止抓取?后一些以來源的RUL,減少重復(fù)收錄
Disallow: /feed
Disallow: /*/feed 訂閱頁面禁止抓去收錄
Disallow: /rukou.htm 禁止蜘蛛爬行這個(gè)頁面 ,由于里面寫入了大量的Nofollow,并且頁面 也無關(guān)鍵詞切入。
Sitemap:http://www.seolseo.com/sitemap.xml 提示蜘蛛抓取 網(wǎng)站地圖。
robots的運(yùn)用關(guān)系網(wǎng)站的安全性,上次就遇到一個(gè),一個(gè)網(wǎng)友在網(wǎng)上投的簡歷竟然被釋放出來,從而被百度收錄,這是一個(gè)極度需要安全的頁面,該招聘網(wǎng)站這里就不說了,總之我是不會去那個(gè)網(wǎng)站去投簡歷找工作的。連最基本的robots協(xié)議都不寫好,還造成用戶的個(gè)人信息流到網(wǎng)上。robots協(xié)議對于一個(gè)網(wǎng)站是非常重要的,做的好會有效的屏蔽保密或者不想被搜索抓取的頁面,從而也可以促進(jìn)我們網(wǎng)站的關(guān)鍵詞排名。來自seolseo博客。