日本一区二区三区中文字幕视频,亚洲高清一区二区三区电影,岛国在线无码高清视频,国产免费老人强奸黄色视频,日本大片在线看黄A∨免费,人妻黄色网址

域名注冊(cè) 網(wǎng)站制作
您現(xiàn)在的位置:首頁(yè) >> 常見(jiàn)問(wèn)題 >> 內(nèi)容

解析篇--VIP大講堂(上海站)QA集錦

時(shí)間:2014/12/8 10:51:15 點(diǎn)擊:297

摘要:上周為站長(zhǎng)朋友們獻(xiàn)出了VIP大講堂上海站中關(guān)于SPIDER抓取建庫(kù)方面的QA內(nèi)容,本周繼續(xù)將解析方面的QA內(nèi)容奉上。問(wèn):我們的頁(yè)面本身就很大,會(huì)不會(huì)解析不出來(lái)?答:頁(yè)面本身很大倒沒(méi)問(wèn)題,趕集、安...

上周為站長(zhǎng)朋友們獻(xiàn)出了VIP大講堂上海站中關(guān)于SPIDER抓取建庫(kù)方面的QA內(nèi)容,本周繼續(xù)將解析方面的QA內(nèi)容奉上。

問(wèn):我們的頁(yè)面本身就很大,會(huì)不會(huì)解析不出來(lái)?

答:頁(yè)面本身很大倒沒(méi)問(wèn)題,趕集、安居客這些量都很大,沒(méi)有問(wèn)題。我剛才說(shuō)的例子,你每次都follow出來(lái)新鏈接,隨機(jī)把后面的參數(shù)去掉都不影響這個(gè)網(wǎng)頁(yè)的正常訪問(wèn),這種肯定有問(wèn)題的。

問(wèn):剛才說(shuō)對(duì)URL的長(zhǎng)度有要求,那對(duì)每一段、就是目錄名的長(zhǎng)度有沒(méi)有要求

答:沒(méi)有要求,我們是要求url從www開(kāi)始到結(jié)束,總長(zhǎng)度不超過(guò)1024個(gè)字節(jié)。

問(wèn):站內(nèi)重復(fù)內(nèi)容是怎么判斷的?文本內(nèi)容一樣結(jié)構(gòu)不一樣,算不算重復(fù)?

答:算重復(fù)

問(wèn):假設(shè)是整個(gè)頁(yè)面全是Flash,如果我把一些欄目或者最新的內(nèi)容隱藏掉,不影響美觀隱藏掉,如果用hidden屬性能不能提取出來(lái)?CSS可不可以?

答:hidden可以提出來(lái),但如果是注釋就不會(huì)管。CSS不可以。

問(wèn):頁(yè)面大小不超過(guò)1兆,是指頁(yè)面壓縮以前還是以后。

答:指頁(yè)面壓縮以后,不要超過(guò)1兆

問(wèn):我網(wǎng)站的信息已經(jīng)過(guò)時(shí)了,但網(wǎng)頁(yè)返回的是200,會(huì)受懲罰?為什么呀?

答:用戶在搜索結(jié)果里點(diǎn)了你的結(jié)果,導(dǎo)流導(dǎo)到你的網(wǎng)站,但沒(méi)什么可看的,對(duì)用戶沒(méi)有用,百度當(dāng)然不喜歡。

問(wèn):現(xiàn)在我們很多網(wǎng)站,為了讓用戶覺(jué)得有意思,內(nèi)容沒(méi)了就放一張圖片,寫(xiě)一些有意思的話,什么“工程師去哪啦”之類的,對(duì)百度友好不?

答:最好不要用,我知道站點(diǎn)是想讓百度當(dāng)內(nèi)容死鏈來(lái)識(shí)別,但內(nèi)容死鏈識(shí)別起來(lái)是有準(zhǔn)確率和召回率風(fēng)險(xiǎn)的。

問(wèn):我們團(tuán)購(gòu)網(wǎng)站的確會(huì)有過(guò)期團(tuán)購(gòu)的頁(yè)面,會(huì)受懲罰嗎

答:如果量特別大、點(diǎn)擊量很大的話肯定會(huì)有懲罰的。有些可以當(dāng)內(nèi)容死鏈被分析出來(lái),如果分析不出來(lái),會(huì)被一些其他的策略挖出來(lái),會(huì)有這樣的問(wèn)題。

問(wèn):剛才說(shuō)資訊內(nèi)容頁(yè)面,上面有個(gè)發(fā)布時(shí)間好,那如果頁(yè)面上沒(méi)有時(shí)間呢?

答:那我們往往是按當(dāng)時(shí)抓取的時(shí)間來(lái)做判定。

問(wèn):評(píng)論里面時(shí)間重要嗎。

答:百度更重視主體內(nèi)容的時(shí)間,評(píng)論不算主體內(nèi)容。

問(wèn):我們是個(gè)平臺(tái),很多產(chǎn)品其實(shí)只是一個(gè)型號(hào)變更了,其實(shí)顏色都是一模一樣的,對(duì)蜘蛛而言僅僅只是幾個(gè)字符,會(huì)被識(shí)別為重復(fù)嗎

答:如果是一個(gè)產(chǎn)品的結(jié)構(gòu)化信息的話,應(yīng)該不會(huì)被認(rèn)為是重復(fù)。如果你是簡(jiǎn)單內(nèi)容摘要的方式進(jìn)行介紹的話,可能會(huì)存在重復(fù)問(wèn)題。

問(wèn):靜態(tài)URL和動(dòng)態(tài)URL區(qū)別大嗎?

答:不大,我們現(xiàn)在認(rèn)為靜態(tài)和動(dòng)態(tài)都一樣的,因?yàn)閺膗rl上面他能夠識(shí)別出來(lái),但是抓取回來(lái)的東西不太一樣。所以現(xiàn)在認(rèn)為無(wú)論你是靜態(tài)還是動(dòng)態(tài),我們都認(rèn)為同樣都是url來(lái)對(duì)待。

轉(zhuǎn)載請(qǐng)保留原文地址: http://m.pufcvep.cn/show-363.html

責(zé)編:王麗 作者:不詳 來(lái)源:網(wǎng)絡(luò)