對百度《談談原創項目那點事》的一些看法
來源:SEO優化 2013-05-31
在5月16日百度推出“石榴算法”的公告同時,百度站長學院也發布了一篇《談談原創項目那點事》的文章,主要是談到了百度打擊網站采集內容泛濫的決心,堅持鼓勵原創內容,原創作者,為原創提供合理的排序和流量。百度信誓旦旦地要堅持走識別原創之路,甚至不惜開創項目組打持久戰。對此,本人當然是舉雙手雙腳贊成的,只是這條原創識別之路走起來并不容易,甚至有可能衍生出越來越多的岔道。本人在此提出幾個疑點,就原創項目所面臨的問題提出一些看法。
首先,請分清楚依靠百度生存的網站和不依靠百度生存的網站。就是說有一些網站的流量并不是通過百度關鍵詞搜索進來的,他們并不在意seo和sem為何物。他們有一部分是最原始的建站思路,為了用戶體驗和用戶需要而去建站,用戶進入網站覺得好的就通過口碑相傳來不斷擴大用戶群;也有一部分網站是通過其他非搜索渠道為用戶得知,形成一個印象認識,時間久了就為越來越多用戶使用,這種方式如瀏覽器植入,軟件植入,導航網站展示等;還有部分網站是通過線下推廣為用戶所熟知,如早期的校內網,現在的團購網站等。所以,其實還是有不少網站是不需要依靠百度生存的,這些網站是否原創內容百度根本管不著。看下淘寶網干脆直接就用robots.txt屏蔽掉百度的收錄,卻依然是全球alexa排名前20的網站。所以只能說百度的原創項目是針對在百度體系下生存的網站。
其次,在百度體系下生存的高權重網站存在大量的相互采集相互轉載,百度如何打擊?在谷歌就有過大網站被狠狠打擊的情況,之前也有過一些中國大網站作弊,然后被谷歌降低pr的情況出現。但是百度對大網站就縱容得多,之前一個網站在“綠蘿算法”上線后依然是購買了數百友鏈的,觀察了幾個月這個網站居然一點降權的跡象都沒。也不知道是百度算法的問題,還是百度根本就對大網站無可奈何。試問下現在國內的大資訊門戶網站有多少新聞內容是不相同的呢?百度會對這些網站進行降權處理么?
其三,百度目前的原創識別“起源”算法對原創文章的識別到底有多精確?看看“起源”算法的原話:“首先,通過內容相似程度來聚合采集和原創,將相似網頁聚合在一起作為原創識別的候選集合;其次,對原創候選集合,通過作者、發布時間、鏈接指向、用戶評論、作者和站點的歷史原創情況、轉發軌跡等上百種因素來識別判斷出原創網頁;最后,通過價值分析系統判斷該原創內容的價值高低進而適當的指導最終排序。”這里提出的疑問是,假如說一篇原創文章先出現在一個低權重網站,百度又遲遲未收錄這篇文章,這時候一個高權重網站把這篇原創文章采集走了。百度怎么判斷?“起源”算法會起作用么?所以本人覺得百度應該提高“起源”算法對原創文章抓取機率,否則你一篇原創文章因為新站權重低難以被收錄,之后很久才收錄卻被百度認定為非原創了,那豈不冤枉?
第四,百度的原創識別對于非內容頁是怎么處理呢?現在有很多網站除了內容頁外還有很多內容列表頁,標題展示頁,產品頁,商鋪頁等,對于這些頁面百度是怎么處理?像一些分類信息網站或b2b網站的內容列表頁可以說是千變萬化,但也不排除列表內容中存在大量采集,他們的程序只需要調整一下列表內容發布的順序就可以制造出很多不同的列表頁,百度又如何識別呢?
最后,還是很支持百度開展原創項目的,只是希望這個項目能夠更加顧及到中小站長的利益,畢竟這些群體才是更加依存百度體系成長的。
本文由二五撰寫,更多內容請繼續關注 ,轉載請注明出處。
文章編輯: 365webcall網頁客服系統(www.365webcall.com)
我的評論
登錄賬號: | 密碼: | 快速注冊 | 找回密碼 | ![]() |