做互聯網已經2年,一直是做技術的,在網絡運營上卻是一片空白,說來真是慚愧的很。前一陣子決定自己做個站練練手,為將來從技術轉向運營鋪一下路。
由于從來沒有做過運營和網站推廣,運營方面的朋友認識的不是很多,因此做交換鏈接的可能性不大。而自己剛做站,就那么一點點流量做交換也實在對 不起人家。思前想后,對我來說最快的也是最可行的網站運營方法就是seo了,而且用seo來做網站運營和網站推廣跟技術更近一點,上手也比較快。于是看了 很多seo的資料,不管是seo優化網站的,還是用seo來作弊搞流量的,能看的都看了。但是寫這篇文章的目的不是告訴大家如何用seo優化更不是教大家 如何用seo作弊,畢竟我也是剛剛學,而且seo的教材和資料已經相當多了。我寫的肯定也沒有人家寫的好。我只是想用我的大米站的一些數據來對搜索引擎和 seo建立一些假設,然后推測一些結論,最后大家再討論一下,希望可以共同得到進步。
好了,廢話不說了,先說一下我大米站的基本情況。我的站是一個小說導航網站(多迷小說之家 http://www.duomimi.com/),基本思想就是把各大小說網站的小說資料都采集下來,然后分類整理放到我的網站上,用戶通過訪問我的網站就可以同時搜索到幾個大小說網站的所有小說資料并點擊觀看,同時也可以看到各站的排名,推薦,更新等信息。好了,不多說了,不然大家該以為我是在AD了。
首先是網站開發,界面仿照hao123,采用最簡單方便的asp+access,也是因為我的400mb的虛擬空間空間只支持asp和 access,系統一共只有4個頁面,分別是index.asp(主頁)、list.asp(列表頁)、search.asp(搜索 頁)\bookReader.asp(詳細頁),一天的時間搞定。其中主頁還做了一個模版用來生成靜態頁(由于服務器空間有限,不能把所有的頁面都生成靜 態頁,遺憾啊!把動態頁生成靜態頁這點很重要,搜索引擎更喜歡靜態頁,這點在所有的搜索引擎官方說明中都有說明的)。接下來是數據采集,先選定了5個小說 網站,分別是起點中文、小說閱讀、紅袖、瀟湘、新浪讀書,然后寫了個程序,自動把數據采集下來并保存到sqlserver數據庫上,用了2天的時間。大概 采集了190000多條吧,最后把數據再手動導入到access上(這里也有個小插曲,由于access數據庫是單文件單用戶的,功能非常有限。不能寫存 儲過程,所以翻頁只能用asp的Recordset對象,每次把所有符合條件的結果都放到內存中,然后再分頁,我的19萬數據每次都放到內存中,然后再從 中拿出20條來,速度和占用內存量可想而知。所以這里教大家一個小技巧,就是把每條要分頁的數據都加一個字段用來表示他出現的頁數,這樣每次只需要尋找這 個頁的數據就可以了,而且以后數據增加或者減少,只需要用畢加樹算法重新改一下頁字段問題就解決了。另一個頭痛的問題是access沒有全文檢索。所以數 據搜索基本靠like,我做過測試,數據量超過2萬就有可能出現內存溢出的現象,解決這個問題的辦法沒有別的,只有自己建倒排索引。這是我在用 access做大數據量處理時遇到的兩個問題和解決辦法,算是拋磚引玉吧)
網站做好,數據采集完畢,裝上51la免費流量統計,做個搜索引擎跟蹤器,就開始做試驗了。上線20多天,沒有做過什么推廣,只在貼吧中發過帖 子(很幸運有個帖子被頂起來了)。流量中,60%是百度搜索引擎來的,16%回頭客,16%貼吧(就是那個被頂起來的帖子),其它的是其它搜索引擎來的。 基本統計信息和收錄記錄如下圖:
(這里有個問題要說一下,我的域名和空間是去年9月份前后申請的,但是放了一個垃圾系統就再也沒有管。所以我在做多迷之前這個域名已經被bd和 gg收錄了,但是只有不到10頁的收錄量,所以我沒有花太多的時間讓搜索引擎收錄我,只是重新讓搜索引擎重新檢索我的網站而已)
再給大家看兩個數據,是我記錄的bd和gg的搜索機器人(bot)每天取我網站的次數。(如圖)
ok!現在開始分析,首先說一下網頁的設計,沒有frame,沒有沒必要的ajax,所有內鏈接都加上了title,沒有隱藏和堆砌關鍵詞,沒 有同色鏈接,就是說沒有進行seo作弊。(注:以下假設和分析只代我目前的一些看法,不一定是正確的,希望大家也可以分析一下,指出我不對的地方)
現象1
我的title中是這么寫的——duomimi 多迷小說之家---青春校園|散文|玄幻小說|小說連載|靈異恐怖|短篇小說|
靈異推理|童話寓言|言情小說|網絡小說|歷史武俠|武俠小說。搜索結果顯示我在“青春校園短篇小說”這個長尾
關鍵詞中是第一位。
假設:
頁面關鍵詞主要根據title標簽中的關鍵詞定,但是title中的關鍵詞堆砌沒有用,只會取第一個關鍵詞做為你網頁的主關鍵詞并在搜索引擎的索引上建立相關性排序。
現象2
同樣的時間bd收錄1170,gg收錄17。相差甚多
假設:
前人說的是對的,bd對新站感興趣,而gg對新站有考驗期的,考驗時間肯定在20天以上!
現象3
bd機器人每天搜索的次數變化很大,而gg每天的搜索的次數比較穩定。但是bd搜索的頁數和收錄的頁數差不多,而gg搜索的頁數和收錄的差很遠
假設:
bd對于新站是來著不懼,有多少收多少。只要是爬下來的頁,只要沒有作弊,都收錄上去先。而gg爬的頁不會馬上放上去。是扔了還是放在什么地方了就不知道了。
現象4
假設主頁的深度是0,主頁上的內鏈接是1,深度為1的頁上的內鏈接為2以此類推,深度越潛的頁面搜索的次數越多
假設:搜索引擎對深度潛的頁面更感興趣,可能使用這種方法來判斷更新的數據,當確定潛層頁面的數據都沒有
變化了才繼續往下爬。所以做站一定要時常更新,而且把更新的東西放得越潛越好,不要藏起來。
現象5
搜索引擎收錄的頁面中我的search頁面比例最大(bookreader頁是我后來加上去的以前沒有)。
假設:搜索引擎不喜歡列表頁,更喜歡詳細頁,作為判定的方法估計主要是通過內鏈接的數量來判斷,我的search頁的內鏈接很少,基本都是外鏈接。所以它把我的search頁當成是詳細頁了。
現象6
我在期間加了一個頁面bookreader頁,用戶點擊小說名稱后不再直接打開小說頁面,而是進入我的bookreader頁面,就是說我把以前的外連接變成了內鏈接。結果第二天,幾乎所有的搜索引擎的搜索數量都變少了。
假設:搜索引擎很討厭對頁面內鏈接的改變。所以盡量不要隨便改動頁面的內鏈接。
現象7
每次搜索一次list頁會隔比較長的時間再搜索下一個頁,而bookreader和search頁則會相隔的時間較短。
假設:由于list的內鏈接多,而bookreader和search頁內鏈接多,所以可能bd每天收錄的新鏈接數是有一個極限的。就是說,每天就收你這么多個鏈接,而這個數量應該對不同的站不同,我計算一下,我的站應該是在3000~4000左右
現象8
今天bd對我的搜索次數忽然有幾十變成1000多
假設:現在還沒有弄清楚怎么回事,要看以后的變化,可以肯定的是我沒有對站做過什么改動,只是每5分鐘更新一次主頁而已。難道是對我的站升級了??
目前為止就想到這8個現象,以后我會繼續跟蹤并回帖分析的。算是拋磚引玉吧,希望大家一起來討論