谷歌的PageRank算法,解釋

SEO觀點:
今天早些時候,Majestic的Dixon Jones 在Twitter上分享 關於PageRank實際如何運作的徹底,易懂的解釋。
我自己給了它一塊手錶,並認為這是一個重溫這個過去20年來對世界產生了很大影響的數學的好時機。
作為旁注,我們知道 截至2017年 當PageRank在2016年從工具欄中刪除時,它 仍然是整體排名算法的重要組成部分, 因此值得理解。
瓊斯 從簡單開始 – 或至少,直截了當 – 公式。

對於那些不喜歡數學的人,或者自從上一個微積分課以來可能忘記了一些技術術語的人,這個公式會像這樣大聲朗讀:
“此迭代中頁面的PageRank等於1減去阻尼因子,加上對於頁面中的每個鏈接(除了鏈接到自身),添加該頁面的頁面排名除以頁面上的出站鏈接數量和 減阻因子減少了。“
回到最初的Google論文
在這一點上,瓊斯在視頻中向前推進了一個更簡單,更有用的計算版本。 他推出了excel,一個簡單的5節點視覺效果,並在15次迭代中繪製出排名算法。 好東西。
就個人而言,我想要更多的數學,所以我回去讀了“”的全長版本 大型超文本Web搜索引擎的剖析 “(自然的第一步)。 這是Larry Page和Sergey Brin在1997年撰寫的論文.Aka是他們在斯坦福大學計算機科學係出版的Google的論文。 (是的,它很長,今晚我會工作一點。一切都很有趣!)
這對於一條開場線怎麼樣:“ 在本文中,我們向Google展示了一個大型搜索引擎的原型,它大量使用了超文本中存在的結構。 “
休閒,按照他們的整體,持續的風格。
作為一個額外有趣的事實, 我們自己的搜索引擎觀察在Google首張論文中被引用! 除了佩奇和布林本人之外,截至1997年11月已經有1億個網絡文件。
無論如何,回去工作。
以下是最初定義PageRank計算的方法:
“學術引文文獻已應用於網絡,主要是通過計算給定頁面的引用或反向鏈接。 這給出了頁面重要性或質量的一些近似值。 PageRank通過不平等地計算來自所有頁面的鏈接以及通過頁面上的鏈接數量進行標準化來擴展這一想法。 PageRank定義如下:
我們假設頁面A具有指向它的頁面T1 … Tn(即,引用)。 參數d是阻尼係數,可以設置在0和1之間。我們通常將d設置為0.85。 關於d的更多細節將在下一節中介紹。 此外,C(A)被定義為從頁面A出來的鏈接數。頁面A的PageRank如下:
PR(A)=(1-d)+ d(PR(T1)/ C(T1)+ … + PR(Tn)/ C(Tn))
請注意,PageRanks在網頁上形成概率分佈,因此所有網頁的PageRanks總和為1。
PageRank或 PR(A) 可以使用簡單的迭代算法計算,並且對應於web的歸一化鏈接矩陣的主特徵向量。 此外,在中型工作站上,可以在幾個小時內計算出2600萬個網頁的PageRank。 還有許多其他細節超出了本文的範圍。“
那是什麼意思?
和我們一起承擔! 這是我們的公式:
PR(A)=(1-d)+ d(PR(T1)/ C(T1)+ … + PR(Tn)/ C(Tn))
請注意,這與上圖相同,不同之處在於照片通過替換大寫sigma(Σ)來“簡化”等式的第二部分,這是一個數學求和的符號,即對所有頁面執行此公式1 通過n然後將它們加起來。
因此,為了計算給定頁面A的PageRank,我們首先取1減去阻尼因子(d)。 D通常設置為.85,如其原始論文中所示。
然後,我們獲取指向和來自頁面A的所有頁面的PageRank,將它們相加,然後乘以阻尼因子0.85。
沒那麼糟,對吧? 說起來容易做起來難。

PageRank是一種迭代算法
也許你的眼睛盯著這個部分,但是 布林和謝爾蓋實際上使用了“特徵向量”這個詞 在他們的定義中。 我不得不查一查。
顯然,特徵向量在微分方程中起著重要作用。 前綴“eigen”來自德語的“正確”或“特徵”。還存在特徵值和特徵。
如 羅傑斯指出 在他關於PageRank的經典論文中,關於特徵向量片的最大特色是它是一種數學類型,讓你可以使用多個運動部件。 “我們可以繼續計算頁面的PageRank 不知道其他頁面的PR的最終值 。 這似乎很奇怪,但基本上,每次我們運行計算時,我們都會對最終值進行更接近的估計。 所以我們需要做的就是記住我們計算的每個值,並重複計算很多次,直到數字停止變化很多。“
或者換句話說, 特徵向量的重要性在於PageRank是一種迭代算法 。 重複計算的次數越多,越接近最準確的數字。
PageRank在Excel中可視化
在他的視頻中 瓊斯非常直接地參與了有趣的部分,這就是為什麼它在短短18分鐘內如此有效。 他演示瞭如何通過5個相互鏈接的網站的例子來計算PageRank。

然後他將它帶回到excel的計算中:

並演示如何通過在底部取數字行並重複計算來迭代。
這樣做, 數字最終開始趨於平穩 (僅在15次迭代後):

或者正如有些人可能會將這張照片標題為“野外的特徵向量”。
瓊斯提出的其他有趣觀察:
鏈接計數(只是總數)是一個糟糕的指標。 我們需要更多地關注每個頁面的排名。
這是排名 重要的頁面級別,而不是域權限 。 PageRank只查看過各個頁面。
大多數頁面根本沒有任何排名。 在他的例子中,前10名中的前3名佔總排名的75-80%。
最後,這是最初的推文讓我失去了這個長而鉚接的兔子洞。 希望大家都喜歡!

幹得好。 PageRank如何工作 https://t.co/OO7J0KChsr CC @RyanJones 和 @JosephKlok 和任何願意轉推的人。
– 迪克森(@Dixon_Jones) 2018年10月25日


Close Menu