在過去一年左右的時間里,你可能已經看到TF-IDF一詞被拋出,很多搜索引擎優化風潮來去匆匆,一些最有趣的搜索引擎優化最終會吸引懲罰,對吧?
但TF-IDF有點不同。
TF-IDF算法不是對搜索引擎的操縱,它是一種分析內容主題的方法,它建立在與搜索引擎本身相同的原則之上。因此,對于需要真正客觀的方法來衡量和改進內容的SEOer來說,它具有驚人的潛力。
我最近剛剛將案例研究完全包含在其能力范圍內,結果非常有趣。
我想確保在我獲得從個人實驗中學到的內容之前,我將了解TF-IDF的知識,以及它是如何使用的。
TF-IDF是什么?
在字面上,它表示術語頻率乘以逆文檔頻率。
TF-IDF是一個結合了這兩個測量的方程式,測量一個術語在頁面上的使用頻率(TF),以及測量該術語在一個集合的所有頁面(IDF)中出現的頻率 – 來分配得分或權重,該術語對頁面的重要性。
該方程在學術界有著悠久的歷史,語言學和信息架構等領域的研究人員將其用作在短時間內分析大量文檔庫的方法。
它也被信息檢索程序(包括所有搜索引擎)用于有效地排序和判斷數百萬結果的相關性。
你想做什么和搜索引擎想要用同樣的信息做什么之間有一個重要的區別。
搜索引擎想要考慮由網絡上的所有結果組成的集合,而您想要將一個頁面或網站與僅僅表現不佳的網站進行比較….?即前10名。
更深入地看看TF和IDF …… TF-IDF的等式
您可能需要做一些數學計算才能獲得所有測量,即TF和IDF。但我保證不會那么困難。根據應用,TF-IDF的等式可能比我在下面使用的示例復雜得多。
無論是否簡化,如果您嘗試優化網站,通常不希望被手工抓住。這些方程式將幫助您了解TF-IDF的功能,但它是我在最后討論的工具,真正開辟了潛力。
通過對一個術語出現在一個頁面上的次數進行原始計數,解決第一個術語頻率。然后,將該數字插入下面的等式:
期限頻率=(原始計數)/(文件總字數)
TF分數可以告訴你是否過于頻繁地使用單詞,但只有在權衡其他指標時它才真正有用。
通過將術語出現的文檔數除以所選集合中的文檔總數來計算逆文檔頻率,如下所示:
反向文檔頻率(術語)= log(文檔數/ /(包含關鍵字的文檔)
通過IDF分數,您現在可以衡量短語對頁面的重要性,而不僅僅是其使用次數,這很重要,因為它讓您了解構建搜索引擎算法的人的心態。
為什么TF-IDF對SEO很重要?
能夠填寫此等式的最終目標是能夠為您的內容提供可操作的相關性分數。使用TF-IDF工具,您可以將您的分數與任何學期的最佳表現分數進行比較。
通過對此度量的頁面進行評分,您幾乎可以了解Google,百度如何對專用于同一主題的網站進行評分。
目前尚不清楚谷歌或百度等搜索引擎是否在他們的算法中使用TF-IDF,如果是,那么它是否是一種變異形式?也就是說,有一些私人相關性研究,我已經知道,其數據表明它可能。TF-IDF分析允許您根據算法已經獎勵的內容優化內容中的術語平衡。
使用TF-IDF增強關鍵字研究
TF-IDF比關鍵字密度更進一步,它可以讓您了解網站上整個單詞系列的見解。
例如,假設您已經完成關鍵字研究以優化“SEO培訓南寧”的頁面。大多數關鍵詞研究工具都會吐出像“南寧的SEO培訓”,“南寧SEO培訓”等關鍵詞。
當您使用我稍后介紹的TF-IDF工具時,您還可以找到在使用常規關鍵字研究之前您從未找到的排名靠前的頁面使用的相關非SEO術語?!昂戏ā?,“經驗豐富”,“權利”和“實踐”等術語。
這些詞語不會出現在關鍵詞研究工具中,因為文章本身并沒有為他們排名,但他們需要講述搜索意圖的故事。
如何使用TF-IDF?
假設您正在檢查的文檔(例如客戶端的登錄頁面)包含術語“PPC”12次,并且長度大約為100個字。如果您想開始分析這段內容,首先要將其插入前面的術語頻率方程式中。
TF(PPC)=(12/100)= 0.12
現在,假設您想了解這種用法??與網絡其他部分的使用情況的比較。從10,000,000的樣本大小來看,這些頁面中的至少一些將是關于Web服務的,并且將包括對PPC的引用。比方說,300,000。
我們可以使用這些數字來完成逆文檔頻率方程。
IDF(PPC)= log(10,000,000 / 300,000)= 1.52
現在,您使用TF-IDF等式基于該術語對頁面進行評分
TF-IDF(PPC)= 0.12 * 1.52 = 0.182
事實是,這不是一個滿足限制的問題。您希望將目標字詞的得分與第1頁上效果最佳的網址進行平衡。
某個學期的高分并不一定是好事(畢竟,100個單詞中的12個使用很多)。
那些像“是”,“這個”或“和”這樣的常用詞呢?由于方程式的結構,這種噪音并不是真正的問題。
整套文件經常使用這些單詞,因此這些單詞的重要性大大縮小。
讓我們回到這個等式。為了真正說明差異,我們會說頁面上的“是”和“PPC”一樣多。
TF(是)=(12/100)= 0.12
但是看看當我們完成IDF方程時會發生什么,知道絕大多數結果將包含“是”這個詞,比如8,000,000個。
IDF(是)= log(10,000,000 / 8,000,000)= 0.09
這將產生最終的TF-IDF值:
TF-IDF(是)= 0 .12 * 0.09 = 0.010
TF-IDF值與文檔中使用短語的次數成比例增加,但在這種情況下,它在整個集合的其余部分中被字的頻率所抵消,其值分數與最后一個例子。
換句話說,這個詞越常見,IDF越小。
短語怎么樣?
搜索引擎傾向于在單個術語上給予多詞短語特大的權重。
在考慮語言的自然質量時尤其如此。
當然,您希望將這些考慮因素用于執行TF-IDF評估。
幸運的是,您不需要額外的努力,大多數TF-IDF工具都能夠將關鍵字計算為2字和3字版本。
當TF-IDF專門用于學術和研究目的時,術語已被計算為稱為雙字母組的雙字組或稱為三元組的3字組。搜索引擎采用了同樣的做法,因此以與他們相同的方式分析您的內容非常重要。
使用之前PPC頁面的示例,讓我們看一下可能出現在該頁面上的短語,以及這些短語可能對該主題提出的建議。
“PPC廣告系列需要很多廣告”
這個短語中的每組兩個單詞都可以計算為一組雙字母組合。
一個PPC
PPC活動
活動需求
等等
當添加第三個單詞時,當考慮更長的短語時,會更清楚地添加多少重要的上下文。
PPC活動
PPC活動需求
等等
并非所有TF-IDF工具都能夠處理兩種以上的組合,TF-IDF幾乎適合任何SEO的內容開發過程。
在開始構建內容之前,這是一種學習更多知識的方法,然后知道在哪里以及如何再次完善它。
一旦選擇了工具,只需逐步了解每個關鍵字選擇的過程。如果您還沒有選擇TF-IDF工具,可以在下一節中找到我用它們執行的測試中的數據。
1)寫內容
將內容寫入您所知道的最高標準,或參考您為客戶優化的內容。創建一個包含一個,兩個或三個單詞的主題列表,并將其添加到您選擇的TF-IDF工具中。
您的目標是定位關鍵字以及定位它們的頂級域名的網址,以揭示您缺少哪些主題,以及您沒有深入討論哪些主題。
2)插入TF-IDF工具
每個工具的工作方式略有不同,他們還會跟蹤不同的信息,但最有用的信息是幫助您了解競爭對手如何通過使用關鍵字獲得成功。
利用您選擇的工具所具有的任何功能,幫助您發現與排名前10-20的頂級網址相關聯的字詞,然后生成反映其所使用的每個其他字詞的權重的分數。
3)重新優化內容
現在您已經完全了解了每個競爭對手所涵蓋的主題,并了解了這些詞的使用頻率,您可以使用該信息來優化您自己的內容。
對內容進行第二次傳遞,并尋找自然的方式來介紹您尚未涉及的主題。請記住,你的動機不是不自然,而是恢復他們目前失蹤的自然聯系。
4)發布
使用您最近從搜索中收集的見解發布更新的內容。從這里,您可以繼續分析它,以及排名的任何變化。
5)在TF-IDF圖之前和之后顯示
TF-IDF的一個獎勵是它允許您在非常微小的水平上跟蹤性能。在對內容進行的每次調整之前和之后,您都可以生成有關頁面上主題平衡如何變化的圖表。這些對于有興趣查看您在其內容中所做更改的特定指標的客戶非常有用。
TF-IDF工具
博主只找到一些針對Google等英文搜索引擎優化的TF-IDF工具,對于中文TF-IDF工具暫時沒有找到。
1.text-tools
2.ftf.agency
結論
我希望這篇文章能夠幫助我們清楚地了解TF-IDF分析。
您不僅學習了它背后的數學,還了解它如何應用于SEO并在您的文章中創建相關性。
- TF-IDF算法解釋