最新グーグルSEO要因と順位の関係7つのポイント、サイバーエージェントと京都大学が共同研究
「最新グーグルSEO要因と順位の関係7つのポイント ~京都大学との共同研究によるデータ分析にみる」と題した講演には、サイバーエージェントの木村賢氏が登壇。京都大学と協力してさまざまな角度からGoogleのアルゴリズムを分析した結果が発表され、今後のSEO対策やコンテンツ作りの大きな指針が示された。
京都大学との共同研究でGoogleのランキング影響要因を分析
「2012年から京都大学とSEOやGoogleアルゴリズムの研究を行っている
」と話す木村氏は、京都大学経済学研究科の飯山将晃准教授と、検索アルゴリズム分析に関する共同研究を行っていることを明かし、今回はその分析結果を発表したいと話す。
Googleは昨今、パンダアップデート(コンテンツの質の再評価)やペンギンアップデート(外部リンク使用についての再評価)を行い、スパム行為へのペナルティをより厳しくしてきている。一歩間違えば大幅にランクを下げる可能性があるなかで、これまでの経験に基づく勘だけ運用するのは危険であり、根拠を得るためにもしっかりとした検証の必要性を感じたサイバーエージェントでは、機械学習による検証を行い、安全かつ確実なSEOを行おうと考え、京都大学との共同研究を始めたという。
これまでさまざまな取り組みを行ったという木村氏は、仮説を立てても当たらないことも多く、空振りに思ったものも多かったことを明かす。研究成果のなかから、今回解説するのは「オーガニックサーチのランクと各要素の相関」と「重要要素の最適値の検証」の2つだ。
木村氏が京都大学と行った分析は、数百キーワードでGoogleのオーガニック検索を行った結果の上位100位のURLでさまざまな要素のデータを取得し、それを基に機械学習を行うというものだ。取得するデータは約180項目だが、たとえば次のような項目が含まれている。
インデックス数 | title内対象キーワード単語位置 #max | 被リンク総数 |
インデックス数(サイトトップ) | title総単語数 | 調査対象被リンク総数 |
インデックス数(ディレクトリトップ) | titleユニーク単語数 | 被リンクサイト数 |
ページ表示速度 | titleとbodyの関連度 | 自ドメインからの被リンク数 |
ドメインエイジ(NA=-1) | titleとアンカーの一致度 | 自サイトからの被リンク |
各タグ内のキーワード数 | h1とtitleの一致度 | 自サイト以外からの被リンク |
meta keyword 対象キーワード数 | lint点数(HTML文法チェック) #合計 | Facebookいいね!数 |
meta keyword 文字数 | headサイズ #合計 | Facebookシェア数 |
meta description総文字数 | bodyサイズ #合計 | Facebookいいね!・シェア・コメント数 |
発リンク数(in) | ページランク #合計 | Facebookクリック数 |
発リンク数(out) | 動的か否か? #TRUEの数 | Twitterツイート数 |
title内対象キーワード数 | プレーンテキスト総単語数 #合計 | Yahoo!ブックマーク |
取得したデータを基にした分析手法では、上位のサイトのデータ項目の傾向を機械学習させ、そのアルゴリズムを用いて順位を予想し、実際のGoogleでの順位との誤差でアルゴリズムの信頼度を決めている。また、これらの分析結果を解説する前に木村氏は、相関関係があるからといって必ずしも因果関係があるわけではないこと、相関が大きければよいわけではないこと、定量データ以外は計測できていない(今回のデータがすべてではない)ことを注意点として示している。
インデックス数が最も高い相関を示す
続いて、ランクとの相関が大きい要素として圧倒的に大きかったのが「インデックス数」であったことを示す木村氏は、物理的にURLの配下にあるページ数がランクとの相関が大きいと説明する。
また、ディレクトリトップやサイトトップのインデックス数も相関が大きい要素として挙げられている。被リンク数に関連する要素(被リンク総数、被リンクサイト数、調査対象被リンク数など)も相関が大きい。ソーシャルシグナル関連との相関も低くはないが、タグの文字数などはあまり相関がないと木村氏は説明し、これらの関係を次の3つにまとめた。
- 検索順位との相関性が非常に高い項目
「被リンク数」「インデックス数」 - 検索順位との相関性が比較的高い項目
「単語数」「ソーシャルシグナル」 - 検索順位との相関性が時々高い項目
「発リンク数」「Google(TB)PageRank」
2013年2月の段階でこれらの6つの項目の相関を分析した木村氏は、相関の大小でランクに影響があるのか、そこに最適値があるのかを調べるため、さまざまな分析手法で各数値の特徴を把握していったと説明し、次の7項目に考察をまとめる形で研究を発表していった。
- 被リンク数関連
- インデックス数関連
- 単語数関連
- ソーシャルシグナル関連
- 発リンク数関連
- PageRank関連
- HTML文法関連
1. 被リンク数関連
ホワイトハットな真のリンク価値が相対的に高まっていく
「被リンク数関連」では、一定ラインまでは、被リンク総数が増えるとランクが上がる可能性が高まるが、一定数を超えたあたりから勝率が急激に下がったと説明する。「被リンク総数が一定数を超えると、ペナルティ確認のチェックが入るのではないか
」というのが木村氏の仮説だ。また、被リンク総数だけでなく、被リンクサイト数や非リンクIP数でも同様に、ある一定の数より多くなると勝率が急激に下がったという。
「被リンク数関連」を意識してどのような対策をとればよいか、木村氏は、自作自演リンクに関してのチェックをGoogleが多角的に行っており、リンク数が非常に多いサイトには疑いがかけられる可能性が高いと話す。とはいえ、被リンク数は非常に重要な要素であるため、安全なリンクをどれだけ集められるかが勝負であると木村氏は説明する。
Googleによるスパムの排除は進んでいるため、スパムではない真のリンクの効果は相対的に高まるはず。安全なリンクが集まれば今まで以上に高い効果になる(木村氏)
2. インデックス数関連
キーワードとの関連性を高めた良質なコンテンツを作る
2つ目のポイントは「インデックス数関連」。木村氏の調査によると、インデックス数が多いほうがやや優位となるが、数値が大きくなると勝率が不安定になるという。そのURLに所属しているディレクトリのインデックス数について調べても、同様の結果となった。
一方、サイトのインデックス数では、サンプル数が少なかったものの、多いほうが優位だが極端に多いものは非常に勝率が下がる結果になっている。これについて木村氏は、膨大なサイトでは重複コンテンツやページネーションなどの問題が発生しやすく、Googleが考える「無駄なページ」が多くなっていることや、UGC(User Generated Content)で品質担保が困難になっていることが原因と考えられるとしている。
これらの分析から、基本的にインデックス数は多いほうが良いが、品質が低かったり、キーワードに無関係な情報を大量に含めたりすることは、マイナス要因になることもあるという。木村氏は、量を意識するのではなく、順位を上げたいキーワードとの関連性を高める情報をコンテンツとして含め、共起語(「野球」と「グローブ」のようにセットで使われることが多い語句)や関連語などを意識して、キーワードを構成する要素を確実に含めることが重要だと解説した。
Googleは、コンテンツの方向性を確実に見ており、一貫したテーマに則したコンテンツにするのが好ましく、関連性の薄いコンテンツを量産して無理にインデックス数を増やさないほうがよいという。
3. 単語数関連
共起語や関連語を意識して情報量を増やす
3つ目の「単語数関連」では、基本的に多いほうが優位だが、あまりに多すぎると不安定になる傾向となり、プレーンテキストユニーク単語数と勝率の関係でも同様の結果となっている。ただし、ユニーク単語数のほうが許容範囲で上回る点に注目した木村氏は、無理に単語を増やしたり、同じ単語を繰り返したりした場合はマイナスになる可能性があると説明する。
「共起語や関連語などを意識して情報量を増やし、単語の繰り返しを避けることで安全に相関を持たせることができる
」とする木村氏は、共起語や関連語を意識することは、Googleの最新のアルゴリズム「Hummingbird(ハミングバード)」に対しても有効だと語った。
4. ソーシャルシグナル関連
ソーシャルメディア本来の目的を忘れずに、正しく運用する
ある程度関連性がありそうだとされた「ソーシャルシグナル関連」は、Facebookのいいね!やTwitter上のリンクや言及数などのこと。Googleは相関関係がないと言っているが、FacebookやTwitterのソーシャルシグナル数が多ければ勝率が上がる傾向は出ていると木村氏は説明する。
しかし、クローラーがたどれない(公開設定されていない)Facebookページなどの影響が高いとは考えられず、良いコンテンツであるからこそソーシャルでシェアされ、間接的に認知力やブランド力が高まって自然に被リンク数が増えていることが要因で、直接的な因果関係があるとはまだ言えないようだ。
一方、Google+のソーシャルシグナル数は多いほど良い結果となっており、明らかに相関がありそうなデータを示しているが、Google+の場合はオリジナルの投稿のリンクだけが直リンクとなり、クローラーが(一般のWebページと同様に)フォローできるためではないか、と木村氏は分析する。また、良いコンテンツがソーシャル以外でもシェアされる可能性が高いことに加え、ソーシャル上で評価が高いコンテンツの傾向を機械学習し、Googleのアルゴリズムに反映されている可能性もあるという。
そもそもソーシャルでの拡散はSEOだけを意識して行うものではなく、ソーシャルメディア上でのブランド作りやマーケティングを正しく行えば問題ない(木村氏)
5. 発リンク数関連
発リンクは積極的に行ってPageRankは気にしない
5つ目の「発リンク数関連」は、専門家のなかでも意見が分かれる要素だが、サイト内とサイト外、どちらの発リンクとも多いほうが良い傾向にあるという。
「こんなにキレイに右肩上がりとなるのは意外
」と話す木村氏は、「発リンクを止めるとランクが下がるという実感がある」という話を聞いたことがあることを明かす。そのうえで木村氏は、「多ければよいというわけではないが、発リンクがネガティブに働くことはない
」と説明する。
トップページやカテゴリページなど、ハブとなるページではサイト内リンクが多くなる傾向にあるため評価が上がりやすく、サイト外リンクも少なくともマイナスになることはなく、必要なら積極的にリンクするべきだと木村氏は語った。
6. PageRank関連
ページランクを意識するよりも別の施策にリソースを
6つ目は「PageRank関連」だ。
Googleが内部で持つPageRankとブラウザのツールバーに表示されるPageRankは別のものであり、SEOで意識する必要がないことは広く知られている。
木村氏も、PageRankについては数が多ければ多いほど勝率が上がってはいるが、たまに相関関係がでてくるものであり、「正確性やリアルタイム性に欠けるため意識する必要はなく、参考程度に考えて別の指標を試したほうがよい
」と説明している。
7. HTML文法関連
常識通りのコーディングができているか
相関性の高い6つの要素を説明してきた木村氏は、7つ目のポイントとして、データとしては出にくいが重要だと思われる「HTML文法関連」について説明する。
HTML文法が正しいことが重要かどうかを調べるために木村氏は、文法チェックプログラムの「HTML-lint」の点数によって比較を行っているが「極論を言えば因果関係がなく、むしろ点数が高いほどランクが不安定になる傾向にある
」と話している。
HTML文法は、コンテンツを運ぶメッセンジャーでしかなく、SEOにおいて特別に重要なわけではないため、常識通りのコーディングをしていれば、「今は」大丈夫なのではないか、と木村氏は分析する。ただし、「最近はHTML関連の構造化の話が大きくなってきているので、今後は構造化の効果を注視していきたい
」という。
被リンクはノースパムが鉄則、取り返しがつかないリスクは取らない
分析結果を発表した木村氏は、最後に7つの項目のポイントを次のようにまとめる。
- 被リンクの効果は依然あるがノースパムが鉄則
- コンテンツ量は必要な量を必要なだけ
- 単語数は共起語、関連語を意識して繰り返しを避ける
- ソーシャルメディアは通常のマーケティングの一環として活用
- 発リンクは必要なものは積極的に
- PageRankは参考数値(もしくはゲーム)程度に
- HTMLは正しくコンテンツを伝える意識で
また、特に重要なポイントとして、被リンクを獲得する際のリスクに言及した。
被リンクはノースパムが鉄則で、さまざまな施策を行ってみてもいいが、もし仮にリンクを買おうとするのであれば、取り返しのつくようなSEOをやるようにしてほしい。スパムリンクが要因でランクが下がってしまうと、リカバリが難しく、長い間四苦八苦している人もいる(木村氏)
また、Googleが好きなタイプを「おしゃべり(語彙力が高く、言い換えができる)」「物知り(知識が豊富で内容が充実)」「人気者(被リンクが多い)」「誠実(スパムをしない)」とまとめて、基調講演を終えた。
ソーシャルもやってます!