生成AIとSEOとゴミコンテンツと「基本はインデックスされない時代」【SEO情報まとめ】
「チャットAIでSEOコンテンツを自動生成」と考えたことがある人に読んでほしい、最新の生成AIとSEOやネットの情報を2つと、「これからは、インデックスされないことが普通」という情報を、ピックアップしてお届けする。
今回のピックアップは特別に3記事だ。それぞれ切り口が異なる別サイトの情報だが、3つあわせて読むことで見えてくるものがあるはずだ。
もちろん他の記事も、あなたのSEO力アップに役立つ情報を厳選している。Yahoo!検索、セマンティックHTML、キャッシュなどなど、あなたに必要な情報をみつけてほしい。
- AI生成コンテンツSEO、結局は専門家に頼まなきゃダメなら微妙じゃない?
- インデックスされるのが当たり前の時代は終わった⁉️
- 生成AIが書いたゴミコンテンツが増殖中。グーグルは対策するのか?
- ヤフー、グーグルとの検索事業の提携を終了か? ヤフー検索はどうなる?
- セマンティックHTMLはSEOに効果があるのか?
- 検索に表示されるためにはキャッシュされる必要があるか?
- 何度でも繰り返します! 「グーグル検索SEOに最適な文字数」なんて存在しない
- 新しいユーザーフィードバックフォームをグーグルが公開
- グーグル、サイトマップの pingエンドポイントを12月に終了へ
- SPAサイトをGA4で計測する方法
- GA4がようやくAMPをサポート
- Google Search Consoleのウェブに関する主な指標レポートにINPが追加される
今週のピックアップ
AI生成コンテンツSEO、結局は専門家に頼まなきゃダメなら微妙じゃない?
最初から専門家に書かせるほうが早い (Lily Ray on Twitter) 海外情報
米国の腕利きSEOコンサルタントのリリー・レイ氏が、生成AIに頼った記事作成に対する見解をツイッターに投稿していた:
「良い」AIコンテンツを書くための効果的なプロンプトを見つけ出す
専門家に依頼して、AIコンテンツの正確性を確認したり、独自の洞察で深掘りしたりしてもらう
そんなことをするなら、最初から専門家にコンテンツを書いてもらうほうが早いのでは?
あるいは、知識のあるライターでもいいでしょう。事実を確認するスキルをもっていて、突拍子もない完全な嘘を書かない人ならば。
Bardの現状が、AI生成コンテンツの正確性がどんなふうであるかの見本だとしたら※、そういったコンテンツ戦略には絶対に私はかかわりたくありません。
「このコンテンツがどれほど間違っているか」は、専門家でなければ判断できないのですから。
チャットAIなど生成AIに任せて記事を書かせることに、レイ氏は否定的だ。いちばんの理由は、事実とまったく異なる間違った情報が入り込む余地があるからだ(生成AIに適当な会社や人を説明させると、だいたい明らかな嘘情報が混じっているものだ)。
レイ氏の見解には筆者もまったく同感だ。生成AIは、内容が正しいかどうかまでは見ていない。学習した言語データをもとに(それらしい)文章を生成しているに過ぎない。
AIが書いた記事が誤情報を含む危険性については、先月開催されたSearch Central Live Tokyoでグーグルのゲイリー・イリース氏が繰り返し注意喚起していた。
となると、「質の高いコンテンツ」であることを担保するには、間違いを発見して修正してくれる専門家の知識が必要になる。それならば、最初から専門家に頼めばいいというのがレイ氏の意見だ。
まったくそのとおりだと思う。生成AIをアイデア探りや参考原稿づくりのツールとして使うことに反対はしない。また、生成AIをうまく使うプロンプトが作れるのならば、専門家にも適切な依頼をだせるだろう(「生成AIのプロンプト」と「人への依頼や指示」は性質として近いものがある)。
もちろん、情報の正確性にも独自性にも興味がなく、ただひたすらに「手間をかけずにコンテンツを増やす」ことが目的ならば、この考え方は当てはまらない。しかし、グーグルのゲイリー・イリース氏が「インデックスされるのが当たり前の時代は終わった」と言っているように、そんなコンテンツではインデックスされなくなっていく未来も遠くはないかもしれない(場合によっては、そうしたコンテンツを含むサイト全体が)。
- SEOがんばってる人用(ふつうの人は気にしなくていい)
インデックスされるのが当たり前の時代は終わった⁉️
高品質なコンテンツとウェブでの評判がカギ (Search Off the Record) 海外情報
グーグル検索のインデックスに関して、Search Off the Recordポッドキャストで、ゲイリー・イリース氏が次のように説明した。
非常にユニークで、人々が実際に興味をもつものを公開していない限り、インデックスに登録するのはかなり難しい。なぜならば、インターネットがその全体をインデックス化できないほどの大きさに成長してしまったからだ。
昔、私がまだ若かったころは、マイクロソフトのLive SearchやGoogleやAltaVistaなどの主要な検索エンジンで、ほとんど何でも見つけることができた。しかし、今では、すべてをインデックス化するのに十分な合理的な量のリソースがないので、検索エンジンはどこかで切り捨てる必要がある(ある基準を満たしていないページはインデックス化しないということ)。
つまり、サイト所有者の立場で言うと、「インデックスに登録してもらえるもの」だという期待は下げるべきだということだ。そうでなければ、コンテンツの質や興味深さやバイラル性を高められないか検討する必要がある。
いかにグーグルといえど、無限のリソースを所有しているわけではない。コンテンツが飽和している現代ではすべてをインデックすることはできない。そのため、すでにグーグルは、
- インデックスすべきコンテンツ
- インデックスするほどではないコンテンツ
を分別するようになっている。20年前や25年前とは異なり、コンテンツを作れば無条件でインデックスしてもらえる時代は終わった。むしろ、インデックスされないほうが当たり前の時代が訪れるかもしれない。
インデックスしてもらうには、より高品質なコンテンツと良い評判が重要になってくるとイリース氏は示唆している。つまり、コンテンツが良いだけでなく、
- 他の人に知ってもらい
- 話題にしてもらい
- その話題が広がる
ようにすることがSEOで重要になってくるかもしれないということだ。
- すべてのWeb担当者 必見!
生成AIが書いたゴミコンテンツが増殖中。グーグルは対策するのか?
ウェブのエコシステムを破壊してはいけない (MIT Technology Review) 国内情報
生成AIが書いた記事による厄介ごとが、起こり始めている(予想どおりというべきか)。
メディア研究機関のNewsGuard(ニュースガード)による新しいレポートによると、一部のウェブサイトではAIチャットボットを使って広告主を引きつける偽のニュース記事を作成しているということだ。これらのウェブサイトは「信頼できないAI生成ニュースウェブサイト」と呼ばれる。
そのようなページには大手ブランドの広告が掲載されていることが多く、そのほとんどは最大の広告取引所であるグーグルが配信しているという。この行為はGoogleの自身の方針に違反しており、広告主が支払う何十億ドルもの広告費を無駄にしている。
また、インターネット上の誤情報の問題を悪化させる恐れもある。なぜなら、これらの人工知能生成サイトの中には、有害な情報や虚偽の情報を拡散しているものがあるからだ(特に健康に関する話題で)。
NewsGuardは、生成AIシステムに特有のエラーメッセージを探すことで、これらのサイトを特定する方法を見つけた。レポートによると、NewsGuardは毎週約25件の新しいAI生成サイトを発見しており、そのほとんどは「誤情報を拡散している」とまではいかなくても、低品質でスパム的なものだという。
レポートは、プログラマティック広告業界における透明性と説明責任の向上を求めている。こうした「ゴミサイト」が作られる理由は、どんなゴミコンテンツであっても売上を生み出す広告システムがあるからだ。こうしたサイトをなんとかするには、収入源にメスを入れるべきだということだ。
とはいうものの、プログラマティック広告を完全に禁止するとインターネット経済に悪影響を及ぼす。そのため元記事のレポートでは、誤情報の拡散を防ぎ止めるためのより強力な仕組みを提案している。
いまの生成AIと大手プラットフォームに関する重要なトピックなので、ぜひ元記事を読んでほしい。
先日、ツイッターでこんな投稿があった。AIによる記事作成のツールを使って、記事を大量生産しているらしい(以下の内容を推奨するわけではない、あくまでも例示のためだ):
100%がAI生成のブログだが、(検索トラフィックが)増え続けている。(文字どおり労力ゼロで)ビジネスのトラフィックを増加させる方法を教えてあげよう。
繰り返すが、上記ツイートの内容を推奨するわけではない。そもそも、ツールを紹介するリンクがアフィリエイトリンクで、具体的なサイトを明かしていないので、アフィリエイト報酬のためのでっちあげかもしれない。
「手間をかけずにコンテンツ(ページ)を増やす」という欲求は昔から変わらず存在しており、それに対応する(と謳う)ツールやサービスは常にある。
グーグルは「人が書いたものであろうが、AIが書いたものであろうが、検索ユーザーに役立つコンテンツであれば問題ない」としている。しかし、生成AIだけで作成し人間がレビューしていない記事には、誤情報が入り込んでいる可能性がかなり高い。検索トラフィックが伸び続けているとはいえ、本当にユーザーの役に立つ記事を公開できているのかどうか疑わしい。
さらには、そうしたゴミコンテンツをAIが学習に使えば、状況はどんどん悪化していく。
こうした状況が続けば、グーグルは確実に何らかの対応をしてくるはずだ。実際にグーグルはそうした対応をしてきている。
たとえば2010年ごろには、安価なライターをたくさん雇い、コンテンツを大量に公開して検索に引っ掛からせて収益を上げるサイトが増殖していた。検索トラフィックを集めるためだけに作られたコンテンツで、どれもこれも低品質なコンテンツばかりだった。そんなおり、グーグルはパンダアップデートと呼ぶ新しいランキングシステムで対策した。パンダアップデートは、SEO業界が震撼するくらいの大変動を引き起こした(パンダ検索システムはすでにコアランキングシステムに組み込まれている)。
検索エンジンファーストのコンテンツが検索結果に出ないようにするという目的では、最近では、ヘルプフル コンテンツ アップデートが記憶に新しい(さほど大きな変動は起こさなかったようだが)。
AIだけで作成したコンテンツの寿命が長いとは思えない。結局は痛い目を見るだけだ。“ゴミ”コンテンツを撒き散らして、ウェブのエコシステムを破壊するような行為には絶対に手を染めてほしくない。
- すべてのWeb担当者 必見!
グーグル検索SEO情報①
ヤフー、グーグルとの検索事業の提携を終了か? ヤフー検索はどうなる?
次の検索システムは韓国NAVERか? (日本経済新聞) 国内情報
ヤフーは、検索サービス「Yahoo!検索」において、米グーグル関連企業から提供されている検索エンジン技術について他社への切り替えを検討していると、日本経済新聞が報じた。
すでに意識していない人も多いかもしれないが、現在のYahoo!検索では、検索エンジンとしてグーグルのシステムを利用している。ヤフー独自のコンテンツを盛り込むため検索結果はグーグルと完全には同一ではないが、ベースとなる検索のインデックスやアルゴリズムは、グーグルの検索システムから提供されている。
歴史的にはそうでない時期もあった。ヤフーは、2004年5月から「YST」と呼ぶ独自の検索システムを用いて検索サービスを提供してきた。しかし、2010年に独自の検索サービスの提供を終了し、以来グーグルの技術提供を受けていた。
さて、話を本題に戻そう。
ヤフーは、グーグルではなく別の検索システムを利用して検索エンジンサービスを提供するというのだ。「バケットテスト」と呼ぶ、少数のユーザーを対象にしたA/Bテストをすでに始めているらしい。
ヤフーを展開するIT大手「Zホールディングス」は、「ヤフー」と「LINE」などを2023年度中をめどに合併する方針を発表している。新会社の名称は「LINEヤフー」であり、その資本関係をたどると韓国のネイバーがある。ネイバーは、韓国で最大のシェアを誇る検索サービス「NAVER検索」を提供している。次は、NAVER検索のシステムを利用して検索サービスを提供するのではないかとの憶測も出ている。
「ヤフー検索結果≒グーグル検索結果」の状況だった今までは、SEOにおいて両者の違いを特に意識する必要はなかった。しかし、ヤフーがどの検索システムに乗り換えるかによっては、SEO担当者が違いを意識して仕事を進める必要が出てくるかもしれない。Bing検索も重要視しているなら、3つの検索エンジンを意識しなければならなくなるだろう。
もっとも、どの検索エンジンも、関連性があり高品質なコンテンツをユーザーに届けることを最優先する点において違いはない(と期待したい)。ユーザーの役に立つコンテンツ作りとユーザー体験を高める改善に注力する取り組みを今後も続けていくことに変わりはない。
- SEOがんばってる人用(ふつうの人は気にしなくていい)
セマンティックHTMLはSEOに効果があるのか?
検索エンジンの理解に役立つ (#AskGooglebot on YouTube) 海外情報
セマンティックHTMLは、検索エンジンがコンテンツを理解してと評価するのに役立ちますか?
この質問に、グーグルのジョン・ミューラー氏が動画で回答した:
簡単な答えは「はい」で、ページを理解するのにセマンティックHTMLは役立つ。しかし、ウェブサイトの順位を上げるための魔法のような掛け算ではない。
一歩引いて考えると、セマンティックHTMLとは、HTML要素それぞれの意味に基づいてコンテンツを構造化することで、HTML要素を「見た目」ではなく「意味」で使用することだ。
たとえば、次のようなものだ:
テキストを大きく目立つ表示にするために、そうしたスタイルのクラス名付きdivを使う(見た目)<div class="big">~</div>
そのテキストが見出しであることを示すために、見出しの意味をもったHTMLタグのh2を使う(意味)<h2>~</h2>
ここではSEOの目的のために簡単に説明したが、多くのニュアンスが存在する。
グーグルに役立つセマンティックHTMLのいくつかの例を挙げると、次のようなものがある(すべてのHTML要素について説明するのは多すぎるのでここではできないが、多くのドキュメントが存在する):
- テキストはセクション分けして、適切な見出しをつける
- テキストでの説明付近に、関連する画像を埋め込む
- tableタグは、レイアウトのために使うのではなく、表形式のデータのために使う
- リンクにはclickイベントハンドラではなくaタグを使用する
似たような要素について、私たちのシステムは厳格なわけではない。たとえば、テキストをグループ化する際には、
section
要素article
要素div
要素どれを使っていても、ほとんどの要素は同じように扱わる。
とはいうものの、セマンティックHTMLは次のような利点がある:
- アクセシビリティなどの非SEO的な理由でも、使う価値がある
- ページが有効なHTMLになる傾向がある
つまり、簡潔に言えば、セマンティックHTMLを使うといい。ランキング要因ではないが、私たちのシステムがコンテンツをより良く理解するのに役立つ。
正しい文法でHTMLを記述したからといって、それだけでランキングが上がることはない。これは間違いない。
しかし、本来の意味に基づいたHTML要素を使うと、検索エンジンのページ理解を助ける効果がある。これも間違いない
CSSで太字強調して見出しに見せるよりも、<h2>
タグや<h3>
タグでマークアップすれば、見出しだと検索エンジンは確実に理解できる。「・」でリスト形式にするのではなく、<ul>
タグと<li>
タグでマークアップすれば並列関係の列挙だと確実に理解できる。
セマンティックを意識したHTML要素の使用は、(SEOの観点では)原理主義的にこだわるものではない。しかし、簡単にできることだし、長期的にみてSEOや読者の役に立つので、やらない手はないだろう。
- SEOがんばってる人用(ふつうの人は気にしなくていい)
- 検索に表示されるためにはキャッシュされる必要があるか?
- 何度でも繰り返します! 「グーグル検索SEOに最適な文字数」なんて存在しない
- 新しいユーザーフィードバックフォームをグーグルが公開
- グーグル、サイトマップの pingエンドポイントを12月に終了へ
- SPAサイトをGA4で計測する方法
- GA4がようやくAMPをサポート
- Google Search Consoleのウェブに関する主な指標レポートにINPが追加される
グーグル検索SEO情報②
検索に表示されるためにはキャッシュされる必要があるか?
必須条件ではない (#AskGooglebot on YouTube) 海外情報
ページをグーグルの検索結果で表示するには、そのページが(グーグルに)キャッシュされている必要がありますか?
この質問にグーグルのジョン・ミューラー氏が動画で解説した(この「キャッシュ」の正確な意味は後述):
簡単に言えば、答えは「いいえ」だ。ページがグーグルにキャッシュされている必要はない。
詳細は少し複雑だ。いくつかの具体的な点を見てみよう。
Google検索における「ページのキャッシュ」と「ページのインデックス」は、同一だとは限らない。多くの場合は同じものだが、キャッシュは必ずしもインデックスそのものを反映しているわけではない。
グーグルのシステム設計上の都合で、インデックスしてもキャッシュしない場合がある。
ページのHTMLでrobots metaタグに
noarchive
を指定していたら、グーグルはページをキャッシュしない。ページがJavaScriptで作られたSPAの場合、キャッシュされたページでJavaScriptが動作してもページが正しく表示されない場合がある(ページがグーグルのドメイン名から読み込まれるため、ブラウザのセキュリティポリシーによりデータを正しく取得できない場合がある)。
要するに、ページがキャッシュされていないからといって、そのページのインデックスに問題があるというわけではない。
キャッシュは検索に必要ではない。
「キャッシュ」はいろいろな意味があるので判断が難しいが、ここでいうキャッシュは検索結果から見ることができるページのコピーのことだ。
ページによってはキャッシュが見られないことがある。だからといって、そのページがインデックスされていないわけではない。キャッシュが見られなくても、正常にインデックスされていて検索結果に表示されるのはごく普通にある。キャッシュされない理由はいくつかあり、一部はミューラー氏が説明したとおりだ。
筆者のブログでは全ページにnoarchiveを設定しているので、キャッシュは表示されない。しかし検索結果にはきちんと出ているし、検索トラフィックもある。
改めて結論を述べると、グーグルの検索結果から確認できるキャッシュは、インデックスやランキングとは関係ない。
- ホントにSEOを極めたい人だけ
何度でも繰り返します! 「グーグル検索SEOに最適な文字数」なんて存在しない
重要なのは欲しい情報が手に入るかどうか (Google SearchLiaison on Twitter) 国内情報
グーグル検索の広報を担当しているツイッターアカウントが、次のようなメッセージを投稿していた:
備忘録: グーグル検索で成功するために必要な最適な単語数は……そういったものは存在しません。コンテンツを読む人のために、必要なだけ長くまたは短く書いてください。それが、私たちのランキングシステムが評価しようと目指すものと一致しています。
https://developers.google.com/search/docs/fundamentals/creating-helpful-content
グーグル検索に評価されるには文字数が関わってくると信じている人が常に存在するため、あらためて注意喚起したのだろう(グーグルが提供しているオンライン講座でさえも「ページには300ワード以上書く」という完全に誤った指南をしていたほどだ)。
このコラムで何度も繰り返してきたが、次のどちらもグーグル検索のランキング要因ではない:
- ×ページの文字数
- ×キーワード出現率
重要なのは、訪問したユーザーが期待していた情報や体験がそのページで手に入るかどうかだ。そして、その期待はユーザーやコンテキストによって異なるため、単純な文字数で
- 長ければ長いほどいい
- 適切な文字数がある
- 短ければ短いほどいい
のように決められるものではないのだ。
- すべてのWeb担当者 必見!
新しいユーザーフィードバックフォームをグーグルが公開
検索結果に出てくるスパムサイトや低品質コンテンツを通報しよう (グーグル 検索セントラル ブログ) 国内情報
スパムレポートのフォームを、グーグルが刷新した。スパムだけではなく、「低品質なサイト」や「ユーザーにとって有害な偽のサイト」も通報できるようになっている。「検索の質に関するユーザー レポート」「ユーザー フィードバック フォーム」という位置づけだ。
一括送信(最大5件)やレポート送信後の確認メールなどの改良も、新しいフィードバックフォームには加えられた。
ユーザーフィードバックの扱いについて、グーグルは次のように述べている:
ユーザー フィードバックは、自動スパム検出システムでは網羅できていない部分を特定するうえで役に立つと同時に、ランキングのアルゴリズム改善にも活用されます。
検索結果の品質を低下させるようなサイトに遭遇したら、フォームからグーグルに報告しよう。そうした報告が検索システムの改善に活かされれば、結果として、正しいSEOに取り組んでいる人たちの利益になるはずだ。
- SEOがんばってる人用(ふつうの人は気にしなくていい)
グーグル、サイトマップの pingエンドポイントを12月に終了へ
lastmodは重要 (グーグル 検索セントラル ブログ) 国内情報
グーグルは、「サイトマップのping エンドポイント」のサポートを2023年内で終了することを、検索セントラルブログでアナウンスした。
「pingエンドポイント」とは、簡潔に言うと、サイトマップの更新を検索エンジンに通知する仕組みだ。通知を受け取った検索エンジンはサイトマップを確認しにくる。pingを使わなければ、検索エンジンは、自らが設定したスケジュールに基づいてサイトマップを確認しにくる。
有用な技術ではあるのだが、グーグル検索においてはさほど役立っておらず、むしろスパムに利用されがちなのだという。そのためサポートを打ち切ることになった。サポート終了は「6か月後」とのことなので、有効なのは2023年いっぱいと考えていいだろう。
大規模なサイトではpingを有効活用していたところもあるようだが、残念ながら使えなくなってしまう。Search Consoleやrobots.txtを介してのサイトマップ送信は依然として有効だが、サイトマップの確認のタイミングはグーグルのスケジュール次第だ。
またアナウンス記事では、サイトマップで利用できるlastmod
要素の有用性についても解説している。lastmod
は、ページ最終更新日時の情報をサイトマップで示す仕組みだ。検索エンジンは、前回のクロールより後にページが更新されていることを認識すると、そのURLを優先的にクロールしようとする。
ただし、lastmodの使用には次のような注意点がある:
- 正しい日時フォーマットで記述する
- 虚偽の日時を記述しない
- 重要な更新がページに発生したときにだけ利用する
詳細は元記事で確認してほしい。
- SEOがんばってる人用(ふつうの人は気にしなくていい)
- 技術がわかる人に伝えましょう
SPAサイトをGA4で計測する方法
いくつもの罠あり (株式会社アユダンテ) 国内情報
GA4でのSPAの計測方法をアユダンテの西村彰悟氏が解説した。冒頭で西村氏は次のように述べている:
SPAでのGA4計測はやや複雑で「カスタムディメンションの値がおかしくなる」「二重ページビュー計測の発生」「GTMは完璧に設定したのに計測できない」など幾つもの罠が潜んでいます。
こうした問題が発生する理由と対策方法を西村氏は説明してくれている。
Googleアナリティクスの前バージョンであるユニバーサルアナリティクス(UA)は、公式には7月1日でサポートを終了している。GoogleアナリティクスでSPAサイトを計測していて対応がまだ間に合っていなければ、参考になるだろう(SPAではない通常のサイトにはほとんど関係ない内容だ)。
- アクセス解析担当者に伝えましょう
海外SEO情報ブログの
掲載記事からピックアップ
GA4のAMPサポートとSCのINPサポートを今週はピックアップ。
- GA4がようやくAMPをサポート
滑り込みセーフ?
- AMP配信しているすべてのWeb担当者 必見!
- アクセス解析担当者に伝えましょう
- Google Search Consoleのウェブに関する主な指標レポートにINPが追加される
管理サイトのINPの状況を把握しよう
- SEOがんばってる人用(ふつうの人は気にしなくていい)
ソーシャルもやってます!