グーグルのAIに自社コンテンツを学習させたくない! Bardをブロックするrobots.txt指定【SEO情報まとめ】

「ChatGPTにもBardにも、生成AIの学習にウチのコンテンツを使わせない!」そんなあなたに朗報。GPTBotに加えて、グーグルのAIによる学習を防ぐ方法が公開された
よろしければこちらもご覧ください

「ChatGPTにもBardにも、生成AIの学習にウチのコンテンツを使わせない!」そんなあなたに朗報。GPTBotに加えて、グーグルのAIによる学習を防ぐ方法が公開された。

ChatGPTとBard(とVertex AI)による学習をまとめて禁止するrobots.txtの指定も紹介する。

ピックアップ意外にも、今回も良ネタが多数。

9月のヘルプフル コンテンツ アップデートの特徴「広告UX」と「実経験」、10月のコア アップデートとスパムアップデートなど、グーグル情報が3件。

さらに検索結果でのサイト名表示、Googleビジネスプロフィールの新機能などなど、グーグル最新事情から、SEO以外にも役立つ情報まで、今週もあなたに役立つネタを吸収していただきたい。

  • グーグルのAIに自社サイトのコンテンツを学習させたくない! Bardをブロックするrobots.txt指定
  • 2023年9月のヘルプフル コンテンツ アップデートの特徴:広告UXと実世界の経験が重要な要因
  • Googleがまたもやコア アップデートを実施。前回からわずか1か月後
  • 10月のスパムアップデートは、クローキング・ハッキング・自動生成・スクレイピングの対策を強化
  • 2023年9月のGoogle検索オフィスアワー: site演算子の利用、サイトメンテ時のステータスコード、SGEのパフォーマンス分析など
  • 検索結果でのサイト名表示を修正する方法
  • 知らないと痛い目に遭う!? robots.txtとnoindexの併用は意味なし
  • GBPでソーシャルメディアのリンクを管理できるようになった
  • 生成AIとは? BardやChatGPTなどのAIチャットはどのような仕組みで動くのか?
  • 既存コンテンツを再活用するリパーパスとは?
  • Google Discoverのトラフィックが変化する理由から読み解くDiscover最適化
  • Bingチャットからのトラフィックをウェブマスターツールがレポートするように

今週のピックアップ

グーグルのAIに自社サイトのコンテンツを学習させたくない! Bardをブロックするrobots.txt指定
Google-Extendedをrobots.txtでブロック (Google Search Central) 海外情報

自分が管理するサイトをBardなどグーグルのAIで学習対象としないように指定できる(と思われる)ユーザーエージェント名を、グーグルが公開した。Google-Extendedというユーザーエージェント名だ(対象はBardとVertex AIのGenerative API)。

BardやVertex AI generative APIにサイトを利用されたくなければ、robots.txtGoogle-Extendedを拒否(disallow)指定すると、サイトのコンテンツを学習データとして利用されないようにできると思われる

サイト全体のコンテンツ利用を拒否するなら次のように記述する:

Use-Agent: Google-Extended
Disallow: /

グーグルではなChatGPTに自社コンテンツを学習させたくない場合は、GPTBotrobots.txtでブロックすればよかった。

グーグルとChatGPTの両方をブロックするには、robots.txtで次のようにする:

User-agent: GPTBot
Disallow: /

Use-Agent: Google-Extended
Disallow: /

ニューヨークタイムズやアマゾンなど多くのメジャーサイトがすでにGPTBotをブロックしていた。筆者が調べた限りでは、GPTBotをブロックしていても、Google-Extendedはブロックしていないサイトが今のところは大多数だった。ニューヨークタイムズやワシントンポスト、アマゾンはブロックしていなかった。

しかし、ベンチャービートスタック・オーバーフローGPTBotに加えてGoogle-Extendedもブロックしていた。

GPTBotGoogle-Extendedをブロックするサイトは今後増えていくのかもしれない。

※「思われる」と表現し、断言しなかったのは、解説ページ内にある次の記載が理由だ:

自社サイトがBardおよびVertex AIのGenerative APIの改善に役立つかどうかを管理するために使用する

(use to manage whether their sites help improve Bard and Vertex AI generative APIs)

「管理する」が具体的に何を意味するのかはっきりしない。おそらく、ブロックすることでページのクロールを拒否する(つまり学習データとしてのコンテンツ利用を防止できる)のだと思われる。ただ、本当にこれだけで学習に使わせない設定となるのが確実かが不明なため、本文のような表記とした。

★★★★☆
  • ホントにSEOを極めたい人だけ
  • 技術がわかる人に伝えましょう

グーグル検索SEO情報①

2023年9月のヘルプフル コンテンツ アップデートの特徴:広告UX実世界の経験が重要な要因
2人のSEOプロによる分析結果 (GSQi & Marie Heynes) 海外情報

2023年9月のヘルプフル コンテンツ アップデートをグーグルが実施したことを、前回お伝えした。すでに展開を完了している。

検索アップデート分析に定評があるグレン・ゲイブ氏とマリー・ヘインズ氏による、今回のアップデートに対する見解を紹介する。

ゲイブ氏の見解「大きな影響、広告でUXが悪いサイトにも影響」

今回のアップデートの特徴

  • さまざまなカテゴリや分野で役に立たないコンテンツを対象とした過去3回のなかでは最も大きな影響を与えたアップデート。多くのサイトがランキングとトラフィックの大幅な減少を経験した。

  • 質の低いコンテンツに加えて、広告によるひどいUXを持つサイトが影響を受けている。ユーザーをイライラさせたり気を散らせたりすることなく、広告とコンテンツのバランスを取る必要性がある。

リカバリ方法

  • ユーザーを助ける高品質かつ洞察に満ちたコンテンツを提供することに集中する
  • 広告やポップアップ、自動再生ビデオなどでユーザーを圧倒することを避ける
  • ユーザー調査の実施と、広告のUXに関するGoogleのweb.devの記事を確認する

ヘインズ氏の見解「経験も権威性もないサイトは順位低下」

    今回のアップデートの特徴

    • 大規模なアップデートで、実世界での経験が不足しているコンテンツや、テーマに関する権威だとみなされないコンテンツが、ランキング下降の対象になった

    • SEO手法、過剰あるいは不要なコンテンツ、健康に関する適切な根拠のない主張、他のサイトでの製品レビューなどを掲載するサイトが影響を受ける可能性が高い

    • ユーザー生成コンテンツや実際の体験談、本人の経験を扱うサイトは評価される可能性が高い

    リカバリ方法

    • ウェブやユーザーに価値をほとんど提供しない「有益でないコンテンツ」を削除または修正する
    • 情熱・魅力・有益性を持ち、そのトピックの専門家だと知られるようになる
    • フォーラム(掲示板)やYouTubeショート、その他の方法を利用して、経験と独創性をアピールする
◇◇◇

ゲイブ氏とヘインズ氏は、それぞれのブログで非常に詳しい分析結果を共有している。興味があれば、原文も参照してほしい:

どちらも、今回のヘルプフル コンテンツ アップデートで影響を受けていないとしても、サイト改善の役にたつ見解だ。

★★★★★
  • SEOがんばってる人用(ふつうの人は気にしなくていい)

Googleがまたもやコア アップデートを実施。前回からわずか1か月後
コメント (Google Search Central on X) 海外情報

2023年10月のコアアップデートを、グーグルが10月5日(太平洋時間)に実施した。2023年8月のコアアップデートは9月7日に展開を完了したのだが、わずか1か月後に次のコア アップデートが始まった。

大きなアップデートをグーグルが短期間に実施するケースは稀だ。間隔が狭い理由は定かではない。前回のコア アップデートが想定どおりに機能しなかったのだろうか?

前回のコアアップデートはE-E-A-Tの「Experience」を高く評価するようにではないかという分析があった。今回のコア アップデートについて特筆すべき傾向の情報が入れば、このコーナーで共有する。

展開完了までには2週間程度かかる見込みだ。状況は検索ステータスダッシュボードで確認できる。

★★★☆☆
  • SEOがんばってる人用(ふつうの人は気にしなくていい)

10月のスパムアップデートは、クローキング・ハッキング・自動生成・スクレイピングの対策を強化
全言語対象だが、一部の言語に大きなインパクトあり (グーグル 検索セントラルブログ) 国内情報

グーグルは、2023年10月のスパムアップデートの展開を10月4日(太平洋時間)に開始した。前回のスパムアップデートが2022年10月だったのでちょうど1年が経過している。

※10月5日に実施したのは「コア アップデート」で、本件とは別

すべての言語が対象だが、特に、次の言語で大きな影響を与えるだろうとのことだ(スパムサイトが検索結果に出なくなる):

  • トルコ語
  • ベトナム語
  • インドネシア語
  • ヒンドゥー語
  • 中国語

また、次の種類のスパムへの対策が強化されている:

  • クローキング
  • ハッキング
  • 自動生成
  • スクレイピング

スパム行為を働いていなければ恐れることはない。逆に、恩恵をこうむるだけだ。

★★★☆☆
  • SEOがんばってる人用(ふつうの人は気にしなくていい)

2023年9月のGoogle検索オフィスアワー: site演算子の利用、サイトメンテ時のステータスコード、SGEのパフォーマンス分析など
上級者からの質問あり (Google 検索オフィスアワー on YouTube) 国内情報

2023年9月のGoogle検索オフィスアワーをあんな氏がYouTubeに公開した。あんな氏が回答した質問は次の10個だ。

  • site: 演算子の利用(5:16
  • Search Console と検索結果の乖離(6:59
  • サイトメンテナンス時のステータスコード(9:17
  • SGE 内リンクのパフォーマンス分析(11:02
  • 意図しないサイト名が表示される(12:54
  • インデックスのステータス「保留」が続く(15:20
  • ページ上の小さな YouTube 埋め込み動画(17:29
  • 日本語キーワードハックへの対応(19:26
  • 日本語検索での ruby 要素関連の扱い(22:02
  • フィッシング被害と検索順位(23:00

今回は上級者からの質問にも回答している。タイムラインは再生箇所にリンクしてあるので、気になった質問の回答だけでも確認しておきたい。

グーグル検索に関して疑問があれば、こちらのフォームから送っておこう。次回以降のオフィスアワーであんな氏が回答してくれる。

★★★★☆
  • SEOがんばってる人用(ふつうの人は気にしなくていい)
グーグル検索SEO情報②
  • 検索結果でのサイト名表示を修正する方法
  • 知らないと痛い目に遭う!? robots.txtとnoindexの併用は意味なし
  • GBPでソーシャルメディアのリンクを管理できるようになった
  • 生成AIとは? BardやChatGPTなどのAIチャットはどのような仕組みで動くのか?
  • 既存コンテンツを再活用するリパーパスとは?
海外SEO情報ブログの掲載記事から
  • Google Discoverのトラフィックが変化する理由から読み解くDiscover最適化
  • Bingチャットからのトラフィックをウェブマスターツールがレポートするように

グーグル検索SEO情報②

検索結果でのサイト名表示を修正する方法
「SEOは簡単」動画シリーズ第1弾 (SEO Made Easy on YouTube) 海外情報

SEO Made Easy(SEOなんて難しくない)」というタイトルでSEOの基礎を解説するYouTube動画シリーズを、グーグルのマーティン・スプリット氏が始めた。第1回のトピックは検索結果に表示されるサイト名の修正についてだ。

日本語訳は次のとおりだ(動画に日本語字幕があるが、以下の訳は編集部で読みやすく手を加えている):

こんにちは、「SEO Made Easy(SEOなんて難しくない)」へようこそ。今日は、Google検索でサイト名を表示する方法についてお話します。

ラテン語のことわざに「Nomen est omen(名は体を表す)」とあるように、グーグル検索で何かを探す際、サイト名はユーザーにとって重要な手がかりとなります。しかし、グーグルがサイト名をうまく認識できず、検索結果でのサイト名表示を変えたい場合はどうすればいいでしょうか。

グーグル検索が正しいサイト名を認識し、希望の表示方法で示すのに役立つよう、構造化データをウェブサイトの一部として提供できます。トップページのコンテンツに構造化データを少し追加することで、検索結果でサイト名をどう表示してほしいかを、グーグルに指示できます。

構造化データをサイトのコンテンツに追加できない方は、すべてのページのタイトルに、サイト名を一貫した表記で含めるようにしてください。コンテンツ管理システムによっては、サイト名を設定すれば自動的にそうしてくれるものもあります。しかし、そうした機能を利用できない場合は、ページ固有のタイトルの前後に手動でサイト名を追加する必要があるでしょう。

また、注意してほしいことがあります。サイト名の設定は、サブドメインやトップレベルドメインでは機能しますが、ディレクトリレベルでは機能しないということです。

これを実施したら、グーグルが更新を処理してサイト名を表示するまで少し時間が必要です。また、Search Consoleを使用して、新しい構造化データを含めてトップページを再インデックスするようにリクエストすることで、この処理にかかる時間を多少短縮できます。

サイト自体の認知度やブランドを高めるためにも、検索結果での正しいサイト名の表示は重要だ。サイト名設定の詳細は検索セントラルの技術ドキュメントで確認できる。

★★★★☆
  • SEOがんばってる人用(ふつうの人は気にしなくていい)
  • 技術がわかる人に伝えましょう

知らないと痛い目に遭う!? robots.txtとnoindexの併用は意味なし
グーグル社員が注意を呼びかけ (Gary Illyes on LinkedIn) 海外情報

robots.txtnoindex robots metaタグの併用について、グーグルのゲイリー・イリース氏がリンクトインで注意を呼びかけた。

特定のパス(URL)に対して、

  • robots.txtファイルでdisallow
  • HTMLページ内でrobots metaタグにnoindex

のルールを同時に指定した場合、検索エンジンはdisallowルールのみを参照することに注意してください。

disallowでクロールすることが許可されないため、HTMLページのnoindexを読み込めないことが理由です。

robots.txtdisallowは、そのページを検索エンジンが読み取ることを拒否する命令だ。ページの中身を検索エンジンは見られないので、記述してあるnoindexを認識できない。ページを絶対に検索結果に出したくないときにやってしまいがちなミスだ。

もう何年も前に、このコラムで詳しく解説したことがある。こちらから読める。SEO業界に長い人ならば聞き飽きた話題かもしれない。しかし、知らないうちはやってしまいがちなことだろう。改めて注意喚起しておく。

★★★★★
  • すべてのWeb担当者 必見!

GBPでソーシャルメディアのリンクを管理できるようになった
今まではグーグルが自動で選択 (Google ビジネス プロフィール ヘルプ) 国内情報

ローカルSEO(GBP:Googleビジネスプロフィール)の良い話題をお届けする。

ローカルナレッジパネルには、そのビジネスが運営するソーシャル メディアのリンクが掲載されることがある。

これまでは、ここにどのページへのリンクが出るかをグーグルが自動で認識していたのだが、それが変わった。Googleビジネスプロフィールで管理できるようになったのだ。

次のソーシャルメディアをサポートしている:

  • Facebook(フェイスブック)
  • Instagram(インスタグラム)
  • LinkedIn(リンクトイン)
  • Pinterest(ピンタレスト)
  • TikTok(ティックトック)
  • X(旧ツイッター)
  • YouTube(ユーチューブ)

管理手順はヘルプ記事を参照してほしい。

★★★★☆
  • GBP運用するすべてのWeb担当者 必見!

生成AIとは? BardやChatGPTなどのAIチャットはどのような仕組みで動くのか?
グーグルがわかりやすく解説 (グーグル検索ヘルプ) 国内情報

生成AIについて概要を解説するグーグル検索のへルプページを紹介する。このコンテンツの公開時期は定かではないのだが、1か月はたっていないはずだ。

生成AIは、BardやChatGPTの基盤となる技術だ。ヘルプ記事は次の点について説明している:

  • 生成 AI の概要と仕組み
  • 生成 AI の使用方法と回答の正確性の評価
  • Google による AI の開発

専門的な詳細な解説ではなく、全体像をつかむためのざっくりとした解説だ。それでも知識として頭に入っていれば、AIチャットを上手に使うヒントになるし、AIチャットの限界を知ることもできる。

特に「生成 AI の利用方法」セクションは、どんな目的で利用するといいのか(とその注意点)を簡潔に説明していて、わかりやすい。

ひととおり目を通しておくことをおすすめする。

★★★★☆
  • AIチャットを上手に使えるようになりたい人用(ふつうの人は気にしなくていい)

既存コンテンツを再活用するリパーパスとは?
コンテンツ生産コストを削減しながら、より多くのユーザーに伝えられる (株式会社JADE) 国内情報

コンテンツの「リパーパス(Repurpose、流用や別用途での使用の意味)」を解説する記事を紹介する。JADEの日西氏によるものだ。

リパーパスを日西氏は次のように定義している。

既存のコンテンツを再利用し、異なる形式やプラットフォームで展開することで、効率的な情報拡散を実現するコンテンツマーケティング戦略

コンテンツの生産コストを削減しながら、より多くのユーザーにコンテンツを伝えることができるのが、リパーパスのメリットだ。

JADEのリパーパス例として次のようなものを挙げている:

  • ライブ配信の切り抜き動画
  • 月次報告会のスレッドコンテンツ
  • 紙芝居形式コンテンツ

このほかにも、さまざまな形式に変換したリパーパスコンテンツの作成方法と効果の実例を紹介している。

筆者が参加する海外のSEOカンファレンスでは、リパーパスはしばしば取り上げられる。しかし、日本ではあまり耳にしない。JADEの例以外にも次のようなリパーパスが考えられる:

  • 記事コンテンツの動画化やポッドキャスト化
  • YouTube動画の一部をYouTubeショートやTikTokのショート動画に変換(そこから本編やサイトに誘導)
  • ホワイトペーパーの要約をブログ記事で公開(ダウンロードを促す)

コンテンツの種類は多種多様だ。さまざまなリパーパスが考えられる。日西氏は、リパーパスのポイントを次のようにまとめている:

伝える相手や場所やアプローチを変えることで、1つのコンテンツを多角的に利用すること。自社内に眠っているあらゆるコンテンツを再活用すること

あなたもリパーパスにチャレンジしてみよう。リパーパスの具体的なやり方は元記事で学んでほしい。

★★★★☆
  • すべてのWeb担当者 必見!

海外SEO情報ブログの
掲載記事からピックアップ

DiscoverとBingチャットに関する記事をピックアップ。

この記事の筆者

【執筆】

鈴木 謙一(すずき けんいち)

「海外SEO情報ブログ」の運営者。株式会社Faber Companyの取締役Search Advocate(サーチ・アドボケイト)。

海外SEO情報ブログは、SEOに特化した日本ではもっとも有名なSEO系ブログの1つ。米国発の最新のSEO情報を中心に、コンバージョン率アップやユーザーエクスペリエンス最適化のための施策も取り上げている。

正しいSEOをウェブ担当者に習得してもらうために、ブログでの情報発信に加えて所属先のFaber Companyでは、セミナー講師や講演スピーカーを主たる役割にしている。

テーマ別カテゴリ: