検索結果における PDF ファイルの取り扱いについてのヒント | Google ウェブマスター向け公式ブログ

Google ウェブマスター向け公式ブログ - 2011年9月20日(火) 11:12

このページは、外部サイト Google ウェブマスター向け公式ブログの情報をRSSフィード経由で取得して表示しているため、記事の一部分しか表示されていなかったり、画像などが正しく表示されなかったり、オリジナル記事が意図したデザインと異なっていたりする場合があります。
完全な状態のオリジナル記事は「検索結果における PDF ファイルの取り扱いについてのヒント」からご覧ください。

Google の使命は、世界中の情報を整理し、世界中の人々がアクセスできて使えるようにすることです。この使命を遂行するなかで、時として HTML 形式以外のファイル、たとえば PDF、表計算、プレゼンテーション用スライドといった形式のファイルに遭遇することがあります。ファイル形式が違うからといって、Google のアルゴリズムに支障が生じることはありません。Google では、関連性の高いコンテンツを抽出し、適切なインデックス登録を行って検索結果に反映させるよう取り組んでいます。このようなファイル形式は、標準的な HTML 形式とは大きく異なるものですが、実際にはどのようにインデックス登録されているのか、どういったガイドラインが設けられているのか、そしてファイルをインデックスに登録して欲しくない場合には、ウェブマスターの皆様はどうしたらよいか、ご存知でしょうか？

Google は 2001 年に PDF ファイルのインデックス登録を開始（英語）し、現在では数億件もの PDF ファイルがインデックスに登録されています。今回は、PDF のインデックス登録に関して、よく寄せられる質問とその回答をまとめてみました。

質問: Google では、どんな形式の PDF ファイルでもインデックス登録できるのですか？
答え:一般的に、各種文字コードを使用した PDF ファイルに含まれているテキストコンテンツは、どのような言語で書かれていようと、そのファイルがパスワード保護または暗号化されている場合を除き、インデックスに登録できます。テキストが画像として埋め込まれている場合は、Google ではその画像を OCR （英語）アルゴリズムで処理し、テキストを抽出することができます。簡単に言うと、PDF 文書内のテキストをコピーして、標準的なテキスト文書にペーストできるのであれば、そのテキストはインデックス登録が可能です。

質問: PDF ファイル内の画像はどうなるのですか？
答え: 現時点では、PDF ファイル内の画像はインデックスには登録されません。画像をインデックス登録するには、その画像用の HTML ページを作成する必要があります。ご自分のサイトの画像が検索結果に含まれる可能性を高めたい場合は、ヘルプセンターに記述されているアドバイスを参考にしてください。

質問: PDF 文書内のリンクはどのように取り扱われるのですか？
答え: 一般に、PDF ファイル内のリンクは HTML 内のリンクと同じように扱われます。つまり、リンクから PageRank をはじめとするインデックス登録のシグナルが渡されるので、Google は、その PDF ファイルをクロールしたのち、リンクをフォローできるようになります。現在のところ、PDF ファイル内のリンクに対しては nofollow 属性は設定できません。

質問: PDF ファイルを検索結果に表示させないようにするにはどうしたらいいですか？既に検索結果に表示されている場合は、どのようにしたら削除できますか？
答え: PDF 文書を検索結果に表示させないようにする一番簡単な方法は、そのファイル用の HTTP ヘッダーに X-Robots-Tag: noindex を追加するという方法です。既にインデックスに登録されている場合は、X-Robot-Tag で noindex を指定すれば、しばらく時間が経つとインデックスから除外されていきます。早急に削除したい場合は、Google ウェブマスターツールの URL 削除ツールを使用してください。

質問: PDF ファイルでも検索結果の上位にランクされますか？
答え: もちろんです。通常、他のウェブサイトと同じようにランキングされます。たとえば、[mortgage market review]、[irs form 2011]、[paracetamol expert report] で検索してみると、いずれも検索結果の上位に P
DF 文書が表示されます（注: この記事の作成時点）。これは、文書の内容と、サイトへの埋め込み方法、そして他のウェブページからのリンク状況に基づいた結果です。

質問: ページを HTML と PDF の両方の形式で提供していると、重複コンテンツと見なされるのでしょうか？
答え: できれば、コンテンツは 1 つだけにすることをお勧めします。それが難しい場合は、どちらのバージョンを優先するのかを必ず示すようにしてください。その方法としては、サイトマップに優先 URL を含める方法や、HTML 内または PDF 文書の HTTP ヘッダー内で canonical （優先）バージョンを設定する方法などがあります。詳しくは正規化に関するヘルプセンターの記事を参照してください。

質問: 検索結果に表示される PDF 文書のタイトルはカスタマイズできますか？
答え: 表示するタイトルの生成には、ファイル内のタイトルメタデータとその PDF ファイルを指すリンクのアンカーテキストという 2 つの主要要素を使用しています。Google のアルゴリズムに対して、適切なタイトルを示したい場合は、上記要素を両方ともアップデートすることをお勧めします。

詳しくは、Matt Cutt による動画 PDF ファイルを検索用に最適化する（英語）をご覧ください。また、インデックスに登録できるコンテンツ形式については、ヘルプセンターでご確認いただけます。ご質問やご意見がありましたら、ウェブマスターヘルプフォーラムへお寄せください。

Posted by Gary Illyes, Webmaster Trends Analyst
Original version: PDFs in Google search results

オリジナル記事検索結果における PDF ファイルの取り扱いについてのヒントを元サイトで見る
Google ウェブマスター向け公式ブログからのコンテンツをもっと見る

検索結果における PDF ファイルの取り扱いについてのヒント | Google ウェブマスター向け公式ブログ

最新のニュース

Web担は、企画広告も役立つ情報バッチリ！

人気記事トップ10（過去7日間）

今日の用語

連載/特集コーナーから探す

編集部からのお知らせ

インフォメーション

Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]

検索フォーム

検索結果における PDF ファイルの取り扱いについてのヒント | Google ウェブマスター向け公式ブログ

最新のニュース

Web担は、企画広告も役立つ情報バッチリ！

人気記事トップ10（過去7日間）

今日の用語

連載/特集コーナーから探す

編集部からのお知らせ

インフォメーション

Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]