GAのレポートにある「(other)」と「(not set)」の意味を説明できる? その仕組みと対処法[第23回]
Googleアナリティクスのレポートで、表示項目の中に「(other)」あるいは「(not set)」といった表示に出くわしたことはないだろうか? 見たことはあっても、いざ意味を説明しろと言われると難しいという人もいるかもしれない。今回はこれらの正体が何なのかということと、対処する方法があるのかといった話をしよう。
なお、検索キーワードで表示される「(not provided)」については別の記事で解説する。
- 「(other)」と「(not set)」の意味がわかる
- それぞれどう対応すればいいかがわかる
「(other)」は「その他」をまとめて集計したもの
「(other)」は、ひと言でいうと「その他」をまとめたもの。「ページ(URL)」や「キーワード」といった項目数が非常に多くなるディメンションで出現する値だ(ディメンションについて詳しくは第10回を参照)。
たとえば図1は、[コンテンツ]>[サイト コンテンツ]>[すべてのページ]レポートのデータ一覧表示部分だ。「ページ」の値である「 / 」(トップページ)などが表示されている部分に、普通のページ名とは明らかに異なる「(other)」という表示がある(図1赤枠部分)。そしてその行の右側にある指標部分(図1青枠部分)には、何らかの数字が表示されていることがわかる。
この「(other)」はどういう場合に表示されるのだろうか? 「other」は、日本語に直せば「その他」という意味だが、まさに「その他」をまとめたものなのだ。
「(other)」が表示されるタイプは大きく次の2つがある。今回は前者に焦点を当てて話を進める。
- 項目数が膨大になってデータベースからあふれた分をまとめる場合
- Googleアナリティクスがあらかじめ用意した分類に当てはまらないものをまとめる場合
なお後者のタイプが該当するのは、集客チャネルを分類するディメンションである「Default Channel Grouping」「MCF チャネル グループ」「デフォルト チャネル グループ」などだ(図2赤枠部分)。これらは本連載の別の記事で解説する予定だが、ここでは詳しくは触れない。中には「(その他)」と日本語で表示される場合もある(図2青枠部分)。
「(other)」が表示される仕組み
実は、「ページ(URL)」や「キーワード」などの各ディメンションに格納できる項目値の種類は、毎日そのパターン数に一定の上限がある。無料のGoogleアナリティクスで5万件、有料版のGoogleアナリティクス360スイート製品で7万5千件だ。上限値を超えた部分はすべて「(other)」という1つの項目にくくられて、指標の数字はその合計値が表示される。
実際にレポートに「(other)」表示がされた場合は、レポートの上部にアラートが表示されているはずだ(図3赤枠部分)。「高基数」(図3青枠部分)は耳慣れない言葉だが、「基数」とはディメンションに格納できる項目の種類数のことを指す。基数(項目の種類)が非常に多い状態が「高基数」ということだ。
この仕組みをもっと詳しく知りたい場合は、Googleアナリティクスのヘルプページも参照してほしい。
- レポートの (other) 項目 - アナリティクス ヘルプ
https://support.google.com/analytics/answer/1009671?hl=ja
「(other)」が表示される可能性のあるレポート
この仕組みを理解すれば、[すべてのページ]レポート以外にどのレポートでこの「(other)」が出現しそうかは想像がつくだろう。値のバリエーションが膨大になる可能性が高いディメンションとして考えられるのは、図1に例として挙げた[すべてのページ]レポート以外には次のようなものがある。
- [集客]>[キャンペーン]>[オーガニック検索トラフィック]レポート
- [行動]>[サイト内検索]>[サイト内検索キーワード]レポート
特に膨大な点数の商品を扱っているeコマース系のサイトなどでは、検索エンジンでの検索語の種類数もサイト内検索語の種類数も多くなる可能性が高い。
「(other)」をなるべく解消するには「ビュー」の作成がポイント
「(other)」にまとめられているものはさほど重要ではない可能性が高い。とはいえレポートの正確性が低くなってしまうので、「(other)」が出現しないに越したことはない。[すべてのページ]レポートで、この「(other)」の出現可能性を減らす方法をいくつか挙げておこう。「ビューを作成して対象となる項目数を減らす」ことがポイントになる。
- ディレクトリ別などでビューを作成して対象となる項目数を減らす
- コンテンツの判別には意味のないパラメータ(セッションIDなど)を除外したビューを作成する
- パラメータの一部を生かしたビューを複数作成し、それぞれのビューでデータを見る
2つ目と3つ目のパラメータを除外したビューの作成方法は第5回の記事を参照してほしい。コンテンツを判別するうえで意味のないパラメータを除外すれば項目数を減らすことができる。
3つ目は、意味のあるバリエーションの数自体が相当数あり、かつ無秩序に「(other)」にまとめられたくない場合の対処法だ。1つのビューで全部のパラメータを生かそうとすると、項目数を減らすことはできない。そこで「パラメータの一部を残して一部を削除したビュー」を複数作成することで、それぞれのビューの項目数を減らしながら別々の軸からデータを見るという考え方だ。
「(not set)」は「存在しない」または「分類できない」もの
一方、「(not set)」は各種レポートのディメンションで出現する項目値で、その値が取得できなかった、あるいは判別できなかった場合に表示される。出現理由は大きく下記の3種類がある。1つずつ見ていこう。
- 元の収集データ、あるいは集計した結果にもともと存在しておらず、「存在しません」という意味でレポートに表示されている場合
- 元の収集データには情報があるが、集計時にグーグルの保有しているデータベースに登録がなくてレポート表示上分類できない場合
- 元の収集データにもともと存在しておらず、通常のサイト閲覧データ以外のスパムの場合
①「存在しません」という意味の「(not set)」
1つ目は「存在しません」という意味でレポートに表示されている場合で、これはそのままで何ら問題がない。
図4は[集客]>[すべてのトラフィック]>[参照元/メディア]レポートの下部のデータ一覧表示部だ。プライマリディメンションで「キーワード」を選択している(図4赤枠部分)。
キーワードの項目の2番目に「(not set)」が確認できる(図4青枠部分)。なお、その上にある「(not provided)」は「(not set)」と若干意味が異なるが、これは別の回で解説する。
この場合の「(not set)」は「参照元が検索エンジン以外からの訪問」を指しており、そもそもキーワード情報を持たないセッションがここにまとめられている。このレポートはすべての参照先からのトラフィックを表示しているので、検索エンジン以外からの訪問も含まれる。「検索エンジン以外からの訪問はキーワードなし」という意味で「(not set)」と表示してあるだけなので、何の問題もない。
もう1つ紹介しておこう。また、[ユーザー]>[カスタム]>[ユーザー定義]レポート(図5)で「(not set)」表示(図5赤枠部分)が存在する場合だ。「ユーザー定義」は従来のGoogleアナリティクスでカスタマイズが必要な機能だ。トラッキングコードのカスタマイズをしてデータを取得していない場合には、このように「(not set)」が表示される。図5は一切カスタマイズしていないため、ユーザー定義の項目は存在しない。その結果全件が「(not set)」表示になっているわけだ。
②グーグルのデータベースに登録がないという意味の「(not set)」
続いて2つ目だ。「元の収集データには情報があるが、集計時にGoogleの保有しているデータベースに登録がない場合」を紹介しよう。たとえば[ユーザー]>[モバイル]>[デバイス]レポートなどで生じる場合が該当する(図6赤枠部分)。
このレポートは、訪問者が利用しているデバイスの機種を示すものだ。計測対象サイトを利用したユーザーのユーザーエージェント情報をもとに、ユーザーエージェントとグーグルが持つ携帯端末の機種名対応データベースに照合して合致した機種名をレポートに表示していると思われる。その際にデータベースへの登録がなかったものが「(not set)」としてまとめられているのだと推察される。
モバイル機器は次々と新しい機種が発売されるので、データベースへの登録が追いついていない状況なのだろう。集計はさかのぼって修正されることはないので、こちらとしては対処のしようがない。量的にもそれほど多くないだろうし、「新しい機種などでよくわからないものなのだ」と考えておこう。
同じ理由で「モバイル端末ブランド」などのディメンション(図6青枠部分)のレポートでも「(not set)」を確認できる。
③元の収集データに存在しておらずスパムが正体の「(not set)」
最後は「元の収集データにもともと存在しておらず、通常のサイト閲覧データ以外のスパムの場合」だ。最近はこのスパムが特に多くなってきているので、特殊例とはいえなくなってきている。これはすべてのレポートで出現する可能性があるので、これまで解説してきた①や②の中に潜り込んでいる場合もある。
たとえば[ユーザー]>[ユーザーの環境]>[ネットワーク]レポートを表示し、次にプライマリディメンションで「ホスト名」(図7赤枠部分)を選択してみよう。これは計測対象のドメインを表示するレポートだ。
計測対象のドメインは基本的に自社ドメインしかないはずなので、普段は見ることのないレポートだろう。図7の例では、計測対象サイトのドメインが「xfusion.jp」なので、それ以外のドメインは特別なケースしかない。
たとえばグーグルキャッシュで閲覧された場合(レポートに表示されるホスト名は「webcache.googleusercontent.com」になる)やテスト環境の場合など、説明がつくものを除くすべてがスパムだろう。ここに表示されている「(not set)」(図7青枠部分)もスパムの類である場合がほとんどだ。
なお、このスパムはセグメントやフィルタで除外することができる。その仕組みと対処方法については別の記事で詳しく解説しているので、参照してほしい。
- 急増するGAのリファラースパムを撃退! スパム業者の手口とは?
http://web-tan.forum.impressrd.jp/e/2016/04/21/22650
📝筆者が継続的に主催している講座群(Google アナリティクス中心)に興味がある方はこちらをご確認ください。
http://xfusion.jp/train.html
ソーシャルもやってます!