検索キーワードを収集前に名寄せする方法 | 清水誠メモ

清水誠メモ - 2013年10月30日(水) 23:45
このページは、外部サイト 清水誠メモ の情報をRSSフィード経由で取得して表示しているため、記事の一部分しか表示されていなかったり、画像などが正しく表示されなかったり、オリジナル記事が意図したデザインと異なっていたりする場合があります。
完全な状態のオリジナル記事は 「検索キーワードを収集前に名寄せする方法」 からご覧ください。
検索されるキーワード(検索クエリ)のデータには、大文字と小文字、半角と全角、掛け合わせの順番、スペルミス、類義語など、無数のバリエーションが含まれます。
「念のため一番細かい情報を全部取っておきたい!」
と思うかもしれませんが、細かすぎるデータは分析が大変になります。まとめると順位が変わることもよくあります。

そのため、収集する時点である程度バリエーションを減らしておくと便利です。
そこで今回紹介するのは...
検索クエリのフォーマットや順番を揃えてデータの粒度を落とす方法
タイトルでは分かりやすく「名寄せ」と書きましたが、「似ているテキストデータを単純な変換によってまとめる」という意味です。
ページがロードされた時にリアルタイムで処理するので、単純なクレンジングのみを行います。
処理する内容

英数字と記号を半角に統一する
アルファベットを小文字に統一する
カナを全角に統一する
掛け合わせのキーワードを並び替える

使うライブラリ
全角半角文字の相互変換をするため、「fhconvert.js」というライブラリを使います。
サンプルコード

code45

この前にfhc
メルマガの登録はこちら Web担当者に役立つ情報をサクッとゲット!

人気記事トップ10(過去7日間)

今日の用語

アップロード
手元のPCなどの機器から、ネットワークを介して、別のPCやファイルサーバー、ウェ ...→用語集へ

インフォメーション

RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]