私たちは、ネット×リアルビジネスを最大効果へ導くファシリテーション型コンサルティング企業です。 お問い合わせ

Nexalコラム

全て(383件)

PC・モバイルサイト内ゆらぎ検索ツール

現在、BtoCまたはBtoBtoC向けサイトにおいて、必要となるツールをいろいろと選定している。今日はサイト内全文検索ツールについて記載しようと思う。検索を行う製品は世の中に様々あるが、多くは「形態素解析方式」である。

これは、辞書を前提としていて、恒常的な辞書管理が必要になってくる。(運用でカバーしたり、最初に精度の高い辞書設計が絶対条件になる)
英語の場合は、単語の間に空白があるため形態素解析が一番良いとされているが、日本語の場合、句読点がない文書においてどう分析するかという点では、N-Gram方式の方が精度が高くなる。

例えば、
「来月六本木アカデミーヒルズでセミナーを開催します」を解析方式の違いで説明すると、

■形態素解析方式の場合は
「来月/六本木/アカデミー/ヒルズ/で/セミナー/を/開催/します」

■N-Gram方式の場合は
「来/月/六/本/木/ア/カ/デ/ミ/ー/ヒ/ル/ズ/で/セ/ミ/ナ/ー/を/開/催/し/ま/す/」

N-Gram方式は単語ではなく、1文字毎を登録しているので検索漏れが起こりにくくなる分、データが膨大になり処理速度がネックになる。

--実際にどちらの精度が高いか、どちらの方が運用が楽かは結論が出ていないようだ。




関連するコラム

Copyright©Nexal, Inc. All Rights Reserved.