Luxorでインデックスされる単語数に制限はありますか。ある場合、制限値を教えてください。
Luxor Ver.2.0.0 以前のバージョンでは、インデックスされる単語数の制限が1件のデータにつき10000語となります。インデックスされる単語は、バイグラム(bigram)で分割されたものが対象となります(日本語、中国語は2文字区切りで文章を分解します)。
1件のデータに、10000語を超える文章のファイル(PDFなど)が添付された場合は、ファイル後半の文章の単語がインデックスされずに、検索にヒットしない可能性があります。以降、同じデータに添付されたファイルのインデックスは作成されません。
現状の回避策として、「solrconfig.xml」で制限値(10000語)を変更することが可能です。
ライブラリ設定例
ファイルパス: /var/solr/insuite/library/conf/solrconfig.xml
パラメータ: <maxFieldLength>制限値</maxFieldLength>
※設定はcoreごとに設定が必要となり、インデクシング対象機能であれば設定可能です。
※Luxorの再起動が必要となります。
※制限値を10000語以上に設定した場合、インデックス作成にかかる時間や容量に関し、サーバへの負荷が増加する可能性があります。実際の数値設定はお客様の環境・利用シーンに合わせて設定してください。
※Luxor Ver.2.0.0からは、SOLR側の制限値パラメータ:maxFieldLengthがなくなり、10000語の制限はなくなります。
なお、INSUITE(R)の添付ファイルから文字列を抽出する処理における、抽出対象とするファイルサイズ上限の設定は引き続き可能となります。こちらの設定に関しましては、各バージョンの、「アドミニストレーションガイド」の「doccat.conf」をご確認ください。