1.概要
PDFを開いて本文中の文字を検索することは簡単にできる。
そうではなく、フォルダに入っている複数のPDFから本文中にある特定の文言が含まれているものだけを検索して抽出することはできるだろうか。
例えば、下の図のようにフォルダに沢山のPDFがあるとする。
その中から「年末調整」をいう文言が含まれているファイル名やファイルの中身まで見て検索して抽出するのである。
2.操作方法
PDFの入っているフォルダの検索窓に文言を入力する。
今回は「C:\SCAN\OCR」フォルダが対象である。
例えば今回は「年末調整」を入れてみる。
するとその文言をファイル名に含むPDFやファイルの本文に含まれていても抽出することができる。
ただし、これが出来るようにするにはあらかじめ設定が必要である。
3.設定方法
この検索はWindows10の機能だが、検索対象のフォルダを検索するような設定を入れなけらばならない。
「コントロールパネル」を開く。(メニューから「Windowsシステムツール」の中にある)
右上の検索窓に「インデックスのオプション」と入力する。
「インデックスのオプション」が出てくるのでクリックする。
「詳細設定」をクリックする。
「ファイルの種類」をクリックする。
「pdf Reader Search Handler」にチェックをつける。
さらに「プロパティとファイルのコンテンツのインデックスを作成する」にチェックを付けて「OK」。
これでPDFも検索できるようにインデックスが作成されるようになる。
あとは、検索対象のフォルダを指定する必要がある。
まず「変更」をクリックする。
今回「C:\SCAN\OCR」を検索対象フォルダにするためチェックをつける。
「OCR」フォルダが設定されたことが確認できる。
以上で設定が完了した。
これで該当フォルダで文言を指定して本文の中の文言まで検索が出来るようになった。
複数の文言をスペースを空けて検索することも可能である。
Adobe PDF IFilter を利用して検索しているため、これがうまく動かない場合はレジストリの変更が必要になる場合があります。