検索可能なPDFとは?
検索可能なPDFとは、PDFの中に「文字データ」が含まれているPDFのことです。
一方、検索できないPDFは、文字がすべて「画像」として保存されています。
見た目は同じでも、中身はまったく別物です。
なぜ検索できたり、できなかったりするのか
PDFには、次の2種類の情報を入れられます。
- 画像情報:スキャンした紙書類(文字はただの絵)
- 文字情報:コピー・検索できるテキスト
検索できるPDFには、この「文字情報」が含まれています。
紙をスキャンしただけのPDFには文字情報がないため、検索してもヒットしません。
検索可能なPDFの作り方
① WordやExcelからそのままPDFにする(おすすめ)
もっとも簡単で確実な方法です。
- Word / Excel / PowerPoint
- Googleドキュメント
これらからPDFを書き出せば、自動的に検索可能なPDFになります。
② 紙の書類をスキャンしてOCRする
紙の資料を検索可能にするには、OCR(文字認識)が必要です。
流れ
- 書類をスキャン
- OCR処理を実行
- 検索可能PDFとして保存
最近の複合機やPDFソフトには、OCR機能が標準で入っていることも多いです。
自宅の Brother DCP-J526N 複合機では、初期設定のままでは PDF スキャン時の「検索可能な PDF」チェックボックスがオフになっています。しかし、これを明示的にオンにし、OCR 言語を指定すると、スキャン時に自動で OCR 処理が行われ、保存された PDF が検索可能になります。
また、Brother や Canon などのプリンターに無料バンドルされ、追加インストール可能な文書・画像管理ソフト「PaperPort」を利用すれば、スキャンした文書を「検索可能な PDF」として保存することも可能です。
検索可能なPDFの仕組み
① PDFには2種類の情報が入れられる
PDFは内部的に、主に次の要素を持てます。
- ベクタ/ビットマップ画像
- スキャンした紙 → 画像として保存
- 文字は「絵」
- テキスト情報
- 文字コード(Unicode)
- フォント情報
- 文字の座標(X,Y)
② OCR付きPDFの構造
スキャン文書を検索可能にしたPDFは、実務では次の構造が多いです。
- 背景:スキャン画像(見た目)
- 上層:OCRで生成した透明なテキストレイヤ
ユーザーから見ると「紙そのまま」ですが、
内部的には「文字情報あり」です。
検索可能なPDFかどうかの見分け方
次のどれかができれば、検索可能なPDFです。
- 文字をドラッグして選択できる
- コピー&ペーストできる
- 検索すると文字が見つかる
全部できない場合は、画像だけのPDFです。
知っておきたい注意点
OCRは100%正確ではない
OCRは便利ですが、完璧ではありません。
- 文字が小さい・かすれている
- 手書き文字
- 縦書きの文章
こうした場合、検索できない文字が出ることがあります。
コピーすると文章が崩れることがある
検索はできても、コピーすると順番が変になるケースがあります。 特に表やレイアウトが複雑な資料では注意が必要です。
ファイルサイズが大きくなりやすい
スキャン画像+文字情報を含むため、検索可能PDFは容量が大きくなりがちです。
まとめ
- 検索可能なPDFは「文字情報入りのPDF」
- WordやExcelから作れば、ほぼ確実に検索できる
- 紙資料はOCRが必要
- OCRには精度の限界がある
このポイントを押さえるだけで、PDFの扱いに迷わなくなります。


コメント