検索可能なPDFとは？仕組み・作り方・注意点を解説！

CONTENTS

検索可能なPDFとは？
なぜ検索できたり、できなかったりするのか
検索可能なPDFの作り方
- ① WordやExcelからそのままPDFにする（おすすめ）
- ② 紙の書類をスキャンしてOCRする
検索可能なPDFの仕組み
- ① PDFには2種類の情報が入れられる
- ② OCR付きPDFの構造
検索可能なPDFかどうかの見分け方
知っておきたい注意点
まとめ

検索可能なPDFとは？

検索可能なPDFとは、PDFの中に「文字データ」が含まれているPDFのことです。

一方、検索できないPDFは、文字がすべて「画像」として保存されています。

見た目は同じでも、中身はまったく別物です。

なぜ検索できたり、できなかったりするのか

PDFには、次の2種類の情報を入れられます。

画像情報：スキャンした紙書類（文字はただの絵）
文字情報：コピー・検索できるテキスト

検索できるPDFには、この「文字情報」が含まれています。

紙をスキャンしただけのPDFには文字情報がないため、検索してもヒットしません。

検索可能なPDFの作り方

① WordやExcelからそのままPDFにする（おすすめ）

もっとも簡単で確実な方法です。

Word / Excel / PowerPoint
Googleドキュメント

これらからPDFを書き出せば、自動的に検索可能なPDFになります。

② 紙の書類をスキャンしてOCRする

紙の資料を検索可能にするには、OCR（文字認識）が必要です。

流れ

書類をスキャン
OCR処理を実行
検索可能PDFとして保存

最近の複合機やPDFソフトには、OCR機能が標準で入っていることも多いです。

自宅の Brother DCP-J526N 複合機では、初期設定のままでは PDF スキャン時の「検索可能な PDF」チェックボックスがオフになっています。しかし、これを明示的にオンにし、OCR 言語を指定すると、スキャン時に自動で OCR 処理が行われ、保存された PDF が検索可能になります。
また、Brother や Canon などのプリンターに無料バンドルされ、追加インストール可能な文書・画像管理ソフト「PaperPort」を利用すれば、スキャンした文書を「検索可能な PDF」として保存することも可能です。

検索可能なPDFの仕組み

① PDFには2種類の情報が入れられる

PDFは内部的に、主に次の要素を持てます。

ベクタ／ビットマップ画像
- スキャンした紙 → 画像として保存
- 文字は「絵」
テキスト情報
- 文字コード（Unicode）
- フォント情報
- 文字の座標（X,Y）

② OCR付きPDFの構造

スキャン文書を検索可能にしたPDFは、実務では次の構造が多いです。

背景：スキャン画像（見た目）
上層：OCRで生成した透明なテキストレイヤ

ユーザーから見ると「紙そのまま」ですが、
内部的には「文字情報あり」です。

検索可能なPDFかどうかの見分け方

次のどれかができれば、検索可能なPDFです。

文字をドラッグして選択できる
コピー＆ペーストできる
検索すると文字が見つかる

全部できない場合は、画像だけのPDFです。

知っておきたい注意点

OCRは100％正確ではない

OCRは便利ですが、完璧ではありません。

文字が小さい・かすれている
手書き文字
縦書きの文章

こうした場合、検索できない文字が出ることがあります。

コピーすると文章が崩れることがある

検索はできても、コピーすると順番が変になるケースがあります。特に表やレイアウトが複雑な資料では注意が必要です。

ファイルサイズが大きくなりやすい

スキャン画像＋文字情報を含むため、検索可能PDFは容量が大きくなりがちです。

まとめ

検索可能なPDFは「文字情報入りのPDF」
WordやExcelから作れば、ほぼ確実に検索できる
紙資料はOCRが必要
OCRには精度の限界がある

このポイントを押さえるだけで、PDFの扱いに迷わなくなります。

検索可能なPDFとは？仕組み・作り方・注意点をやさしく解説