IT・AI・DX

検索可能なPDFとは?仕組み・作り方・注意点をやさしく解説

Searchable PDF Basics IT・AI・DX
この記事は約3分で読めます。

検索可能なPDFとは?

検索可能なPDFとは、PDFの中に「文字データ」が含まれているPDFのことです。

一方、検索できないPDFは、文字がすべて「画像」として保存されています。

見た目は同じでも、中身はまったく別物です。

なぜ検索できたり、できなかったりするのか

PDFには、次の2種類の情報を入れられます。

  • 画像情報:スキャンした紙書類(文字はただの絵)
  • 文字情報:コピー・検索できるテキスト

検索できるPDFには、この「文字情報」が含まれています。

紙をスキャンしただけのPDFには文字情報がないため、検索してもヒットしません。

検索可能なPDFの作り方

① WordやExcelからそのままPDFにする(おすすめ)

もっとも簡単で確実な方法です。

  • Word / Excel / PowerPoint
  • Googleドキュメント

これらからPDFを書き出せば、自動的に検索可能なPDFになります。

② 紙の書類をスキャンしてOCRする

紙の資料を検索可能にするには、OCR(文字認識)が必要です。

流れ

  1. 書類をスキャン
  2. OCR処理を実行
  3. 検索可能PDFとして保存

最近の複合機やPDFソフトには、OCR機能が標準で入っていることも多いです。

自宅の Brother DCP-J526N 複合機では、初期設定のままでは PDF スキャン時の「検索可能な PDF」チェックボックスがオフになっています。しかし、これを明示的にオンにし、OCR 言語を指定すると、スキャン時に自動で OCR 処理が行われ、保存された PDF が検索可能になります。
また、Brother や Canon などのプリンターに無料バンドルされ、追加インストール可能な文書・画像管理ソフト「PaperPort」を利用すれば、スキャンした文書を「検索可能な PDF」として保存することも可能です。

検索可能なPDFの仕組み

① PDFには2種類の情報が入れられる

PDFは内部的に、主に次の要素を持てます。

  1. ベクタ/ビットマップ画像
    • スキャンした紙 → 画像として保存
    • 文字は「絵」
  2. テキスト情報
    • 文字コード(Unicode)
    • フォント情報
    • 文字の座標(X,Y)

② OCR付きPDFの構造

スキャン文書を検索可能にしたPDFは、実務では次の構造が多いです。

  • 背景:スキャン画像(見た目)
  • 上層:OCRで生成した透明なテキストレイヤ

ユーザーから見ると「紙そのまま」ですが、
内部的には「文字情報あり」です。

検索可能なPDFかどうかの見分け方

次のどれかができれば、検索可能なPDFです。

  • 文字をドラッグして選択できる
  • コピー&ペーストできる
  • 検索すると文字が見つかる

全部できない場合は、画像だけのPDFです。

知っておきたい注意点

OCRは100%正確ではない

OCRは便利ですが、完璧ではありません。

  • 文字が小さい・かすれている
  • 手書き文字
  • 縦書きの文章

こうした場合、検索できない文字が出ることがあります。

コピーすると文章が崩れることがある

検索はできても、コピーすると順番が変になるケースがあります。 特に表やレイアウトが複雑な資料では注意が必要です。


ファイルサイズが大きくなりやすい

スキャン画像+文字情報を含むため、検索可能PDFは容量が大きくなりがちです。

まとめ

  • 検索可能なPDFは「文字情報入りのPDF」
  • WordやExcelから作れば、ほぼ確実に検索できる
  • 紙資料はOCRが必要
  • OCRには精度の限界がある

このポイントを押さえるだけで、PDFの扱いに迷わなくなります。

コメント

タイトルとURLをコピーしました