PDF へ戻る
PDF テキスト抽出 — .txt 書き出し

PDF テキスト抽出 — .txt 書き出し

PDF からプレーンテキストをブラウザ内だけで抽出します。pdfjs-dist の getTextContent でページごとに文字列を集め、1 ファイル = 1 つの .txt として書き出し。複数 PDF はまとめて ZIP でダウンロードできます。ページ区切りマーカーの有無は切り替え可能。

PDF抽出テキスト

使い方

PDF をドロップ (複数可)。「テキストを抽出」を押すと、pdfjs-dist が各ページの文字オブジェクトを順番に読み出し、ファイルごとに 1 つの .txt にまとめます。各ファイルを個別に Copy / Download するか、全件を ZIP で一括ダウンロードできます。「ページ区切りを挿入」オプションで `---- Page N ----` の区切りを入れるかどうかを選べます。

よくある質問

PDF はサーバーに送信されますか?
いいえ。pdfjs-dist をブラウザ内で動かしているので、PDF は端末外には出ません。
スキャン画像の PDF からテキストは取れますか?
取れません。文字レイヤを持たない (画像だけの) PDF は OCR が必要で、このツールでは対象外です。
段組みや表のレイアウトは保たれますか?
PDF の文字配置を逐次読み出すだけなので、複雑な段組みや表構造は壊れます。プレーンテキストとして書き出される、と理解してください。
パスワード付き PDF は処理できますか?
暗号化されていると読み込みに失敗します。先に PDF 保護解除ツールで暗号化を外してください。

類似のツール

PDF 全文検索 — 複数 PDF を横断検索

PDF 全文検索 — 複数 PDF を横断検索

複数の PDF をまとめて全文検索し、ヒットしたページ番号 + 行の前後を抜粋表示します。大文字小文字の区別、単語境界 (\b)、正規表現、複数行モードの 4 オプション。検索クエリと前後文字数 (10〜200 字) を変えるとリアルタイムで再抽出。ファイルごとのヒット件数を一覧でき、結果は CSV としてダウンロード可能。アップロードした PDF はサーバーに送信されず、すべてブラウザ内で完結します。

PDFテキスト抽出
PDF を JPG 画像に変換 — ページ単位で出力

PDF を JPG 画像に変換 — ページ単位で出力

PDF をアップロードして各ページを JPEG (.jpg) に変換します。解像度と画質を選んで、個別ページの保存や ZIP 一括ダウンロードに対応。透過は白で埋まりますが、ファイルサイズが軽く SNS / ブログにそのまま貼りやすい形式です。すべてブラウザ内で処理し、PDF は外部に送信されません。

PDF画像変換
PDF 画像抽出 — 埋め込み画像を PNG として書き出し

PDF 画像抽出 — 埋め込み画像を PNG として書き出し

PDF に埋め込まれた画像を pdfjs-dist で 1 枚ずつ取り出し、PNG として書き出します。`getOperatorList()` で各ページの `paintImageXObject` / `paintInlineImageXObject` / `paintImageXObjectRepeat` を走査し、`page.objs` から ImageBitmap または raw RGB(A)/Grayscale データを取得して Canvas 経由で PNG 化。同じ画像が複数ページで使い回されている場合は重複除去 (オプション)。複数 PDF はまとめて ZIP でダウンロードできます。各画像にはページ番号と元のサイズが付与され、ファイル名は `<元PDF名>-page<N>-img<M>.png` 形式。パスワード保護 PDF は事前検知して pdf-unlock への CTA を表示。画像処理はすべてブラウザ内で完結します。

PDF画像抽出
PDF メタデータ削除 — Title / Author / XMP 一括

PDF メタデータ削除 — Title / Author / XMP 一括

PDF の Info 辞書 (Title / Author / Subject / Keywords / Creator / Producer / CreationDate / ModDate) と XMP メタストリームを pdf-lib でブラウザ内だけで削除します。本文・ページ構造には触らないので画質や中身は変わりません。複数ファイル一括処理 + ZIP ダウンロード対応。

PDFEXIF