HTML → テキスト変換 — タグを剥がして可視テキストだけ抽出
HTML から script / style / noscript / コメントを除去し、可視テキストだけを取り出します。<p> や <h*>、<li>、<br> などのブロック要素は改行に展開され、リンクは「テキスト + URL 併記」も選択可能。連続空白の圧縮、HTML エンティティのデコード、箇条書きマーカー保持などのオプション。スクレイピング結果から本文だけ取りたい、NLP の前処理、メール本文の plain-text 化、記事のコピペ整形などに。すべてブラウザ内で処理されます。
使い方
HTML を入力欄に貼り付けます。整形は入力と同時に行われ、右の出力欄に結果が出ます。 「リンクの URL を併記」をオンにすると、`記事タイトル (https://example.com/post)` のような形式で書き出されます。 「箇条書きマーカーを残す」をオフにすると、`<li>` の中身だけが改行で並びます。Markdown 風に整えたいときは ON。 「連続空白を 1 つに圧縮」は OFF にすると、原文の改行とインデントが保たれます。本文だけほしいときは ON。 結果はコピー、または `.txt` でダウンロードできます。
よくある質問
- script や style の中身も出力されますか?
- いいえ。`<script>` / `<style>` / `<noscript>` / HTML コメントは出力前に削除されるため、コードや CSS、隠しコメントが本文に混ざることはありません。
- HTML エンティティはデコードされますか?
- されます。`&` → `&`、`<` → `<`、` ` → 半角スペース、数値参照 `&#x...;` などもブラウザの DOMParser が自動でデコードします。
- 整形が崩れる HTML はありますか?
- 不完全な HTML (タグ閉じ忘れ等) でもブラウザの寛容なパーサが補正してくれるため、ほとんどのケースで動作します。ただし `<table>` の複雑な入れ子は単純な改行 + 空白圧縮では表組みが崩れます。表が大事な場合は別のツール (markdown-table-format など) を経由してください。
- Markdown に戻したい場合は?
- 本ツールは「タグを完全に剥がす」用途です。元の構造を Markdown として残したい場合は markdown-html-convert ツールを使ってください。
- データはどこかに送信されますか?
- いいえ。すべてブラウザ内 (DOMParser + JavaScript) で処理されます。
類似のツール
HTML 整形 — pretty / minify で読みやすく / 1 行に
HTML を整形 (pretty / minify) するツール。htmlparser2 でパースして自前の indent ロジックで Mode 切替: pretty (indent 2/4/タブ、改行入り) と minify (タグ間の空白・改行を除去して 1 行に圧縮)。HTML5 の void 要素 (`<br>` `<hr>` `<img>` `<input>` `<meta>` `<link>` など) は閉じタグなしで出力、`<script>` / `<style>` / `<pre>` / `<textarea>` の中身は変更せず保持。DOCTYPE 宣言・コメント・属性順・名前空間 (`xmlns:*`) を保持。XML を整形したい場合は xml-format を、HTML をプレーンテキストに変換したい場合は html-sanitize / markdown-html-convert を。すべてブラウザ内で処理。
HTML サニタイズ — XSS 防御 (script / on* / javascript:)
DOMPurify でユーザー投稿 HTML から XSS 攻撃ベクター (script 要素・on* イベントハンドラ・javascript: URL・data: URL の不正利用・iframe など) を取り除きます。厳格 / 標準 / 許容の 3 モードでプロファイルを切替可能。CMS や掲示板に渡す前のサニタイズ、Markdown→HTML 変換結果の安全化、ブログ移行時のレガシー HTML 清掃などに。すべてブラウザ内で完結し、HTML は外部に送信されません。
Markdown ⇄ HTML 変換 — 双方向で往復
Markdown を HTML に、HTML を Markdown に双方向変換します。ブログから WordPress、静的サイトジェネレータへの移行、Web ページから README 化など、フォーマット間の橋渡しに最適。marked と turndown をブラウザ内で実行するので、原稿を外部に送信せずに変換できます。
Markdown リンク抽出 — Markdown / HTML / テキストから URL を一括取得
Markdown / HTML / プレーンテキストから URL と Markdown / HTML リンクをまとめて抽出。`[label](url)` / `` / `<a href>` / `<img src>` / 生 URL の 5 種類を自動検出し、種類別 (テキスト / 画像 / オートリンク) に分類して一覧化します。重複除去・種類フィルター・ホスト別グルーピング・CSV / TSV / JSON エクスポートに対応。記事内のリンク監査、転載元の洗い出し、SEO 内部リンクの可視化、SNS 投稿時の参考リンク収集に便利。すべてブラウザ内で処理されます。