開発 へ戻る
Unicode 文字インスペクタ

Unicode 文字インスペクタ

テキストを 1 文字ずつ分解し、コードポイント (U+XXXX)・10進数・一般カテゴリ (大文字 / 数字 / 記号など)・スクリプト (ラテン / 漢 / ひらがな等)・Unicode ブロック・UTF-8 / UTF-16 のバイト列・HTML 数値文字参照を表示します。サロゲートペア (絵文字) や結合文字、ゼロ幅接合子 (ZWJ)・制御文字・不可視文字も正しく検出してバッジ表示するので、文字化けや「見えない文字」のデバッグに便利。すべてブラウザ内で処理され、入力はサーバーに送信されません。

開発テキスト抽出

使い方

解析したいテキストを入力欄に貼り付けて「解析する」を押すと、1 文字 (コードポイント) ごとに表が作られます。各行にはコードポイント (U+XXXX)・10進数・一般カテゴリ (大文字・数字・記号など)・スクリプト (ラテン・漢・ひらがな等)・所属する Unicode ブロック・UTF-8 と UTF-16 のバイト列・HTML 数値文字参照が並びます。絵文字のようなサロゲートペアは 1 つのコードポイントとして、結合文字やゼロ幅接合子 (ZWJ)・制御文字などの「目に見えない文字」は専用バッジ付きで表示されるので、文字化けや想定外の不可視文字の混入を素早く特定できます。結果は TSV としてコピーでき、表計算ソフトにそのまま貼り付けられます。すべてブラウザ内で処理されます。

よくある質問

入力データはサーバーに送信されますか?
いいえ。解析はすべてブラウザ内の JavaScript (正規表現の Unicode プロパティ + TextEncoder) で行われ、入力は外部に送信されません。
公式の文字名 (例: LATIN SMALL LETTER A) は表示されますか?
本ツールでは表示しません。Unicode の公式文字名データベース (UnicodeData.txt) は約 15 万文字分・数 MB あり、ブラウザに読み込ませると重くなるためです。代わりに、より軽量で多くの場合十分な「Unicode ブロック名」(例: Basic Latin / CJK Unified Ideographs / Emoticons) を表示します。
絵文字が複数行に分かれるのはなぜ?
👨‍👩‍👧 のような家族絵文字は、複数の絵文字をゼロ幅接合子 (ZWJ, U+200D) でつないだ「絵文字シーケンス」です。本ツールはコードポイント単位で分解するため、構成要素と ZWJ がそれぞれ別の行になります。これにより「なぜこの絵文字が崩れるのか」を構造から確認できます。
「不可視」バッジは何を意味しますか?
制御文字 (Cc)・書式制御文字 (Cf, ゼロ幅スペースや ZWJ など)・各種スペース/区切り (Z*) など、画面に文字として現れない文字に付きます。コピペ時に紛れ込む厄介な不可視文字 (例: U+200B ゼロ幅スペース、U+00A0 ノーブレークスペース) を発見するのに役立ちます。
カテゴリやスクリプトはどうやって判定していますか?
JavaScript 正規表現の Unicode プロパティエスケープ (\p{Lu}, \p{Script=Han} など) を使っています。ブラウザ/エンジンに内蔵された Unicode データに基づくため、追加のデータファイルなしで正確に判定できます。

類似のツール

文字化け復元

文字化け復元

文字化けしたテキストを貼り付けるだけで、Shift_JIS / EUC-JP / UTF-8 / Latin-1 の誤読パターンを総当たりで試し、日本語らしさスコアが高い順に復元候補を並べます。ブラウザ内で完結。

日本語テキスト変換
テキスト ⇄ 2進数 変換

テキスト ⇄ 2進数 変換

テキストと 2進数 (バイナリ) を相互変換します。Mode 切替で「文字 → 2進数」「2進数 → 文字」を選択。文字は UTF-8 でバイト列に変換し、各バイトを 8 ビットのゼロ埋め 2進数で表現します (絵文字や日本語も複数バイトで正しく変換)。区切りスペースの有無を Option で切替可能、デコード時はスペースや改行を無視して 8 ビットずつ解釈します。すべてブラウザ内で処理され、入力はサーバーに送信されません。

開発変換エンコードデコード
全角 ⇄ 半角 変換 — 英数字・カナ・記号を一括変換

全角 ⇄ 半角 変換 — 英数字・カナ・記号を一括変換

全角 ASCII (英数字・記号・スペース) と半角 ASCII をモード切替で双方向に変換します。U+FF01〜U+FF5E ⇄ U+0021〜U+007E のシフト、全角スペース U+3000 ⇄ 半角スペース U+0020 にも対応。カタカナ・ひらがな・漢字はそのまま保持。すべてブラウザ内で処理。

日本語変換
フォント情報ビューア

フォント情報ビューア

TTF / OTF / WOFF / WOFF2 フォントファイルをドロップして、フォント名・ファミリ・バージョン・著作権・ライセンス・デザイナー・グリフ数・サポートされている Unicode 範囲を一覧表示します。書き換えなしの読み取り専用、opentype.js (MIT) でブラウザ内のみ実行。

開発抽出テキスト