文字化けパターンサンプル

文字化けのパターンのサンプルです。文字化けの原因には、

などのパターンがあります。「単純な文字コードの指定ミス」による文字化けにも、

など、いくつかのパターンがあります。

このページでは、HTMLファイルのヘッダの文字コード指定が間違っている場合に ブラウザで開いた際に発生する文字化けについて取り扱います。 対象の文字コードは、メジャーなUTF-8・ShiftJIS・EUC-JPの3つとしました (2015年3月現在で、日本語文字を表示させることが出来る、HTMLファイルで使用可能な主要な文字コード)

主要3ブラウザ(IE11, Chrome41, FireFox36)で確認しましたが、文字化け表示のされ方がそれぞれ若干異なっていました。 そのこともあり、各ブラウザ・各バージョンで実際に確認できるよう、文字コードの指定を間違えているHTMLファイルをIFRAMEで表示させています。 また、資料として「IE11, Chrome41, FirFox36」での画面キャプチャも添付しておきます。

また、こちらのページ「文字化けテスター」で、 任意の文字列を人工的に文字化けさせることができます。文字化け時と逆の文字コードの組み合わせを指定すると、 「情報が失われていない文字化け」だと、復元することも可能です。あわせてご利用ください。

元のファイルがUTF8

UTF8をUTF8で表示

普通に表示

UTF8をSJISで表示

主に(なじみの薄い)漢字と半角カナに化け、一部が表示不可となる。「縺繧繝繹」など糸偏の漢字や 「撰托抵搾」など手偏の漢字がやや多く表示される。

UTF8をEUCで表示

大部分が(なじみの薄い)漢字に化け、一部が表示不可になる。

元のファイルがSJIS

SJISをUTF8で表示

ほとんどの文字が表示不可になる。一部はアスキー文字に化ける。

SJISをSJISで表示

普通に表示

SJISをEUCで表示

アスキー文字や漢字に化け、一部が表示不可になる。比較的なじみのある範囲の文字に化ける。

元のファイルがEUC

EUCをUTF8で表示

ほとんどの文字が表示不可になる。一部がアラビア文字(?)などに化ける。

EUCをSJISで表示

半角カナが多く表示(2000年初め頃まではこの感じの文字化けが多かった…)

EUCをEUCで表示

普通に表示

まとめ

私の経験上、「EUC-JPではないファイルをEUC-JPで開いているケース」は少ないように思います。 ですので太字のケースだけ覚えておけばいいかと思います。

画面キャプチャ

IE11

Chrome41

FireFox36

コメント

表示不可の文字は、IEでは白抜きの四角で表現され、ChromeとFireFoxでは黒ひし形にクエスチョンマークで表現されます。

UTF-8やSJISをEUCで開いた場合の表示は、ChromeではIEやFireFoxに比べるとかなり少なめに表示されます。