takamiya.com

[記事表示に戻る | ツリートップリストに戻る]

◇-文字コード-宮田(7/9-13:32)No.3841
  └ Re:文字コード-きょうこ(7/10-20:40)No.3843
    └ Re:文字コード-宮田(7/11-00:25)No.3844
      └ Re:文字コード-きょうこ(7/12-12:57)No.3845
        └ Re:文字コード-宮田(7/12-19:25)No.3846
          └ Re:文字コード-きょうこ(7/12-21:34)No.3847
            └ Re:文字コード-宮田(7/13-17:36)No.3851
              └ Re:文字コード-きょうこ(7/14-01:53)No.3855
                └ Re:文字コード-宮田(7/14-17:24)No.3860


トップに戻る
3841文字コード宮田 7/9-13:32

きょうこさん、こんにちは!!

コンピュータは海外で発展したため、基本的にアルファベットを使用するように
なっていて、一定のルールにより数字と文字が対応するようになっています。
この対応ルールによりJIS、SJIS、EUC、UTF、ユニコードなどに別けられます。
文字を認識させるためにはこのルールが一致していなければいけないんです。
アルファベットは大小文字あわせて52文字、記号・特殊文字、制御文字を
あわせても100文字前後でまかなえるので問題なかったんですが、日本語は
漢字と言うやっかいな文字があり、数万語が必要になります。

で、アルファベットのルールを拡張して、そのルールで日本語を使用できる
ようにしたのをJISコードと言います。これはアルファベットのルールに
従っているので、どのコンピュータを通過してもほぼ問題がなく、最終的に
日本語のフォントが入っているコンピュータであればちゃんと表示されます。
ただ、無理やりルールを拡張したところがあるので、あまり効率の良くない
使い方をしていること、新しい文字は定義できないといったところはあります。
(7ビットコード。基本的にメールはこちらを使用するように創られています)

SJIS(MS漢字)は日本語を効率よく使うために新しく創ったルールで、JISの
欠点を補うようになっていますが、日本でのローカルルールのため認識できない
装置が存在します。こういった装置を通過した場合、アルファベットのルールを
適応して送り出すので、文自体はまったく違ったものになってしまうことが
あります。
すなおに全てを通過させれば文字表示が変わるだけで済みますが、アルファベット
のルールに書き換えて送り出す場合があり、こうなるとそれ以降通過する装置に
問題を起こす恐れが出てきます。日本国内で使用する場合は問題になることは
少ないですが海外とのやり取りは注意が必要です(こちらは8ビットコードと
言います)。

EUCはUNIX系統の装置で使われているルールで、昔はサーバがUNIXのものが
多かったんで使われた場合がありますが、ほとんどの場合EUC←→JIS変換を
行ってくれるので今ではあまり気にすることはないです。

UTF、ユニコードはアルファベット以外を使っている国でも自由に文字を使える
ように考えられたルールで、基本的なルールだけきめて、文字に関しては独自の
対応表を使っても良いようにしたもので、この対応表さえ交換すればどのような
文字でも問題なく通過させられるように考えられたものです。
最終的にはこういったコード体系になっていくと思いますが、互換性の問題が
あるのですぐには変えられないでしょうね。

トップに戻る
3843Re:文字コードきょうこ 7/10-20:40
記事番号3841へのコメント

 宮田さん、こんにちは!!

 丁寧にご説明下さって、ありがとうございます。

》SJIS(MS漢字)は日本語を効率よく使うために新しく創ったルールで、JISの
》欠点を補うようになっていますが、日本でのローカルルールのため認識できない
》装置が存在します。こういった装置を通過した場合、アルファベットのルールを
》適応して送り出すので、文自体はまったく違ったものになってしまうことが
》あります。

 それって。。。困りますね。。。

 以前に、文字コードのお話が出て、でも結局、私のパソコン環境から、
 S-jis の方が問題なさそうで、サイトを S-jis ONLY に揃えました。

 ですが、何故だか、結構海外からの検索エンジンに掛かってるようで。。。
 英語の他に、中国語、韓国語のエンジンからもいらっしゃるようです。
 アラビア語?と思うようなサイトも有った記憶があります。
 (本文自身は判らないのですが、大概、画像の文字が付いていて。)

 日本語の解る方なのか、画像だけ見てらっしゃるのか、翻訳ソフトで
 ご覧になってるのか、判りませんが。。。
 S-JIS の変換で間違って、更に翻訳ソフトを介したら、意味不明?^^;

》EUCはUNIX系統の装置で使われているルールで、昔はサーバがUNIXのものが
》多かったんで使われた場合がありますが、ほとんどの場合EUC←→JIS変換を
》行ってくれるので今ではあまり気にすることはないです。

 やっぱ、EUC の方がインターネット上では、問題ないかしら。。。

 確か。。。EUC にしたら、マイツールが読めなかったような。。。^^;
 その他にも、パソコン内の各種ソフトのやりとりで問題が出たような?
 なんで、S-JIS に揃えたような。。。?

 まぁ、転送時に、FTP ソフトに指定して、WEB は EUC に揃えるという
 ことは出来そうですが。。。
 私のブラウザの文字コードは、自動選択設定にしているのですが、
 EUC になって文字が化けるサイトが結構あります。
 そういうサイトは、
 <META HTTP-EQUIV="content-type" CONTENT="text/html;charset=EUC_JP">
 とか、入ってないのですが。。。

 最近、NN475 で化けるけど、IE だと読めるサイトが増えて。。。^^;

 この BBS にも charset は入っていません。
 入れようとしたことは有るのですが、CGI がおかしくなって。。。
 入れられませんでした。^^;

 なので、何かの条件で、化ける時があるようです?^^;
 

トップに戻る
3844Re:文字コード宮田 7/11-00:25
記事番号3843へのコメント
きょうこさん、こんにちは!!

> ですが、何故だか、結構海外からの検索エンジンに掛かってるようで。。。
> 英語の他に、中国語、韓国語のエンジンからもいらっしゃるようです。

検索エンジンは世界中の人が見るので、ローカルな規格ではなく共通した規格で
作成されているはずです。このため、ロボットではメタタグの英文で判断して
変換して登録する、もしくは必要であればサーバの自動変換で文字コードを変えて
いると思います。

> やっぱ、EUC の方がインターネット上では、問題ないかしら。。。

国内で使用する分にはSJISで問題ありません。
ほとんどの場合はサーバの方でも処理してくれます。
(適当なコードに自動変換してくれます)
海外サーバを経由する場合、これを行ってくれるとは限らないので標準で
規定されている以外の文字セットは使わないほうが無難です。
(JISは国際規格を元に規定された標準規格ですが、SJISは一企業の規格で、
国内での使用率が高いと言うことで、1998年頃にようやくJIS認定されました。
SJISは日本国内でようやく標準規格になった規格です)

> EUC になって文字が化けるサイトが結構あります。
> そういうサイトは、
> <META HTTP-EQUIV="content-type" CONTENT="text/html;charset=EUC_JP">
> とか、入ってないのですが。。。

通常はこのメタ文をブラウザが判定して、指定の文字セットを使ってくれるのですが
一部のサーバでこれを変換してしまう、もしくは、指定の文字セット以外使えなく
してあるものがあるみたいです。
サーバの方では親切に適当なコードに変換しようとしたり、不具合を起こさないように
して、かえって判らなくなるという困った事態が‥(笑)

また、文字には表面に現れない制御コードというものがあります。リターンキー
とかラインフィールド(行の始めに戻す)とか、Tabキーとかを示すものです。
この制御コードが文字セットによっては異なっているため、指定されたコードを
使用しないと滅茶苦茶になります。「半角カナや特殊文字を使ってはいけない」
というのはこのことを指していて、文章が滅茶苦茶になったり、表示されない
のならまだしも、一部のソフトではバグってしまい多量のごみだけが残ったり
暴走したりする場合もあるようです。
(階層を示す「\」[バックスラッシュ]が、日本では「¥」になっているのも
このコードが重複しているためです。)

> SJIS からだと読めないけれど、
> JIS から EUC へは自動的に変換されるんですか?

多分多くのサーバが自動変換してくれています。
SJISも国内のサーバであればほとんどが必要な文字セットに変換してくれると思いますよ。
インターネットはどのサーバを通過するか判らないので状況によりますけどね。

トップに戻る
3845Re:文字コードきょうこ 7/12-12:57
記事番号3844へのコメント
 宮田さん、こんにちは!!

》海外サーバを経由する場合、これを行ってくれるとは限らないので標準で
》規定されている以外の文字セットは使わないほうが無難です。

 パソコンでは、S-JIS が無難なので、FTP ソフトで漢字コードを変換して
 転送するようにしてみました。

 上位コンテンツの影響を受けない位置に置いてみましたが。。。

 http://www.takamiya.com/test_jis.html

 これは、IE NN 共に、S-JIS として読んでるみたいですね。。。?
 文字コードセットに JIS という選択肢がないからかしら?

 http://www.takamiya.com/test_euc.html

 こちらは EUC ですが、NN475 は文字コードも EUC となり、ちゃんと
 表示されますが、IE が化けます?
 しかし、平仮名が駄目みたいなこれって。。。EUC でしょうか?
--------------------------------------------------------------------------------
i"磨yージw!Aメタタグu"・AEUC u0・艢・逐÷梳・B j"・Ht"・・・・・・H
例*O処理、鳳凰(・"・о・j、
--------------------------------------------------------------------------------
(マイツールを経由してますので、文字コードは省かれてる筈です?)

》通常はこのメタ文をブラウザが判定して、指定の文字セットを使ってくれるのですが
》一部のサーバでこれを変換してしまう、もしくは、指定の文字セット以外使えなく
》してあるものがあるみたいです。

 NN は、ちゃんと表示するということは、それとも違いそうで。。。?

 http://www.takamiya.com/test_euc_euc.html

 で、これは、HTMLエディタで EUC 保存して、FTPソフトでは無変換に
 指定して転送したファイルです。
 これは、NN IE 共に、エンコードが EUC となり、読めるようです。

 FTP ソフトが。。。おかしいかしら?
   

トップに戻る
3846Re:文字コード宮田 7/12-19:25
記事番号3845へのコメント
きょうこさん、こんにちは!!

> http://www.takamiya.com/test_euc.html
> こちらは EUC ですが、NN475 は文字コードも EUC となり、ちゃんと
> 表示されますが、IE が化けます?

S-JISで認識していますね(選択をSJISにしてみてください)。
自動選択ではEUCになっていますが、コードはSJISで送られているようです。
これはメタタグでEUC指定がされているのでSJISをEUCで読んでいるため
化けているんですね。
多分IEのほうが記載を忠実に再現していて、NNは自動的に誤りを補正して
いるのではないかと思います。

> NN は、ちゃんと表示するということは、それとも違いそうで。。。?
> http://www.takamiya.com/test_euc_euc.html
> で、これは、HTMLエディタで EUC 保存して、FTPソフトでは無変換に
> 指定して転送したファイルです。

各文字セットは各々の形式で保存されなければいけません。
ですので、こちらはEUCで作成されてEUCで送られ、EUCで読まれているので
どちらも指定どおりの表示になるのだと思いますよ。

> FTP ソフトが。。。おかしいかしら?

ん〜。正常だと思いますよ。
IEはメタタグを(たとえ誤りの記載であっても)忠実に再現していて、NNは
誤りを自動補正してくれているという違いではないでしょうか?

トップに戻る
3847Re:文字コードきょうこ 7/12-21:34
記事番号3846へのコメント

 宮田さん、こんにちは!!

》IEはメタタグを(たとえ誤りの記載であっても)忠実に再現していて、NNは
》誤りを自動補正してくれているという違いではないでしょうか?

 のようです。

 ホストとローカルと間違えてました。^^;
 ホストが Web で、ローカルがパソコンですね。^^;
 で、治ったと思います。
 http://www.takamiya.com/test_euc.html

 ただ、JIS は、IE の文字コードで薄く出るんですけど。。。??
 http://www.takamiya.com/test_jis.html

 これなら、EUC に変更出来るかも知れません。
 ただ。。。IE で画面を右クリックして「ソースの表示」で
 化けますけどね。。。NN はソースの表示もコードを Shift-JIS に
 するみたいですが。。。
  
 どんなもんだろうと、あちこちの企業サイトを見てみましたが。。。
 殆ど、Shift-JIS になってますねぇ。。。
 以前は、もう少し EUC-JP も見かけたのですが。
 

トップに戻る
3851Re:文字コード宮田 7/13-17:36
記事番号3847へのコメント
きょうこさん、こんにちは!!
>ただ、JIS は、IE の文字コードで薄く出るんですけど。。。??

あ、本当ですね。JISは非選択になりますね。
コードを読み替えているのかもしれません。

>ただ。。。IE で画面を右クリックして「ソースの表示」で
>化けますけどね。。。NN はソースの表示もコードを Shift-JIS に
>するみたいですが。。。

これはソース表示を行うエディタの設定です。
IEのほうのエディタのコード選択が自動になっていないのではないでしょうか?

> 殆ど、Shift-JIS になってますねぇ。。。
> 以前は、もう少し EUC-JP も見かけたのですが。

EUCは昔からメインフレームを使っていた方たちが良く使っていたんですが、
現在はそういった方々が少なくなり、パソコンだけしか使っていない人が
増えたからでしょうね。
まあ、ローカル(国内とか社内)で使う分にはSJISで問題ないですし、
文字コードすら知らない方も多いですし‥

トップに戻る
3855Re:文字コードきょうこ 7/14-01:53
記事番号3851へのコメント

 宮田さん、こんにちは!!

》これはソース表示を行うエディタの設定です。
》IEのほうのエディタのコード選択が自動になっていないのではないでしょうか?

 IE のエディタは、メモ帳です。^^;
 多分、これは初期状態のまま変えてないと思いますけど。。。

》EUCは昔からメインフレームを使っていた方たちが良く使っていたんですが、

 メインフレーム?
 分割でなく。。。という意味でしょうか?

》現在はそういった方々が少なくなり、パソコンだけしか使っていない人が
》増えたからでしょうね。
》まあ、ローカル(国内とか社内)で使う分にはSJISで問題ないですし、
》文字コードすら知らない方も多いですし‥

 まぁ。。。海外でも多分、IE が大半でしょうし。。。
 そうしたら、Shift-JIS が入ってるんでしょうね。
 MS提供のグローバル IME も Shift-JIS かも?
 JIS が入ってなかったりして!
 
 そう言えば、思い出しましたが、
 台湾や上海のインターネットカフェで、ちゃんと表示してましたっけ。
 インターネットカフェに入ってるのは、IE だもんね。。。
 

トップに戻る
3860Re:文字コード宮田 7/14-17:24
記事番号3855へのコメント
きょうこさん、こんにちは!!

>IE のエディタは、メモ帳です。^^;
>多分、これは初期状態のまま変えてないと思いますけど。。。

メモ帳ってJISの選択がないんですね。
基本的にはANSIというアルファベット規格の拡張なんですが、
拡張分が認識できないようです。

>>EUCは昔からメインフレームを使っていた方たちが良く使っていたんですが、
> 分割でなく。。。という意味でしょうか?

あ〜。確かにそちらもメインフレームですね(笑)

メインフレームって大型コンピュータのことです。
個人で使うことを前提にしたパーソナルコンピュータに対して、複数人が
共通で使用する大型のものをこう呼びます。概略、ホストサーバの装置の
ことだと思ってもらっても良いかも。
主として「プログラムを動かして計算させる」ことを目的に使いますけど、
ファイルサーバなんかも含めたシステムです。

こういったコンピュータは複数の人が同時に使うので、OSはUNIX系統を
使用していることが多く、そのためEUCを使うことが多かったんですね。

>MS提供のグローバル IME も Shift-JIS かも?

SJISはもともとMSが作った規格ですので(^^;;


Script written by Akihiro Katoh