1: ノチラ ★ 2017/12/25(月) 04:50:46.68 ID:CAP_USER
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

漢字とコンピューターのこれまで
戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は15文字ほどです。

また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、およそ6000字でした。

その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに作っていました。

現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、対応が急がれていました。
企業や自治体も一苦労
外字の問題は、さまざまな企業だけでなく自治体の課題としても浮かび上がっています。

東京・表参道にある手紙用品店では、結婚式の招待状や席次表の印刷を手がけていて、名前に外字があった場合は、手書きで紙に書いてもらい、市販のソフトが対応しているかどうか調べています。

対応していない漢字は、作画ソフトを使って一画一画を手作業で書いていて、これまでにおよそ240字をこうした方法で対応したということです。

手紙用品店の吉澤まどかさんは「結婚式は、お祝い事なので、誤字脱字がないのはもちろんお名前の一画一画を大切にして間違いがないように心がけています」と話しています。

一方、福島県相馬市では、東日本大震災のあと、「り災証明書」の発行に必要な被災の状況を迅速に把握するため住民基本台帳にある名前や住所を電子地図に取り込もうとしました。

ところが、外字が含まれていたため、地図上で文字化けして黒い点になってしまい、手作業でのデータの修正を迫られたということです。
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html

74: 名刺は切らしておりまして 2017/12/25(月) 09:17:33.03 ID:SOXQPlWB
>>1
> 戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」
> 「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は「斉」
> 「斎」「齊」「齋」などおよそ60種類ありますが、

ワタナベとサイトウはデータ入力屋に嫌われる二大巨塔

84: 名刺は切らしておりまして 2017/12/25(月) 09:30:24.63 ID:0nn9z4tA
>>74
俺、齊藤だけど

戸籍の藤はくさかんむりが4画 + + のふじ

2: 名刺は切らしておりまして 2017/12/25(月) 05:01:24.89 ID:Qm9GgXjy
16bitとはえらく妥協したな

3: 名刺は切らしておりまして 2017/12/25(月) 05:02:33.55 ID:Qm9GgXjy
生'

知り合いの名前
読める?

52: 名刺は切らしておりまして 2017/12/25(月) 08:20:17.14 ID:FF/vgPQg
>>3
なまだっしゅ

76: 名刺は切らしておりまして 2017/12/25(月) 09:17:53.85 ID:AF1CPw9T
>>3
土` なんてのも見る。
名前の画数気にする人が
普通の漢字に勝手に点を加えたり外したりとかしたらしいな

4: 名刺は切らしておりまして 2017/12/25(月) 05:04:34.93 ID:PHQc+Hr4
凄いが変換候補が多くなり過ぎて悩みそう

6: 名刺は切らしておりまして 2017/12/25(月) 05:07:51.84 ID:Bn4hKqX2
点や線なんて書き間違えとかそのまま登録だったらしいね
逆に絞り込んでもよかったんじゃないかと

10: 名刺は切らしておりまして 2017/12/25(月) 05:28:44.80 ID:MVgNRj95
今回の6万字はどの文字コードに含まれるの? UTF-8?

12: 名刺は切らしておりまして 2017/12/25(月) 05:36:16.01 ID:Q5bXWJjw
>>10
「辺の字」の「何番」みたいな方式で拡張するんで、元のコードには変更なし

このエンコード方式自体は、Windowsなら7以降に組み込んであるので、
一般アプリは、只のテキストとして扱うだけでもあまり問題は出ない

13: 名刺は切らしておりまして 2017/12/25(月) 05:37:06.15 ID:gFDG4f5/
コードが決まってもフォントがないとどうにもならんのでは?
フォント会社特需?株、買えばいいの?

17: 名刺は切らしておりまして 2017/12/25(月) 05:43:58.61 ID:Q5bXWJjw
>>13
IPA作成のフォントは、既に公開してるんだって

19: 名刺は切らしておりまして 2017/12/25(月) 05:49:45.02 ID:MVeZ/IOz
>>17
それだけ有っても仕方ない

22: 名刺は切らしておりまして 2017/12/25(月) 05:59:42.88 ID:Q5bXWJjw
>>19
標準Editコントロールとかテキストボックスとかは、
既に対応済みなんじゃないかな
IPAフォントさえインストールすれば、当座の凌ぎにはなるでしょ

29: 名刺は切らしておりまして 2017/12/25(月) 06:14:59.04 ID:rT7k5vLt
これはすごいけど使う側が混乱するだけで終わりそう

31: 名刺は切らしておりまして 2017/12/25(月) 06:33:01.56 ID:GhOBQfSO
規格か
どこか実装する予定でもあるんかな

147: 名刺は切らしておりまして 2017/12/25(月) 22:32:32.21 ID:Q3y4K2EU
>>31
はがきソフト屋

90: 名刺は切らしておりまして 2017/12/25(月) 09:45:59.35 ID:qBrZNnKa
扱えるようになる事と、実際に扱うかどうかは別だぞ。
選択肢が増えたというだけだ。
対応フォントは手間がかかっている割に需要が少ないから高額な価格設定にせざるを得ない。個人では買えない。
つまり一般の人間には関係無い。

99: 名刺は切らしておりまして 2017/12/25(月) 10:10:21.20 ID:FInrbfhp
UNICODE化してないんでしょ?意味ね

100: 名刺は切らしておりまして 2017/12/25(月) 10:14:13.55 ID:dfZBo0ZE
>>99

ユニコードですよ

245: 名刺は切らしておりまして 2018/01/11(木) 18:10:09.23 ID:od9LLcKP
60000文字の登録に15年かけたのか。
1日11文字だな

18: 名刺は切らしておりまして 2017/12/25(月) 05:49:39.78 ID:iWHOPJLu
ついに草なぎ剛が変換可能に!





元スレ:https://egg.5ch.net/test/read.cgi/bizplus/1514145046/