×

Unicode中日韩统一表意文字列表

前端技术网 前端技术网 发表于2024-01-20 07:13:12 浏览920 评论0

抢沙发发表评论

一、中日韩越统一表意文字的没有统一的汉字

有些字只是同一字在不同地区的写法,理应统一,但因为字源分离原则而只好分开编码。值得注意的是字源分离原则由扩展A集(ExtensionA)开始已没有使用,原因是CNS中有太多字形非常接近,按 Unicode标准应该统一的字。这些字只有第一个会编入正式字集(包括Extension A,B,C)中,其余的编入位于第二辅助平面的表意文字补充兼容区(Compatibility Ideographs Supplement)中。

以下是所有摘自ISO/IEC JTC1/SC2/WG2字源分离原则文件之中有的字。 Unicode字 Unicode字 Unicode字 U+4E1F丢 U+4E22丢 U+4E48么 U+5E7A幺 U+4E89争 U+722D争 U+4EDE仞 U+4EED仭 U+4F75并 U+5002倂 U+4FA3侣 U+4FB6侣 U+4FC1俣 U+4FE3俣 U+4FDE俞 U+516A兪 U+4FF1俱 U+5036倶 U+5024値 U+503C值 U+5077偷 U+5078偷 U+507D伪 U+50DE伪 U+514C兑 U+5151兑 U+514E兎 U+5154兔 U+5156兖 U+5157兖 U+518A册 U+518C册 U+51C0净 U+51C8净 U+51E2凢 U+51E3凣 U+5203刃 U+5204刄 U+520A刊 U+520B刋 U+5220删 U+522A删 U+5225别 U+522B别 U+5238券 U+52B5劵 U+5239刹 U+524E刹 U+524F剏 U+5259剙 U+525D剥 U+5265剥 U+5292剑 U+5294劔 U+52FB匀 U+5300匀 U+5355单 U+5358単 U+5373即 U+537D卽 U+5377卷 U+5DFB巻 U+53C1叁 U+53C2参 U+53C3参 U+53C4叄 U+5415吕 U+5442吕 U+541E吞 U+5451呑 U+5433吴 U+5434吴 U+5449呉 U+5436呐 U+5450呐 U+543F吿 U+544A告 U+5527唧 U+559E喞 U+55A9喩 U+55BB喻 U+5618嘘 U+5653嘘 U+568F嚏 U+5694嚔 U+56EF国 U+56FD国 U+5708圈 U+570F圏 U+570E圎 U+5713圆 U+5716图 U+5717圗 U+5759坙 U+5DE0巠 U+57D2埒 U+57D3埓 U+5848塈 U+588D墍 U+5861塡 U+586B填 U+5897増 U+589E增 U+58EE壮 U+58EF壮 U+58FD寿 U+5900寿 U+5910夐 U+657B敻 U+5932夲 U+672C本 U+5965奥 U+5967奥 U+5968奨 U+596C奖 U+734E奖 U+5986妆 U+599D妆 U+598D妍 U+59F8姸 U+59CD姗 U+59D7姗 U+59EB姫 U+59EC姬 U+5A1B娱 U+5A2F娯 U+5A31娱 U+5A55婕 U+5AAB媫 U+5A7E婾 U+5AAE偷 U+5AAA媪 U+5ABC媪 U+5AAF妫 U+5B00妫 U+5B0E嬎 U+5B14嬔 U+5B24嬷 U+5B37嬷 U+5B73孳 U+5B76孶 U+5BAB宫 U+5BAE宫 U+5BDB寛 U+5BEC宽 U+5BDC寜 U+5BE7宁 U+5BDD寝 U+5BE2寝 U+5C02専 U+5C08专 U+5C06将 U+5C07将 U+5C13尓 U+5C14尔 U+5C19尙 U+5C1A尚 U+5C2A尪 U+5C2B尫 U+5C36尶 U+5C37尴 U+5C4F屏 U+5C5B屛 U+5CE5峥 U+5D22峥 U+5DD3巓 U+5DD4巅 U+5E21帡 U+5E32帲 U+5E2F帯 U+5E36带 U+5E76并 U+5E77幷 U+5EC4厩 U+5ECF廏 U+5F11弑 U+5F12弑 U+5F37强 U+5F3A强 U+5F39弹 U+5F3E弾 U+5F50彐 U+5F51彑 U+5F54彔 U+5F55录 U+5F59汇 U+5F5A彚 U+5F5B彛 U+5F5C彝 U+5F5D彝 U+5F5E彝 U+5F65彦 U+5F66彦 U+5FB3徳 U+5FB7德 U+5FB4征 U+5FB5征 U+6075恵 U+60E0惠 U+6085悦 U+60A6悦 U+609E悞 U+60AE悮 U+60B3悳 U+60EA惪 U+6120愠 U+614D愠 U+613C愼 U+614E慎 U+6229戬 U+622C戬 U+622F戏 U+6231戱 U+6236户 U+6237户 U+6238戸 U+623B戻 U+623E戾 U+629B抛 U+62CB抛 U+629C抜 U+62D4拔 U+6329挩 U+635D捝 U+633F挿 U+63D2插 U+63F7揷 U+634F捏 U+63D1揑 U+635C捜 U+641C搜 U+63B2掲 U+63ED揭 U+63FA揺 U+6416摇 U+6447摇 U+63FE揾 U+6435搵 U+6483撃 U+64CA击 U+654E敎 U+6559教 U+6553敓 U+655A敚 U+65E2既 U+65E3旣 U+6602昂 U+663B昻 U+665A晚 U+6669晩 U+66A8暨 U+66C1曁 U+66FD曽 U+66FE曾 U+67B4拐 U+67FA拐 U+67E5查 U+67FB査 U+67F5栅 U+6805栅 U+68B2梲 U+68C1棁 U+6961楡 U+6986榆 U+6982概 U+69EA槪 U+6985榅 U+69B2榲 U+699D榝 U+6A27樧 U+69C7槇 U+69D9槙 U+69D8様 U+6A23样 U+6A2A横 U+6A6B横 U+6B65步 U+6B69歩 U+6B72岁 U+6B73歳 U+6B7F殁 U+6B81殁 U+6BBB壳 U+6BBC壳 U+6BC0毁 U+6BC1毁 U+6BCE毎 U+6BCF每 U+6C32氲 U+6C33氲 U+6C5A污 U+6C61污 U+6C92没 U+6CA1没 U+6D44浄 U+6DE8净 U+6D89涉 U+6E09渉 U+6D97涗 U+6D9A涚 U+6D99涙 U+6DDA泪 U+6DE5渌 U+6E0C渌 U+6DF8?#91; U+6E05清 U+6E07渇 U+6E34渴 U+6E29温 U+6EAB温 U+6E88沩 U+6F59沩 U+6E89溉 U+6F11漑 U+6EDA滚 U+6EFE滚 U+6F5B潜 U+6FF3濳 U+7028濑 U+702C瀬 U+70BA为 U+7232为 U+712D焭 U+7162茕 U+7155煕 U+7199熙 U+7174煴 U+7185熅 U+72B6状 U+72C0状 U+7464瑶 U+7476瑶 U+74F6瓶 U+7501甁 U+7522产 U+7523产 U+75E9痩 U+7626瘦 U+76A1皡 U+76A5皥 U+771E眞 U+771F真 U+773E众 U+8846众 U+7814研 U+784F硏 U+797F禄 U+7984禄 U+79BF秃 U+79C3秃 U+7A05税 U+7A0E税 U+7A42穂 U+7A57穗 U+7B5D筝 U+7B8F筝 U+7BB3箳 U+7C08簈 U+7BE1篡 U+7C12簒 U+7CA4粤 U+7CB5粤 U+7D55绝 U+7D76绝 U+7DA0绿 U+7DD1绿 U+7DD2绪 U+7DD6緖 U+7DE3缘 U+7E01縁 U+7DFC缊 U+7E15缊 U+7E48襁 U+7E66襁 U+7FAE羮 U+7FB9羹 U+7FF6翶 U+7FFA翱 U+80FC胼 U+8141腁 U+812B脱 U+8131脱 U+817D腽 U+8183腽 U+8203舃 U+8204舄 U+820D舍 U+820E舎 U+8216铺 U+8217舗 U+8358荘 U+838A庄 U+83D1菑 U+8458葘 U+8480蒀 U+8495蒕 U+848B蒋 U+8523蒋 U+848D蒍 U+853F蔿 U+8570蕰 U+8580薀 U+85AB薫 U+85B0熏 U+85F4蕴 U+860A蕴 U+865A虚 U+865B虚 U+86FB蜕 U+8715蜕 U+885B卫 U+885E卫 U+886E衮 U+889E衮 U+88C5装 U+88DD装 U+8A2E訮 U+8A7D詽 U+8AAA说 U+8AAC说 U+8ACC諌 U+8AEB谏 U+8B20谣 U+8B21谣 U+8C5C豜 U+8C63豣 U+8D70走 U+8D71赱 U+8EFF軿 U+8F27輧 U+8F1C辎 U+8F3A輺 U+8F3C辒 U+8F40辒 U+8FBE达 U+8FD6迖 U+8FF8迸 U+902C逬 U+9059遥 U+9065遥 U+90A2邢 U+90C9郉 U+90CE郎 U+90DE郞 U+90F7郷 U+9109乡 U+9115乡 U+9196酝 U+919E酝 U+91A4醤 U+91AC酱 U+9203钘 U+9292銒 U+92B3锐 U+92ED锐 U+9304录 U+9332录 U+932C錬 U+934A炼 U+93AD鎭 U+93AE镇 U+95B1阅 U+95B2阅 U+9667陧 U+9689陧 U+9751靑 U+9752青 U+9759静 U+975C静 U+976D韧 U+9771靱 U+9839颓 U+983D颓 U+984F颜 U+9854颜 U+985A顚 U+985B颠 U+98EE飮 U+98F2饮 U+9905饼 U+9920餠 U+99B1驮 U+99C4駄 U+99E2骈 U+9A08騈 U+9AA9骩 U+9AAB骫 U+9AD8高 U+9AD9髙 U+9AEA髪 U+9AEE发 U+9B2C鬬 U+9B2D斗 U+9C1B鳁 U+9C2E鳁 U+9CEF鳯 U+9CF3凤 U+9D87鸫 U+9DAB鶫 U+9DC6鷆 U+9DCF鷏 U+9EAA面 U+9EAB麫 U+9EBC么 U+9EBD么 U+9EC3黄 U+9EC4黄 U+9ED1黑 U+9ED2黒

Unicode中日韩统一表意文字列表

二、中日韩越统一表意文字的字源

最初期统一汉字

最初期的统一汉字(20,902字)字源来自以下字集: G0:GB 2312-80:6,763字

G1:GB 12345-90:2,352字(含58个香港字和2个吏读字,不包括和G0重覆的字)

G3:GB 7589-87:7,237字

G5:GB 7590-87:7,039字

G7:现代汉语通用字表:642(G0, 1, 3, 5, 8未包括的字)

Unicode中日韩统一表意文字列表

G8:GB 8565-89:290字(G0, 1, 3, 5未包括的字) T1:CNS 11643-1986第一字面:5,401+9字(含9个计量用汉字)

T2:CNS 11643-1986第二字面:7,650字

TE:CNS 11643-1986第十四字面:6,319+239+10(含239个CCCII特字和10个XCCS特字) J1:JIS X 0208-90:6,335+1字

J2:JIS X 0212-90:5,801字 K0:KS C 5601-87:4,888字(含268个重见字)

K1:KS C 5657-91:2,856字

以上的来源字**实施字源分离原则。

另外还有:ANSI Z39.64-1989(EACC)、Big5、CCCII第一面、GB 12052-89、JEF、中国大陆电报码、台湾电报码、Xerox Chinese。这些来源字集不会实施字源分离原则。

很多人以为20,902统一汉字中来自台湾的只是Big5的一万三千多字,其实不然.这6千多个汉字分别从以下字典或字集中取得:中国大陆《康熙字典》5357字(独有1892字)

《汉语大字典》5888字(独有339字)

G3:GB 7589-87繁体字:2391字

G5:GB 7590-87繁体字:1226字

G7:120字 GS:新加坡汉字226字台湾 T3:CNS 11643-1992第三字面(原本为CNS 11643-1986第十四字面)新加入字元

T4:CNS 11643-1992第四字面

T5:CNS 11643-1992第五字面

T6:CNS 11643-1992第六字面

T7:CNS 11643-1992第七字面

TF:CNS 11643-1992第十五字面

日本 JA: Unified Japanese IT Vendors Contemporary Ideographs, 1993

南韩 K2:PKS C 5700-1:1994 K3:PKS C 5700-2:1994

越南 V0:TCVN 5773:1993 V1:TCVN 6056:1995

扩展B区包含有42,711个新的汉字,位置在 U+20000—U+2A6D6。根据ISO/IEC JTC1/SC2/WG2/IRG N777号文件,这四万多个汉字分别从以下字典或字集中取得:

CNS 11643的第4平面到第15平面所收录的30,177个汉字;

在《汉语大字典》中出现的28,914个未收录汉字;

在《康熙字典》中出现的18,486个未收录汉字(包括一个在补遗篇出现汉字);

在北朝鲜的国家标准所收录的5,642个汉字;

在越南的国家标准所收录的4,232个字喃;

HKSCS中出现的1,081个未收录汉字;

《汉语大词典》中出现的553个未收录汉字;

《四库全书》中出现的522个未收录汉字;

日本工业标准的JIS X 0213第3平面及第4平面的302个未收录汉字;

1980年代版本的《辞海》中出现的247个未收录汉字;

大韩民国PKS 5700-3:1998中出现的166个未收录汉字;

《中国大百科全书》中出现的86个未收录汉字;

《辞源》中出现的66个未收录汉字;

北大方正排版系统中出现的65个未收录汉字;

这堆汉字中重复的汉字有不少,所以经过整理之后,总数实际上只有42,711个汉字。

另外,在 U+2F800—U+2FA1D的位置,放了542个来自台湾的兼容汉字。为使 Unicode向下兼容 GB 18030和香港增补字符集(HKSCS)的所有汉字,而扩展C区又迟迟未能出笼,在 Unicode 4.1版中引进了14个香港增补字符集的用字和8个 GB 18030用字。该22字被编于 U+9FA6—U+9FBB的位置。

另外,在 U+FA70—U+FAD9的位置,放了106个来自北朝鲜的兼容汉字。

扩展C区按计划,中日韩统一表意文字扩展C区将收录4,251个汉字,包括来自中国大陆、澳门、台湾、日本、越南等尚未被编码的汉字。这些汉字预计会收录在下一版的 Unicode版本中,位置在 U+2A6E0—U+2B77A。字源分离原则

字源分离原则字源分离原则(Source Separation Rule)是整理中日韩统一表意文字的基础。

由于CJK各地字型多有微妙的差异,如“户”字的第一笔,台湾作撇、中国大陆作点、日本作横,这种程度的差异,理想上是整并为一个字为佳。然而,从之前各种受挫之文字整并计划的经验得知,整合字集与现行通用字集(Big5或国标码)等无法一一对应,是推行整合字集的最大阻碍。

例如,日本的JIS标准同时收录了“剣”字与“剑”字,原本JIS文件里这两个字可以并存,但采用整合字集后反而变成同一个字,会造成使用上的困扰。于是,字源分离原则因而诞生。

字源分离原则是指,在上述所列出之各种字源里,若有任何字集同时收了两种以上的文字字形,则在Unicode中日韩统一表意文字中,也同时收录这些字。这样一来,现行的各种原有字集与Unicode汉字可以一一对应。

由于Unicode中日韩统一表意文字的主要诉求,就是能大幅减少Unicode收录汉字字数,同时尊重各地的习惯字形。但字源分离原则则破坏了“只对字,而不对字形”编码之原则,亦遭受不少批评。

已统一的汉字原则上ISO 10646只对字(Character),而非字形(Glyph)编码。同一字各地可使用自己的标准写法。下例中使用HTML标示同一编码的字在不同地区中的写法(但只是我的电脑提供的字型,未必代表该地区的标准写法)。扩充区D包含的都是所谓的「急用汉字」,合共222个新汉字,于2010年下旬发布的Unicode6.0中,编码范围为 U+2B740至 U+2B81F(实际有字符为 U+2B740至 U+2B81D)。

扩展D区原本计划放置扩展C区未收录的16,000多个汉字,但在2007年5月,台湾撤消了6,545个第二部分字集内私用汉字,不再使用字,原因是那些人名用字的拥有人或已去世或已移居外地,此后扩展D区缩减到大约10,000字左右。,由于各种阻碍,协议先把数量较少,又急切要收录的汉字提交出来,就是「急用汉字」,以便和统一码6.0.0版一起发表。提出的急用汉字只有二百二十二字(本来有二百二十三字,但中国大陆撤回其中一字)。现在文字小组把第二部分字集延后到扩充E区。

三、中日韩越统一表意文字的扩展B区的问题

扩展B区使用了辅助平面来摆放汉字,以致不少字处理软件都不能支持。例如,Microsoft Office2000或之前的版本,即使计算机拥有扩展B区汉字字体,也只会显示两个方格。

另外,因扩展B区在整理上有缺陷,收录了以下5个本来应该与其他汉字统一的字:

· U+20457𠑗=U+34A8㒨

· U+2420E𤈎=U+3DB7㶷

· U+27144𧅄=U+8641虁

· U+23515𣔕=U+204F2𠓲

· U+249E9𤧩=U+249BC𤦼

而在 WG2 N1155文件中,亦列出了152对可考虑统一的汉字。

文章到此结束,如果本次分享的Unicode中日韩统一表意文字列表和中日韩越统一表意文字的字源的问题解决了您的问题,那么我们由衷的感到高兴!