设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 IT综合资讯 查看内容

Unicode 7.0有什么新特性?

2013-11-25 11:24| 发布者: joejoe0332| 查看: 4412| 评论: 0|原作者: 开源中国社区|来自: 开源中国社区

摘要: Unicode的前两个发布版本(6.2和6.3)非常让人失望,因为加入到标准中的新字符数非常之少(6.2中有1个而6.3中有5个),所以对于那些认为Unicode中的110000个字符还不是太够的人来说,Unicode 7.0将会更加激动人心。 ...
  Unicode的前两个发布版本(6.26.3)非常让人失望,因为加入到标准中的新字符数非常之少(6.2中有1个而6.3中有5个),所以对于那些认为Unicode中的110000个字符还不是太够的人来说,Unicode 7.0将会更加激动人心。总共有2,833个新字符将会被添加进Unicode 7.0,它会在2014年夏天或秋天发布(list of character names)。这其中,1849个字符属于23个新加的脚本,这是自Unicode 1.0(起初有24个脚本)以来,新加脚本数量最多的一次。


  23 new scripts in Unicode 7.0


  虽然所有的新脚本有着无论历史或者有限的现代用法,而且大多数人对他们并不熟悉,有一些重要的补充,notably Grantha 和Siddham,以及 Linear A——也许是世界上第一个通过破解书写系统来使用Unicode编码的(依据于斐斯托斯圆盘上的用Unicode 5.1编码的符号来决定是否写入)。


  抛开新脚本不谈,对于大多数人来说,Unicode 7.0的闪光点将是加入了643个wingdings,webdings以及其他的象形文字符号,这将能够在Unicode6.0的基础上提供情感符号,表情符号,以及其他许多符号。我能够预料到那些字符,比如说“竖中指”,“剪刀手”(英国手),以及"伸出手指,在中指和无名指之间分开"(生活的长久而繁荣),将会在推特上变得比那个已经声名狼藉的“一坨屎”的字符越来越流行。


  “一坨屎”已经被编码进Unicode标准中以迎合日本的电信公司(KDDI & SoftBank),因为他们在手机中的表情列表里包含了这些(在最初的表情建议里,这个字符被命名为“粪”,后来在Michael Everson的建议里才改成“一坨屎”)。


  在FDAM2码表中,这些字符图像的编码是从1F594到1F596。



  然而,在twitterati引起最大轰动的字符应该是U+1F574,即“穿西装的悬浮着的人”。人们会问为什么Unicode会编码特定的字符。答案就是在2011年,我的好朋友Michael Suignard(ISO/IEC 10646的项目编辑)提出来编码那些在Wingdings和Webdings字体中广泛使用却没有被Unicode或者其他统一字符集收录的符号集。搭载在微软windows系统上的Webdings字体,包含一个编码为U+F06D的一个悬浮着的穿着西装的人形字符(接近“m”),现在这个字符被编码进Unicode 7.0中,因为它是Webdings字体,而且没有被任何现有的字符集收录。所以如果你还想知道哦啊为什么Unicode 7.0编码这个“穿西装的悬浮的人”字符话,你最后问问Vincent Connare等人。为什么他们最先开始在1997年的Webdings字体中包含这个字符。

  通过 BabelMap 工具显示出 F06D 的 Webdings 字体





  Unicode 与 ISO/IEC 10646


  似乎很多人认为这些字符都是由于一时兴趣而随意糊乱加入到 Unicode 标准之中, 好像只有这样想才能解释为什么加入这些字符:“哦,这都是他们没有仔细地观察分析而加入的。嗯,应该是这样!”。但事实上,远不是这么简单。其实,Unicode 标准是根据国际标准,ISO/IEC 10646 ("信息技术—通用多八位编码字符集 (UCS)"),还有就是在 Unicode 标准的每一个版本中具体内容。然而,这里的 Unicode 标准一定是被工作委员会认可,并通过依靠着国家标准化组织(比如 ANSI, BSI, DIN)的ISO/IEC 10646 投票决定。虽然 Unicode 协会是代表委员会作为 ISO/IEC 10646 直接联络成员,也作为间接地联系着美国国家机构,但他却在这些方面扮演着十分重要的角色(更多的关于 Unicode 与 ISO/IEC 10646 标准之间的相关信息可以通过阅读我的博客来了解: Unicode and ISO/IEC 10646)。


  于2012年1月发布的Unicode 6.1是符合于2012年6月发布的ISO/IEC 10646:2012国际编码标准 (以一些列PDF文件的形式和一些列电子书形式出现在ISO 网站上的)的。其实ISO/IEC 10646:2012修正版1早在一年前就已经发布了,后来把来自Amd.1 (土耳其里拉标志)的唯一一个特性加入到了于2012年9月发布的Unicode标准6.2版中去了。 ISO/IEC 10646:2012修正版2目前正出去最后的投票阶段,预计今年年底或明年初发布。 把来自Amd.2 (Arabic Letter Mark, Left-To-Right Isolate, Right-To-Left Isolate, First Strong Isolate, Pop Directional Isolate) 的5大特性加入到了于2012年9月发布的Unicode标准6.3版中去了。Unicode 7.0版本的全部特性都会采用ISO/IEC 10646:2012+Amendments 1和2标准,也就是说最新发布的encoded7.0特性是加入到修正版1(1,769个特性)和修正版2(1,070个特性),再减去6.2和6.3版本已经有的特性(1,769 + 1,070 - 6 = 2,833 ,也就是Unicode 7.0的特性)的结果.


  修正案 1


  修正案1 ("Linear A, Palmyrene, Manichaean, Khojki, Khudawadi, Bassa Vah, Duployan, 以及其它字符") 已经被发布了,所以Unicode中的字符位置和字符名称没有什么可改变的。该修正案包含1769个新字符,下表中是详细内容。你可以从这里这里下载包含新字符的代码图表。


  已经存在部分的补充 (339个字符)

Block Characters Documents
Greek and Coptic
[0370..03FF]
037F: Capital letter yot N3997
Armenian
[0530..058F]
058D..058E: 2 Armenian eternity signs N3923
Arabic
[0600..06FF]
0605: Mark used with Coptic numbers N3843
N3990
Arabic Extended-A
[08A0..08FF]
08A1: 1 letter used for Fulfulde N3882
N3988
08AD..08B1: 5 letters used for Bashkir, Belarusian, Crimean Tatar, and Tatar languages N4072
08FF: 1 letter used for Palula and Shina N4072
Devanagari
[0900..097F]
0978: 1 letter used for Marwari N3970
Telugu
[0C00..0C7F]
0C00: Candrabindu N3964
Kannada
[0C80..0CFF]
0C81: Candrabindu N3964
Malayalam
[0D00..0D7F]
0D01: Candrabindu N3964
Sinhala
[0D80..0DFF]
0DE6..0DEF: 10 digits for astrological use N3888
Limbu
[1900..194F]
191D..191E: 2 consonant conjuncts N3975
Combining Diacritical Marks Supplement
[1DC0..1DFF]
1DE7..1DF4: 14 combining letters used for Teuthonista phonetic transcription N4081
N4106
Currency Symbols
[20A0..20CF]
20BA: Turkish Lira sign (Unicode 6.2) N4273
Miscellaneous Technical
[2300..23FF]
23F4..23FA: 7 wingdings and webdings symbols N4022
N4115
Dingbats
[2700..27BF]
2700: 1 Wingdings and Webdings symbol N4022
N4115
Miscellaneous Symbols and Arrows
[2B00..2BFF]
2B4D..2B4F, 2B5A..2B73, 2B76..2B95, 2B98..2BB9, 2BBD..2BC8, 2BCA..2BD1: 115 wingdings and webdings symbols N4022
N4115
Supplement Punctuation
[2E00-2E7F]
2E3C: Stenographic full stop N3895
2E3D..2E3E: 2 marks for Lithuanian dialectology N4070
2E3F: Capitulum N4022
2E40: Double hyphen N3983
2E41..2E42: 2 marks for Old Hungarian N3664
Cyrillic Extended-B
[A640..A69F]
A698..A69B: 4 early Cyrillic letters N3974
A69C..A69D: 2 modifier letters used for Lithuanian dialectology N4070
Latin Extended-D
[A720..A7FF]
A794..A795: 2 letters used for Lithuanian dialectology N4070
A798..A79F: 8 letters used for Teuthonista phonetic transcription N4081
N4106
Combining Half Marks
[FE20..FE2F]
FE27..FE2D: 7 combining half marks N4078
Old Italic
[10300..1032F]
1031F: 1 letter used in a South Picene inscription N4046
Enclosed Alphanumeric Supplement
[1F100..1F1FF]
1F10B..1F10C: 2 wingdings and webdings symbols N4022
N4115
Miscellaneous Symbols and Pictographs
[1F300..1F5FF]
1F321..1F32C, 1F336, 1F394..1F395, 1F397, 1F39C..1F39D, 1F3F1..1F3F6, 1F441, 1F53E..1F53F, 1F544..1F54A, 1F568..1F56A, 1F56D..1F56F, 1F571, 1F573, 1F577..1F578, 1F57B, 1F57D..1F57F, 1F582..1F587, 1F589..1F593, 1F597..1F5A3, 1F5A5..1F5BB, 1F5BF..1F5C1, 1F5C4..1F5D1, 1F5D4..1F5DB, 1F5F4..1F5FA: 133 wingdings and webdings symbols N4022
N4115
N4239
Emoticons
[1F600..1F64F]
1F641..1F642: 2 wingdings and webdings symbols N4022
N4115
Transport and Map Symbols
[1F680..1F6FF]
1F6C6..1F6CA, 1F6E0: 6 wingdings and webdings symbols N4022
N4115

  Linear A 碑,位于Chania Archaeological 博物馆


{CC BY-SA 3.0 by Ursus}


新增部分(1,430个字符)

Block Characters Documents
Combining Diacritical Marks Extended
[1AB0..1AFF]
1AB0..1ABE: 15 marks for Teuthonista phonetic transcription N4081
N4106
Myanmar Extended-B
[A9E0..A9FF]
A9E0..A9E6: 7 letters used for Shan Pali N3906
Latin Extended-E
[AB30..ABBF]
AB30..AB5F: 48 letters used for Teuthonista phonetic transcription N4081
N4106
Coptic Epact Numbers
[102E0..102FF]
102E0..102FB: 28 numbers used in Coptic-Arabic manuscripts N3843
N3990
Elbasan
[10500..1052F]
10500..10527: 40 letters used for the Elbasan script N3985
Linear A
[10600..107FF]
10600..10736, 10740..10755, 10760..10767: 341 Linear A signs N3973
Palmyrene
[10860..1087F]
10860..1087F: 32 letters used for the Palmyrene script N3867
Nabataean
[10880..108AF]
10880.. 1089E, 108A7.. 108AF: 40 letters and numbers used for the Nabataean script N3969
Old North Arabian
[10A80..10A9F]
10A80..10A9F: 32 letters and numbers used for the Old North Arabian script N3937
Manichaean
[10AC0..10AFF]
10AC0..10AE6, 10AEB..10AF6: 51 letters, numbers and punctuation marks used for the Manichaean script N4029
Sinhala Archaic Numbers
[111E0..111FF]
111E1..111F4: 20 archaic numbers N3876
N3888
Khojki
[11200..1124F]
11200..11211, 11213..1123D: 61 letters, signs and punctuation marks used for the Khojki script N3978
Khudawadi
[112B0..112FF]
112B0..112EA, 112F0..112F9: 69 letters signs and numbers used for the Khudawadi script N3979
Tirhuta
[11480..114DF]
11480..114C7, 114D0..114D9: 82 letters, signs and numbers used for the Tirhuta script N4035
Pau Cin Hau
[11AC0..11AFF]
11AC0..11AF8: 57 letters and other characters used for the Pau Cin Hau script N4017
Mro
[16A40..16A6F]
16A40..16A5E, 16A60..16A6F: 43 letters, numbers and punctuation marks used for the Mro script N3589
Bassa Vah
[16AD0..16AFF]
16AD0..16AED, 16AF0..16AF5: 36 letters and other characters used for the Bassa Vah script N3941
Duployan
[1BC00..1BC9F]
1BC00..1BC6A, 1BC70..1BC7C, 1BC80..1BC88, 1BC90..1BC99, 1BC9C..1BC9F: 143 letters and other characters for Duployan shorthand N3895
Shorthand Format Controls
[1BCA0..1BCAF]
1BCA0..1BCA3: 4 shorthand format characters N3895
Ornamental Dingbats
[1F650..1F67F]
1F650..1F67F: 48 wingdings and webdings symbols N4022
N4115
Geometric Shapes Extended
[1F780..1F7FF]
1F780..1F7D4: 85 wingdings and webdings symbols N4022
N4115
Supplemental Arrows-C
[1F800..1F8FF]
1F800..1F80B, 1F810..1F847, 1F850..1F859, 1F860..1F887, 1F890..1F8AD: 148 wingdings and webdings symbols N4022
N4115


  修正案 2


  修正案 2 ("Caucasian Albanian, Psalter Pahlavi, Mahajani, Grantha, Modi, Pahawh Hmong, Mende Kikakui, 以及其它字符")目前正在进行最后一轮投票,但在这个阶段,已经没有Unicode内的字符位置和字符名称需要变更。这个修正案包括1,070个新字符,下表中是字符详细信息。你可以从这里这里下载包含新字符的代码图表。

Medieval Celtic stone inscribed SABIN {I} FIL {I} MACCODECHET {I}

{CC BY-SA 3.0 by BabelStone}


  已有部分的补充(248个字符)

Block Characters Documents
Cyrillic Supplement
[0500..052F]
0528..0529: 2 letters used for Orok N4137
052A..052D: 4 letters used for Ossetian and Komi N4199
052E..052F: 2 letters used for Northern Khanty, Eastern Khanty and Forest Nenets N4219
Arabic
[0600..06FF]
061C: Arabic letter mark (Unicode 6.3) N4180
Arabic Extended-A
[08A0..08FF]
08B2: 1 letter for Berber N4271
Bengali
[0980..09FF]
0980: Anji sign N4157
Telugu
[0C00..0C7F]
0C34: Letter llla N4214
Runic
[16A0..16FF]
16F1..16F3: 3 letters used by J. R. R. Tolkien
16F4..16F8: 5 letters used on the Franks Casket
N4013
Vedic Extensions
[1CD0..1CFF]
1CF8..1CF9: 2 svara markers for the Jaiminiya Sama Veda Archika N4134
Combining Diacritical Marks Supplement
[1DC0..1DFF]
1DF5: 1 character used in American lexicography N4279
General Punctuation
[2000..206F]
2066..2069: 4 bidirectional format characters (Unicode 6.3) N4279
Currency Symbols
[20A0..20CF]
20BB: Nordic mark sign N4308
N4377
20BC: Azerbaijani Manat sign N4168
Latin Extended-D
[A720..A7FF]
A796..A797: 2 letters used for Middle Vietnamese
A7AB..A7AC: 2 letters required for casing
A7F7: 1 letter used in Celtic inscriptions
N4030
A7B0..A7B1: 2 letters used in Americanist orthographies N4297
A7AD: 1 letter used for Alabama N4228
Myanmar Extended-B
[A9E0..A9FF]
A9E7..A9FE: 24 letters and numbers used for Tai Laing N3976
Myanmar Extended-A
[AA60..AA7F]
AA7C..AA7D: 2 signs used for Tai Laing
AA7E..AA7F: 2 letters used for Shwe Palaung
N3976
Latin Extended-E
[AB30..ABBF]
AB64..AB65: 2 letters used for phonetic transcription N4307
Ancient Greek Numbers
[10140..1018F]
1018B..1018C, 101A0: 3 papyrological characters N4194
Brahmi
[11000..1107F]
1107F: Number joiner N4166
Sharada
[11180..111DF]
111CD: Sutra mark N4269
111DA: Ekam sign N4158
Cuneiform
[12000..123FF]
1236F..12398, 12463..1246E, 12474: 55 signs and numeric signs N4277
Playing Cards
[1F0A0..1F0FF]
1F0BF, 1F0E0..1F0F5: 23 playing card symbols N4089
Miscellaneous Symbols and Pictographs
[1F300..1F5FF]
1F37D, 1F396, 1F398..1F39B, 1F39E..1F39F, 1F3C5, 1F3CB..1F3CE, 1F3D4..1F3DF, 1F3F7, 1F43F, 1F4F8, 1F4FD..1F4FE, 1F56B..1F56C, 1F570, 1F572, 1F574..1F576, 1F579, 1F57C, 1F580..1F581, 1F588, 1F594..1F596, 1F5BC..1F5BE, 1F5C2..1F5C3, 1F5D2..1F5D3, 1F5DC..1F5F3: 76 wingdings and webdings symbols N4022
N4115
N4239
N4306
Transport and Map Symbols
[1F680..1F6FF]
1F6CB..1F6CF, 1F6E1..1F6EC, 1F6F0..16F3: 21 wingdings and webdings symbols N4022
N4115


Sanskrit Dhāraṇī ,汉语和悉昙文字,来自于Yarkhoto

IDP: Berlin-Brandenburgische Akademie der Wissenschaften: SHT 7175


  新增部分(822字符)

Block Characters Documents
Old Permic
[10350..1037F]
10350..1037A: 43 letters used for the Old Permic script N4263
Caucasian Albanian
[10530..1056F]
10530..10563, 1056F: 53 letters and marks used for the Caucasian Albanian script N4131
Psalter Pahlavi
[10B80..10BAF]
10B80..10B91, 10B99..10B9C, 10BA9..10BAF: 29 letters, marks and numbers used for the Psalter Pahlavi script N4040
Mahajani
[11150..1117F]
11150..11176: 39 letters and signs used for the Mahajani script N4126
Grantha
[11300..1137F]
11301..11303, 11305..1130C, 1130F..11310, 11313..11328, 1132A..11330, 11332..11333, 11335..11339, 1133C..11344, 11347..11348, 1134B..1134D, 11357, 1135D..11363, 11366..1136C, 11370..11374: 83 letters, numbers and signs used for the Grantha script N4135
N4136
Siddham
[11580..115FF]
11580..115B5, 115B8..115C9: 72 letters, signs and marks used for the Siddham script N4294
Modi
[11600..1165F]
11600..11644, 11650..11659: 79 letters, signs and numbers used for the Modi script N4034
Warang Citi
[118A0..118FF]
118A0..118F2, 118FF: 84 letters and numbers used for the Warang Citi script N4259
Pahawh Hmong
[16B00..16B8F]
16B00..16B45, 16B50..16B59, 16B5B..16B61, 16B63..16B77, 16B7D..16B8F: 127 letters and signs used for the Pahawh Hmong script N4175
N4377
Mende Kikakui
[1E800..1E8DF]
1E800..1E8C4, 1E8C7..1E8D6: 213 syllables and numbers used for the Mende Kikakui script N4167
N4311
N4377

 

  跨越7.0


  新的版本(第四版)的ISO/IEC 10646将会于明年发布,而且新版的修正案已经在日程中。ISO/IEC 10646:2014(字符编码草案) 将会囊括 Haran,old Hungarian (如果匈牙利的人们积极投票支持的话),SHarad,Multani,Ahom,Early Dynasitic Cuneiform,Anatolian Hieroglyph,Sutton Signwriting,以及在一个新的CJK-E区位块中的5762个汉字。修正案1(字符编码草案)目前添加了对Nüshu (Nushu)和Tamil的支持,随着进程的继续,更多的语言会被添加进来。字符列表,编码的分配,以及字符的命名都还没有固定,字符集与以上相关的地 方都应该严肃对待。


  第一次,我认为是一个很好的动作,Unicode组织在发布Unicode的beta版之前发起了ISO投票(因为发布之后,对于修改字符的位置和名称就太晚了),希望大众能够对于建议的字符集有所反馈。在修正案1里面,ISO/IEC 10646:2014的PRI #256 和 ISO/IEC 10646:2014 的 PRI #255中可以看到这些 . 新的语言和字符被添加进ISO/IEC 10646:2014和它的修正案将会包含在未来两到三年的Unicode 7.1和7.2中(这是可能的版本号,现在还没有确定)。


  如果你们当中有人注意到关于如何处理在汉字注音和 'Phags-pa音译中使用的中间点字母(最初由我在2009年1月提出的编码意见, 然后几乎得到又失去每一张选票),这个起伏不定的进程,现在终于在今年夏天于维尔纽斯召开的WG2会议上达成了协议。这个字符最终使用 LATIN LETTER SINOLOGICAL DOT下面的U+A78F,我希望能够在 ISO/IEC 10646:2014 修正案1的后续修正版中看到它(它现在不在修正案1中,也许会添加)。


  唐古拉语是 历史的奇迹,我知道许多人想要看到它被编码进Unicode,作为一系列编码唐古拉语字符和词组提案的主要作者,我也是极其期待的。虽然第一个编码唐古拉 语的提案在2008年就被(Richard Cook)提出来了,但是在字符集上却很难达成协议,导致唐古拉语的编码进度迟缓。由Henry Luce基金会支持的一个编码唐古拉语的研讨会,将会在今年的12月于北京举行(届时我也会出席),如果一切进展顺利的话,唐古拉语是可能参与 ISO/IEC 10646:2014 Amd. 2的投票的,从而被收录进Unicode 7.2或者8.0。


酷毙

雷人
1

鲜花

鸡蛋

漂亮

刚表态过的朋友 (1 人)

  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部