Unicode的前两个发布版本( 6.2和 6.3)非常让人失望,因为加入到标准中的新字符数非常之少(6.2中有1个而6.3中有5个),所以对于那些认为 Unicode中的110000个字符还不是太够的人来说,Unicode 7.0将会更加激动人心。总共有 2,833个新字符将会被添加进Unicode 7.0, 它会在2014年夏天或秋天发布( list of character names)。这其中,1849个字符属于23个新加的脚本,这是自 Unicode 1.0(起初有24个脚本)以来,新加脚本数量最多的一次。
23 new scripts in Unicode 7.0
虽然所有的新脚本有着无论历史或者有限的现代用法,而且大多数人对他们并不熟悉,有一些重要的补充,notably Grantha 和Siddham,以及 Linear A——也许是世界上第一个通过破解书写系统来使用Unicode编码的(依据于斐斯托斯圆盘上的用Unicode 5.1编码的符号来决定是否写入)。
抛开新脚本不谈,对于大多数人来说,Unicode 7.0的闪光点将是加入了643个wingdings,webdings以及其他的象形文字符号,这将能够在Unicode6.0的基础上提供情感符号,表情符号,以及其他许多符号。我能够预料到那些字符,比如说“竖中指”,“剪刀手”(英国手),以及"伸出手指,在中指和无名指之间分开"(生活的长久而繁荣),将会在推特上变得比那个已经声名狼藉的“一坨屎”的字符 越来越流行。 |
“一坨屎”已经被编码进Unicode标准中以迎合日本的电信公司(KDDI & SoftBank),因为他们在手机中的表情列表里包含了这些(在最初的表情建议里,这个字符被命名为“粪”,后来在Michael Everson的建议里才改成“一坨屎”)。
在FDAM2码表中,这些字符图像的编码是从1F594到1F596。

然而,在twitterati引起最大轰动的字符应该是U+1F574,即“穿西装的悬浮着的人”。人们会问为什么Unicode会编码特定的字符。答案就是在2011年,我的好朋友Michael Suignard(ISO/IEC 10646的项目编辑)提出来编码那些在Wingdings和Webdings字体中广泛使用却没有被Unicode或者其他统一字符集收录的符号集。搭载在微软windows系统上的Webdings字体,包含一个编码为U+F06D的一个悬浮着的穿着西装的人形字符(接近“m”),现在这个字符被编码进Unicode 7.0中,因为它是Webdings字体,而且没有被任何现有的字符集收录。所以如果你还想知道哦啊为什么Unicode 7.0编码这个“穿西装的悬浮的人”字符话,你最后问问Vincent Connare等人。为什么他们最先开始在1997年的Webdings字体中包含这个字符。 | 通过 BabelMap 工具显示出 F06D 的 Webdings 字体

Unicode 与 ISO/IEC 10646
似乎很多人认为这些字符都是由于一时兴趣而随意糊乱加入到 Unicode 标准之中, 好像只有这样想才能解释为什么加入这些字符:“哦,这都是他们没有仔细地观察分析而加入的。嗯,应该是这样!”。但事实上,远不是这么简单。其实,Unicode 标准是根据国际标准,ISO/IEC 10646 ("信息技术—通用多八位编码字符集 (UCS)"),还有就是在 Unicode 标准的每一个版本中具体内容。然而,这里的 Unicode 标准一定是被工作委员会认可,并通过依靠着国家标准化组织(比如 ANSI, BSI, DIN)的ISO/IEC 10646 投票决定。虽然 Unicode 协会是代表委员会作为 ISO/IEC 10646 直接联络成员,也作为间接地联系着美国国家机构,但他却在这些方面扮演着十分重要的角色(更多的关于 Unicode 与 ISO/IEC 10646 标准之间的相关信息可以通过阅读我的博客来了解: Unicode and ISO/IEC 10646)。 |
于2012年1月发布的Unicode 6.1是符合于2012年6月发布的ISO/IEC 10646:2012国际编码标准 (以一些列PDF文件的形式和一些列电子书形式出现在ISO 网站上的)的。其实ISO/IEC 10646:2012修正版1早在一年前就已经发布了,后来把来自Amd.1 (土耳其里拉标志)的唯一一个特性加入到了于2012年9月发布的Unicode标准6.2版中去了。 ISO/IEC 10646:2012修正版2目前正出去最后的投票阶段,预计今年年底或明年初发布。 把来自Amd.2 (Arabic Letter Mark, Left-To-Right Isolate, Right-To-Left Isolate, First Strong Isolate, Pop Directional Isolate) 的5大特性加入到了于2012年9月发布的Unicode标准6.3版中去了。Unicode 7.0版本的全部特性都会采用ISO/IEC 10646:2012+Amendments 1和2标准,也就是说最新发布的encoded7.0特性是加入到修正版1(1,769个特性)和修正版2(1,070个特性),再减去6.2和6.3版本已经有的特性(1,769 + 1,070 - 6 = 2,833 ,也就是Unicode 7.0的特性)的结果.
修正案 1
修正案1 ("Linear A, Palmyrene, Manichaean, Khojki, Khudawadi, Bassa Vah, Duployan, 以及其它字符") 已经被发布了,所以Unicode中的字符位置和字符名称没有什么可改变的。该修正案包含1769个新字符,下表中是详细内容。你可以从这里或这里下载包含新字符的代码图表。 已经存在部分的补充 (339个字符) Block | Characters | Documents | Greek and Coptic [0370..03FF] | 037F: Capital letter yot | N3997 | Armenian [0530..058F] | 058D..058E: 2 Armenian eternity signs | N3923 | Arabic [0600..06FF] | 0605: Mark used with Coptic numbers | N3843 N3990 | Arabic Extended-A [08A0..08FF] | 08A1: 1 letter used for Fulfulde | N3882 N3988 | 08AD..08B1: 5 letters used for Bashkir, Belarusian, Crimean Tatar, and Tatar languages | N4072 | 08FF: 1 letter used for Palula and Shina | N4072 | Devanagari [0900..097F] | 0978: 1 letter used for Marwari | N3970 | Telugu [0C00..0C7F] | 0C00: Candrabindu | N3964 | Kannada [0C80..0CFF] | 0C81: Candrabindu | N3964 | Malayalam [0D00..0D7F] | 0D01: Candrabindu | N3964 | Sinhala [0D80..0DFF] | 0DE6..0DEF: 10 digits for astrological use | N3888 | Limbu [1900..194F] | 191D..191E: 2 consonant conjuncts | N3975 | Combining Diacritical Marks Supplement [1DC0..1DFF] | 1DE7..1DF4: 14 combining letters used for Teuthonista phonetic transcription | N4081 N4106 | Currency Symbols [20A0..20CF] | 20BA: Turkish Lira sign (Unicode 6.2) | N4273 | Miscellaneous Technical [2300..23FF] | 23F4..23FA: 7 wingdings and webdings symbols | N4022 N4115 | Dingbats [2700..27BF] | 2700: 1 Wingdings and Webdings symbol | N4022 N4115 | Miscellaneous Symbols and Arrows [2B00..2BFF] | 2B4D..2B4F, 2B5A..2B73, 2B76..2B95, 2B98..2BB9, 2BBD..2BC8, 2BCA..2BD1: 115 wingdings and webdings symbols | N4022 N4115 | Supplement Punctuation [2E00-2E7F] | 2E3C: Stenographic full stop | N3895 | 2E3D..2E3E: 2 marks for Lithuanian dialectology | N4070 | 2E3F: Capitulum | N4022 | 2E40: Double hyphen | N3983 | 2E41..2E42: 2 marks for Old Hungarian | N3664 | Cyrillic Extended-B [A640..A69F] | A698..A69B: 4 early Cyrillic letters | N3974 | A69C..A69D: 2 modifier letters used for Lithuanian dialectology | N4070 | Latin Extended-D [A720..A7FF] | A794..A795: 2 letters used for Lithuanian dialectology | N4070 | A798..A79F: 8 letters used for Teuthonista phonetic transcription | N4081 N4106 | Combining Half Marks [FE20..FE2F] | FE27..FE2D: 7 combining half marks | N4078 | Old Italic [10300..1032F] | 1031F: 1 letter used in a South Picene inscription | N4046 | Enclosed Alphanumeric Supplement [1F100..1F1FF] | 1F10B..1F10C: 2 wingdings and webdings symbols | N4022 N4115 | Miscellaneous Symbols and Pictographs [1F300..1F5FF] | 1F321..1F32C, 1F336, 1F394..1F395, 1F397, 1F39C..1F39D, 1F3F1..1F3F6, 1F441, 1F53E..1F53F, 1F544..1F54A, 1F568..1F56A, 1F56D..1F56F, 1F571, 1F573, 1F577..1F578, 1F57B, 1F57D..1F57F, 1F582..1F587, 1F589..1F593, 1F597..1F5A3, 1F5A5..1F5BB, 1F5BF..1F5C1, 1F5C4..1F5D1, 1F5D4..1F5DB, 1F5F4..1F5FA: 133 wingdings and webdings symbols | N4022 N4115 N4239 | Emoticons [1F600..1F64F] | 1F641..1F642: 2 wingdings and webdings symbols | N4022 N4115 | Transport and Map Symbols [1F680..1F6FF] | 1F6C6..1F6CA, 1F6E0: 6 wingdings and webdings symbols | N4022 N4115 | Linear A 碑,位于Chania Archaeological 博物馆
 {CC BY-SA 3.0 by Ursus}
新增部分(1,430个字符) Block | Characters | Documents | Combining Diacritical Marks Extended [1AB0..1AFF] | 1AB0..1ABE: 15 marks for Teuthonista phonetic transcription | N4081 N4106 | Myanmar Extended-B [A9E0..A9FF] | A9E0..A9E6: 7 letters used for Shan Pali | N3906 | Latin Extended-E [AB30..ABBF] | AB30..AB5F: 48 letters used for Teuthonista phonetic transcription | N4081 N4106 | Coptic Epact Numbers [102E0..102FF] | 102E0..102FB: 28 numbers used in Coptic-Arabic manuscripts | N3843 N3990 | Elbasan [10500..1052F] | 10500..10527: 40 letters used for the Elbasan script | N3985 | Linear A [10600..107FF] | 10600..10736, 10740..10755, 10760..10767: 341 Linear A signs | N3973 | Palmyrene [10860..1087F] | 10860..1087F: 32 letters used for the Palmyrene script | N3867 | Nabataean [10880..108AF] | 10880.. 1089E, 108A7.. 108AF: 40 letters and numbers used for the Nabataean script | N3969 | Old North Arabian [10A80..10A9F] | 10A80..10A9F: 32 letters and numbers used for the Old North Arabian script | N3937 | Manichaean [10AC0..10AFF] | 10AC0..10AE6, 10AEB..10AF6: 51 letters, numbers and punctuation marks used for the Manichaean script | N4029 | Sinhala Archaic Numbers [111E0..111FF] | 111E1..111F4: 20 archaic numbers | N3876 N3888 | Khojki [11200..1124F] | 11200..11211, 11213..1123D: 61 letters, signs and punctuation marks used for the Khojki script | N3978 | Khudawadi [112B0..112FF] | 112B0..112EA, 112F0..112F9: 69 letters signs and numbers used for the Khudawadi script | N3979 | Tirhuta [11480..114DF] | 11480..114C7, 114D0..114D9: 82 letters, signs and numbers used for the Tirhuta script | N4035 | Pau Cin Hau [11AC0..11AFF] | 11AC0..11AF8: 57 letters and other characters used for the Pau Cin Hau script | N4017 | Mro [16A40..16A6F] | 16A40..16A5E, 16A60..16A6F: 43 letters, numbers and punctuation marks used for the Mro script | N3589 | Bassa Vah [16AD0..16AFF] | 16AD0..16AED, 16AF0..16AF5: 36 letters and other characters used for the Bassa Vah script | N3941 | Duployan [1BC00..1BC9F] | 1BC00..1BC6A, 1BC70..1BC7C, 1BC80..1BC88, 1BC90..1BC99, 1BC9C..1BC9F: 143 letters and other characters for Duployan shorthand | N3895 | Shorthand Format Controls [1BCA0..1BCAF] | 1BCA0..1BCA3: 4 shorthand format characters | N3895 | Ornamental Dingbats [1F650..1F67F] | 1F650..1F67F: 48 wingdings and webdings symbols | N4022 N4115 | Geometric Shapes Extended [1F780..1F7FF] | 1F780..1F7D4: 85 wingdings and webdings symbols | N4022 N4115 | Supplemental Arrows-C [1F800..1F8FF] | 1F800..1F80B, 1F810..1F847, 1F850..1F859, 1F860..1F887, 1F890..1F8AD: 148 wingdings and webdings symbols | N4022 N4115 |
修正案 2
修正案 2 ("Caucasian Albanian,
Psalter Pahlavi, Mahajani, Grantha, Modi, Pahawh Hmong, Mende Kikakui,
以及其它字符")目前正在进行最后一轮投票,但在这个阶段,已经没有Unicode内的字符位置和字符名称需要变更。这个修正案包括1,070个新字符,下表中是字符详细信息。你可以从这里或这里下载包含新字符的代码图表。
Medieval Celtic stone inscribed SABIN {I} FIL {I} MACCODECHET {I}

{CC BY-SA 3.0 by BabelStone}
已有部分的补充(248个字符)
Block |
Characters |
Documents |
Cyrillic Supplement
[0500..052F] |
0528..0529: 2 letters used for Orok |
N4137 |
052A..052D: 4 letters used for Ossetian and Komi |
N4199 |
052E..052F: 2 letters used for Northern Khanty, Eastern Khanty and Forest Nenets |
N4219 |
Arabic
[0600..06FF] |
061C: Arabic letter mark (Unicode 6.3) |
N4180 |
Arabic Extended-A
[08A0..08FF] |
08B2: 1 letter for Berber |
N4271 |
Bengali
[0980..09FF] |
0980: Anji sign |
N4157 |
Telugu
[0C00..0C7F] |
0C34: Letter llla |
N4214 |
Runic
[16A0..16FF] |
16F1..16F3: 3 letters used by J. R. R. Tolkien
16F4..16F8: 5 letters used on the Franks Casket |
N4013 |
Vedic Extensions
[1CD0..1CFF] |
1CF8..1CF9: 2 svara markers for the Jaiminiya Sama Veda Archika |
N4134 |
Combining Diacritical Marks Supplement
[1DC0..1DFF] |
1DF5: 1 character used in American lexicography |
N4279 |
General Punctuation
[2000..206F] |
2066..2069: 4 bidirectional format characters (Unicode 6.3) |
N4279 |
Currency Symbols
[20A0..20CF] |
20BB: Nordic mark sign |
N4308
N4377 |
20BC: Azerbaijani Manat sign |
N4168 |
Latin Extended-D
[A720..A7FF] |
A796..A797: 2 letters used for Middle Vietnamese
A7AB..A7AC: 2 letters required for casing
A7F7: 1 letter used in Celtic inscriptions |
N4030 |
A7B0..A7B1: 2 letters used in Americanist orthographies |
N4297 |
A7AD: 1 letter used for Alabama |
N4228 |
Myanmar Extended-B
[A9E0..A9FF] |
A9E7..A9FE: 24 letters and numbers used for Tai Laing |
N3976 |
Myanmar Extended-A
[AA60..AA7F] |
AA7C..AA7D: 2 signs used for Tai Laing
AA7E..AA7F: 2 letters used for Shwe Palaung |
N3976 |
Latin Extended-E
[AB30..ABBF] |
AB64..AB65: 2 letters used for phonetic transcription |
N4307 |
Ancient Greek Numbers
[10140..1018F] |
1018B..1018C, 101A0: 3 papyrological characters |
N4194 |
Brahmi
[11000..1107F] |
1107F: Number joiner |
N4166 |
Sharada
[11180..111DF] |
111CD: Sutra mark |
N4269 |
111DA: Ekam sign |
N4158 |
Cuneiform
[12000..123FF] |
1236F..12398, 12463..1246E, 12474: 55 signs and numeric signs |
N4277 |
Playing Cards
[1F0A0..1F0FF] |
1F0BF, 1F0E0..1F0F5: 23 playing card symbols |
N4089 |
Miscellaneous Symbols and Pictographs
[1F300..1F5FF] |
1F37D, 1F396, 1F398..1F39B, 1F39E..1F39F, 1F3C5, 1F3CB..1F3CE, 1F3D4..1F3DF, 1F3F7, 1F43F, 1F4F8, 1F4FD..1F4FE, 1F56B..1F56C, 1F570, 1F572, 1F574..1F576, 1F579, 1F57C, 1F580..1F581, 1F588, 1F594..1F596, 1F5BC..1F5BE, 1F5C2..1F5C3, 1F5D2..1F5D3, 1F5DC..1F5F3: 76 wingdings and webdings symbols |
N4022
N4115
N4239
N4306 |
Transport and Map Symbols
[1F680..1F6FF] |
1F6CB..1F6CF, 1F6E1..1F6EC, 1F6F0..16F3: 21 wingdings and webdings symbols |
N4022
N4115 |
Sanskrit Dhāraṇī ,汉语和悉昙文字,来自于Yarkhoto

IDP: Berlin-Brandenburgische Akademie der Wissenschaften: SHT 7175
新增部分(822字符)
Block |
Characters |
Documents |
Old Permic
[10350..1037F] |
10350..1037A: 43 letters used for the Old Permic script |
N4263 |
Caucasian Albanian
[10530..1056F] |
10530..10563, 1056F: 53 letters and marks used for the Caucasian Albanian script |
N4131 |
Psalter Pahlavi
[10B80..10BAF] |
10B80..10B91, 10B99..10B9C, 10BA9..10BAF: 29 letters, marks and numbers used for the Psalter Pahlavi script |
N4040 |
Mahajani
[11150..1117F] |
11150..11176: 39 letters and signs used for the Mahajani script |
N4126 |
Grantha
[11300..1137F] |
11301..11303, 11305..1130C, 1130F..11310, 11313..11328, 1132A..11330, 11332..11333, 11335..11339, 1133C..11344, 11347..11348, 1134B..1134D, 11357, 1135D..11363, 11366..1136C, 11370..11374: 83 letters, numbers and signs used for the Grantha script |
N4135
N4136 |
Siddham
[11580..115FF] |
11580..115B5, 115B8..115C9: 72 letters, signs and marks used for the Siddham script |
N4294 |
Modi
[11600..1165F] |
11600..11644, 11650..11659: 79 letters, signs and numbers used for the Modi script |
N4034 |
Warang Citi
[118A0..118FF] |
118A0..118F2, 118FF: 84 letters and numbers used for the Warang Citi script |
N4259 |
Pahawh Hmong
[16B00..16B8F] |
16B00..16B45, 16B50..16B59, 16B5B..16B61, 16B63..16B77, 16B7D..16B8F: 127 letters and signs used for the Pahawh Hmong script |
N4175
N4377 |
Mende Kikakui
[1E800..1E8DF] |
1E800..1E8C4, 1E8C7..1E8D6: 213 syllables and numbers used for the Mende Kikakui script |
N4167
N4311
N4377 |
跨越7.0
新的版本(第四版)的ISO/IEC 10646将会于明年发布,而且新版的修正案已经在日程中。ISO/IEC 10646:2014(字符编码草案)
将会囊括 Haran,old Hungarian (如果匈牙利的人们积极投票支持的话),SHarad,Multani,Ahom,Early
Dynasitic Cuneiform,Anatolian Hieroglyph,Sutton
Signwriting,以及在一个新的CJK-E区位块中的5762个汉字。修正案1(字符编码草案)目前添加了对Nüshu
(Nushu)和Tamil的支持,随着进程的继续,更多的语言会被添加进来。字符列表,编码的分配,以及字符的命名都还没有固定,字符集与以上相关的地
方都应该严肃对待。
第一次,我认为是一个很好的动作,Unicode组织在发布Unicode的beta版之前发起了ISO投票(因为发布之后,对于修改字符的位置和名称就太晚了),希望大众能够对于建议的字符集有所反馈。在修正案1里面,ISO/IEC 10646:2014的PRI #256 和 ISO/IEC 10646:2014 的 PRI #255中可以看到这些 . 新的语言和字符被添加进ISO/IEC 10646:2014和它的修正案将会包含在未来两到三年的Unicode 7.1和7.2中(这是可能的版本号,现在还没有确定)。
|
如果你们当中有人注意到关于如何处理在汉字注音和 'Phags-pa音译中使用的中间点字母(最初由我在2009年1月提出的编码意见,
然后几乎得到又失去每一张选票),这个起伏不定的进程,现在终于在今年夏天于维尔纽斯召开的WG2会议上达成了协议。这个字符最终使用 LATIN
LETTER SINOLOGICAL DOT下面的U+A78F,我希望能够在 ISO/IEC 10646:2014
修正案1的后续修正版中看到它(它现在不在修正案1中,也许会添加)。
唐古拉语是
历史的奇迹,我知道许多人想要看到它被编码进Unicode,作为一系列编码唐古拉语字符和词组提案的主要作者,我也是极其期待的。虽然第一个编码唐古拉
语的提案在2008年就被(Richard Cook)提出来了,但是在字符集上却很难达成协议,导致唐古拉语的编码进度迟缓。由Henry
Luce基金会支持的一个编码唐古拉语的研讨会,将会在今年的12月于北京举行(届时我也会出席),如果一切进展顺利的话,唐古拉语是可能参与 ISO/IEC 10646:2014 Amd. 2的投票的,从而被收录进Unicode 7.2或者8.0。
|