字形字体八辅字情调查中期报告

By 王谢杨、 @Kushim Jiang 、 @湉沨

注:

1.本文中“仅见于”、“均”等字词实用范畴为编者所接触到和参考到的材料;

2.本文以Unicode简称Unicode编码字符集时不作阐明;

3.本文中“字表”指《八辅字情调查表》;

4.对于G源(大陆源)WS2017(Work Set 2017)提案中的公安部白条,只采信部分。

5.对于仅在《中华字海》中呈现的内容,一概不予采信。

6.八辅中的异体字不按规范请求字形。

7.本文统计所应用的数据为2018年2月22日0:00之前的数据。

8.《已有字列表》、《建议正形或统合八辅字形表》、《规范字形非第一字形八辅字表》的PDF版在第3部分有下载链接。

9.欢迎指正本文呈现的各类过错,尤其是统计数据过错。

1 字数统计

八辅,即《信息技巧 信息交流用字符集 第八帮助集》(SJ/T 11239-2001),为GB 2312的帮助集,属于行业尺度,共收录地名用字2501字。经过收拾,发明其中有4个字反复:堐(20-06、21-36);畓(35-89、38-11);「⿰缶鸟」(39-06、40-38);「⿱氽田」(17-70、38-18)。所以本质上八辅中共包括2497字。

1.1 八辅内U内部分字数统计

与Unicode10.0进行对比,八辅所收录的2497个单字中现已有1283个字被收录,其中基础区(URO)266字,基础弥补区(URO+)1字(鿍, U+9FCD),扩大A区(Extention A)108字,扩大B区543字,扩大C区180字,扩大D区1字(「⿰阝显」, U+2B803),扩大E区127字,扩大F区56字,兼容区1字(﨏, U+FA0F)。㖈字在扩大A区被反复收录(U+3588/U+439B),但只算做1字;「⿰口儿」(25-28)在Unicode 10.0中被unify至叽(U+53FD, URO),但现有证据可支撑其disunify,所以算作未收字。

1.2 八辅内U外部分字数统计

与Unicode10.0进行对比,八辅中尚有1214字未被Unicode收录,其中有71字已经在WS2015中提交,并即将进入预计于今年定稿的扩大G区,3字在扩大F区提交后被撤回,1字由G源在扩大C区提交,但字形未录入Unicode,其余1139字从未被提交过(由于WS2017各源交字过错较多,须要收拾后在今年重新提交,所以暂未与WS2017整体核对)。经过对相干材料的收拾与剖析,我们共找到了528字存在的可靠证据,其中392字有可提交证据。

1.2.1 可提交地名证据情形

共有361字有地名类可提交证据,其中1字提交证据仅有公安部打印白条,9字提交证据仅有公安部手写白条,351字提交证据源于各类文献。「⿱㓁林」(18-27)的文献证据字形不符合现行大陆规范。

1.2.2 可提交非地名证据情形

共有31字须要应用非地名类证据提交,其中2字见于《古壮字字典》,4字见于《汉语大字典》第二版,1字为人名证据,6字为姓氏证据,18字提交证据为其它各类文献。

1.2.3 不可提交证据情形

在找到可信证据的528字中,有136字因相干材料为手写体、可信度相对较低或者其它原因无法提交,「⿱⿰未成母」(35-81)与「⿱荒⿰荒荒」仅见描写,未见字形;2字仅见于《僮语地名用字的读音和意义》(手写);128字仅见于《福建 广东 广西地名冷僻字表》(手写);2字见于中国测绘科学研讨院编《地名库外字代码对比表》(此表仅见一小部分);2字仅见于某学位论文。

1.3 八辅外U外地名字字数统计

本次字情调查共找到141个比拟可靠的U外八辅外地名用字。其中有7字无可提交证据,这7字均仅见于《福建 广东 广西地名冷僻字表》;其余134字中,2字提交证据仅有公安部打印白条,10字提交证据仅有公安部手写白条,122字见于其它各类文献。在编写字情调查表时,我们去掉了证据过错或者可疑的几十字,但由于这部分字往往没有第二种材料与之对比,更加可能呈现错字。

1.4 特别字字数统计

八辅中共有5个繁体字,分辨是僕(17-62, U+50D5)、垻(20-80, U+57BB)、揀(25-11, U+63C0)、遞(31-40, U+905E)、「⿰石聶」(37-83, U+2E056)。其中「⿰石聶」的简体字/类推简化字截止WS2017尚未被提交过;坝对应的繁体字为壩和垻,垻字有同壩的用法,也有读bà但意义不同壩或读bèi的用法(详见《汉语大字典》第二版p476-p477),读bèi时含义为“坡”,未进行简化。收录入八辅时很可能是算作与坝无关的字义收录的,但由于其类推简化字也为坝,所以仍视为坝的繁体字。

八辅中筓(40-71, U+7B53)实为笄字的旧字形,理应算为同一字,但由于Unicode尺度制订早期的技巧限制,且为了和早期各国/地域的尺度完全对应,在Unicode中赋予了筓与笄不同码位。

2 横扩与字形问题

经过初步统计,在Unicode 10.0收录的1283个八辅字中,共有969字有大陆起源(有2字为大陆所交新加坡用汉字),其余314字须要横扩,即在对应码位中参加G源字形。须要横扩的314字中,有53字无与大陆规范一致的字形收录,其它字虽无大陆起源,但至少有一源字形基础与大陆规范一致。

对于一些八辅内与所见材料字形不一致的情形,我们分不同情形作了不同的处置,一部分建议与已收字统合(unify),一部分建议更正八辅字形。

2.1 不一致字形的处置

八辅中收录的字形不可避免地呈现了与Unicode尺度收录的所有字形均不同(八辅-U内字形差别),与文献材料所收字形有差别或者字形与大陆规范不一致的现象,我们联合现有材料制造了《建议正形或统合八辅字形表》,将这些字重要分为5类:因各国/地域字形尺度不一致导致的八辅-U内字形差别(B)、非字形尺度导致的字形差别(A)、字形尺度导致的需更正八辅或U内字形的(*&B)、有八辅-U内字形差别并需更正八辅字形或者U内字形的(*&U)、须要更正字形的U外八辅字(*)。

2.1.1 B类字的处置

B类字共有53个,这类字属于须要横扩字的特别类型,很可能因为尺度内缺乏字形而导致字体厂商做出的字形不符合大陆规范。B类字应与其对应的U内字视为同一字,八辅内的字形(符合大陆规范的字形)应当会在其它须要横扩的字提交时一同收入Unicode。

B类字在字表内视为U内字。

2.1.2 A类字的处置

A类字共有10个,这些字与U内字字形相近,且符合unify规矩,建议与对应U内字统合至同一码位。由于一源只能收录一个字形,无法统合至同一码位的,建议收录入IVD。

A类字不应与其对应的U内字视为同一字,而应视为形近的不同字。

A类字在字表内视为U外字。

2.1.3 *&B类字的处置

此类字共两个,分辨是「⿰氵弥」(30-31, U+3CFD)与「⿺辶⿱艹袁」(31-43, 2860F)。其中「⿰氵弥」字Unicode10.0中G源字形有误,应更正(IRGN2257);「⿺辶⿱艹袁」字八辅中的字形不符合大陆规范,Unicode10.0中无G源起源,也无符合大陆规范的字形,应正形后收录入Unicode,但鉴于此字缺少字证,现只能提交八辅内的字形。

*&B类字在字表内视为U内字。

2.1.4 *&U类字的处置

此类字共3个,与A类字不同,有比拟充分的证据证明现地名中应用的此三字字形为unicode内收录的字形,而非八辅中的字形。此三字在unicode中均有G源起源,所以八辅中的字形可以舍弃或参加IVD。

*&U类字在自表内视为U内字。

2.1.5 *类字的处置

*类字共9个,这些字在U内无相干字收录,八辅中的字形与现在所控制的文献材料不符,综合斟酌应作字形更正,但部分字不消除有文献中有八辅中字形的可能。提交这些字时会直接应用修改后的字形。「⿰义页」(39-84)在《难僻字字典》中作「⿰叉页」,其它文献中均作「⿰义页」,但依据其读音为chà,应将其字形按《难僻字字典》规范为「⿰叉页」;「⿰义页」进入IVD或以G源为起源unify至「⿰叉页」的码位。

2.1.6 一些特别情形

《建议正形或统合八辅字形表》中收入的「⿰土册」(19-82, U+212A2)字,虽然U内G源字形与台标一致,但其字形无误,建议将八辅字形参加IVD。此字字表内视为U内。

「⿱山刄」(26-56)在实际利用中见较特别字形,字表内暂视为U外字。

「⿱⿰未成肉」(17-28, U+81A5)在Unicode10.0中的G源字形误作「⿱⿰末成肉」,但81A5码位第二个字形(H源)准确,所以未将此字列入《建议正形或统合八辅字形表》。

由于现行UCV(Unifiable Component Variations)列表中奂与奐属于不可unify字形,所以具有新旧字形差别的「⿰冫奂」(18-01)与「⿰冫奐」(U+205EB)、「⿰土奂」(21-05)与「⿰土奐」(U+2A8F7)、「⿰木奂」(33-14)与「⿰木奐」(U+2ACB0)三组字未收入此表,字表中三字视为U外字。

2.2 不可unify类似字

从音义上来说,「⿱夭丨」(16-41)不可同「⿱天丨」(U+215D8)unify;「⿺九隹」(16-62)不可同䧱(U+49F1)unify;「⿱竹䑬」(41-25)不可同艞(U+825E) unify,八辅中的此三字均应给予单独码位。

2.3 伪需横扩字

由于有一部分字体是依照Unicode码表给出的第一个字形制造的(比如比拟常见的SimSun-ExtB),当应用这些字体显示部分八辅内U内字时会呈现不符合大陆规范的字形,但实际上这些字的大陆规范字形已经被Unicode收录。我们为此制造了《规范字形非第一字形八辅字表》,供各位读者参考。须要阐明的是,第一字形并不特别,字体厂商本应按同一源/尺度制造字体。

3 三个帮助字表及相干字体

3.1 帮助字表

帮助字表指除《八辅字情调查表》外的《已有字列表》、《建议正形或统合八辅字形表》、《规范字形非第一字形八辅字表》三个字表,制造帮助字表的重要目标是对八辅字收录情形进行总结。三表所收字均按八辅地位升序排列。

3.1.1 已有汉字列表

《已有字列表》(提取码wbzw)是对U外有证据证明存在地名字的总结,共计收入667字,其中八辅内526字(「⿱⿰未成母」与「⿱荒⿰荒荒」两字未录入,「⿰义页」与「⿰叉页」算作两字),八辅外141字。《已有字列表》包括了字头序号、字形、八辅地位、IDS(汉字构型记述)、字证情形等信息。

《已有字列表》首页图

3.1.2 建议正形或统合八辅字形表

《建议正形或统合八辅字形表》(提取码ruyf)对八辅字字形与Unicode收录字形或其他材料收录字形不一致的问题做了分类与总结,包括字头序号、八辅字形、八辅地位、建议修改/统合字形、IDS、差别类型等信息。

《建议正形或统合八辅字形表》首页图

3.1.3 规范字形非第一字形八辅字表

《规范字形非第一字形八辅字表》(提取码zs1y)是对码表内未处于第一位的与大陆规范字形基础一致的字形的总结,包括八辅字形、八辅地位、所在码位、IDS、横扩字形地位、提交源等信息。这些字的显示问题源于字体厂商,而非Unicode尺度。这个问题的存在以及搜狗输入法和QQ输入法自造字的存在都在必定水平上反应出国内绝大多数大众对汉字编码缺少基础懂得的现象。

《规范字形非第一字形八辅字表》首页图

3.2 相干字体

3.2.1 U外部分地名字的显示

由于未编码字从提交到正式编码往往须要几年的时光,为暂时解决有证据证明存在字的个人输入问题,我们制造了八辅字体,字体中包括了《已有字列表》中的所有字以及表外的「⿱荒⿰荒荒」。这些字在八辅字体中的码位与天珩全字库中的码位完整一致。具体的码位对比表以及字体介绍将会由 @Kushim Jiang 发表。

由于「⿱⿰未成母」字找到证据较晚,此字将在天珩字库下一次更新时同时参加天珩全字库和八辅字体。

准G区(Prep.G)字可暂时应用BabelStoneHanPUA字体显示,待G区定稿、码位断定后可以应用天珩全字库相干字体进行显示。

3.2.2 八辅内扩大B至扩大F区地名字的显示

如果不必需请求显示字形的作风均符合大陆规范,可以应用天珩全字库中任一款支撑全体扩大集的字体显示。如果须要坚持字体作风一致或者不习惯非大陆规范字形,我们微修了天珩字库-书宋(v 2.1.0)中的TH-Sy-P2字体,将其中所在码位为2D58A、2D37A、212A2、2D3AB、2D3E4、2D3E0、2D582、2D584、2D58C、2D599、2D59A、2D5A9、2DC30、2D4F6、2860F、2DD0E、2E0FC、2E5AE、2E504、2D3E6、2D3E5共计21字的字形更改为符合大陆规范的字形,字体中其它八辅字的字形均符合大陆规范。微调的字体可直接调换原字体,不影响其它文档的应用。「⿱⿰未成肉」可用天珩字库-书宋(v 2.1.0)中的TH-Sy-P0字体准确显示。

八辅字体字形表首页图

3.2.3 应用注意事项

两字体均仅可用于学术交换,版权归字体原制造公司所有,牟利必究。

3.3 八辅字的输入问题

U内相对较罕用的八辅字建议应用字海两分输入法输入;U外部分可在安装字体后,对比 @Kushim Jiang 给出的码表(见八辅音义补全打算(二)・字情表)或者八辅字体字形表直接输入,具体操作为:在Word文档中输入对应字的码位,选中后按Alt+X,再将字体调成八辅字体即可正常显示(最好应用Office Word)。如需应用文本进行信息交换,对方电脑必需也安装八辅字体才干正常显示。

U外八辅字可能通过字海两分输入法实现两分输入,具体情形还未断定,如果可以实现,这些字的输入会容易的多。

附 下载链接合集

TH-SY-P2-微修版.otf

链接:pan.baidu.com/s/1djC6Sm 密码:qij3

八辅字体 v1.00.ttf

链接:pan.baidu.com/s/1dG9UO4 密码:rawc

八辅字体字形表.pdf

链接:pan.baidu.com/s/1c325rI 密码:6spv

已有字列表.pdf

链接:pan.baidu.com/s/1nwjqiy 密码:wbzw

建议正形或统合八辅字形表.pdf

链接:pan.baidu.com/s/1wiMfeJ 密码:ruyf

规范字形非第一字形八辅字表.pdf

链接:pan.baidu.com/s/1kWDfG0 密码:zs1y

上述全体文件打包链接

链接:pan.baidu.com/s/1IU9Obp 密码:3vmf