《现代汉语语料库加工规范——词语切分与词性标注》词性标记
1 代码名称 Ag 形语素 2 a 帮助记忆的诠释 形容词性语素。形容词代码为a,语素代码g前面置以A。 取英语形容词母 3 ad [重要/a 步伐/n]NP , 美丽/a , 看似/v 抽象/a , 幻象/n 易/ad 逝/Vg , [外交/n 和/c 安全/an]NP-BL , 例子 及 注解 绿色/n 似/d 锦/Ag , 形容词 adjective的第1个字直接作状语的形容词。[积极/ad 谋求/v]V-ZZ , 代码d并在一起。 副形词 形容词代码a和副词 4 an 具有名词功能的形容词代码n并在一起。 5 Bg 区别语素 6 b 区别词性语素。区别词代码为b,语素代码g前面置以B。 名形词 词。形容词代码a和名赤/Ag 橙/Bg 黄/a 绿/a 青/a 蓝/a 紫/a , 取汉字“别”的声母。 女/b 司机/n, 金/b 手镯/n, 慢性/b 胃炎/n, 古/b 钱币/n, 副/b 主任/n, 总/b 公司/n 单音节区别词和单音节名词或名语素组合,作为一个词,并标以名词词性n。 雄鸡/n, 雌象/n, 女魔/n, 古币/n 少数“单音节区别词+双音节词”的结构作为一个词。 总书记/n , 区别词 7 c 取英语连词 合作/vn 与/c 伙伴/n 连词 conjunction的第1个字母。 8 Dg 副词性语素。副词代码置以D。 9 d 取adverb的第2个字用于形容词。 10 e 取英语叹词 啊/e ,/w 那/r 金灿灿/z 的/u 麦穗 进一步/d 发展/v , 了解/v 甚/Dg 深/a , 煞/Dg 是/v 喜人/a , 副语素 为d,语素代码g前面副词 母,因其第1个字母已叹词 exclamation的第1个字母。 11 12 f h 取汉字“方”。 取英语head的第1个/n , 军人/n 的/u 眼睛/n 里/f 不/d 是/v 没有/v 风景/n , 许多/m 非/h 主角/n 人物/n , 办事处/n 的/u “/w 准/h 政府/n ”/w 功能/n 不断/d 加强/v , 一言一行/i , 义无反顾/i , 文教/j , 少年儿童/l 朋友/n 们/k , 身体/n 健康/a 者/k , 方位词 前接成分 字母。 13 14 15 16 i j 取英语成语idiom的 成语 第1个字母。 取汉字“简”的声母。 [德/j 外长/n]NP , 简称略语 k 后接成分。 l 习用语尚未成为成语,少年儿童/l 朋友/n 们/k , 的声母。 习用语 有点“临时性”,取“临”落到实处/l , 17 Mg 数语素 数词性语素。数词代码为m,语素代码g前面置以M。 甲/Mg 减下/v 的/u 人/n 让/v 乙/Mg 背上/v , 凡/d “/w 寅/Mg 年/n ”/w 中/f 出生/v 的/u 人/n 生肖/n 都/d 属/v 虎/n , 18 m 取英语numeral的第3用。 1.数量词组应切分为数词和量词。 三/m 个/q, 10/m 公斤/q, 一/m 盒/q 点心/n , 但少数数量词已是词典的登录单位,则不再切分。 一个/m , 一些/m , 2. 基数、序数、小数、分数、百分数一律不予切分,为一个切分单位,标注为 m 。 一百二十三/m,20万/m, 123.54/m, 一个/m, 第一/m, 第三十五/m, 20%/m, 三分之二/m, 千分之三十/m, 几十/m 人/n, 十几万/m 元/q, 第一百零一/m 个/q , 3. 约数,前加副词、形容词或后加“来、多、左右”等助数词的应予分开。 约/d 一百/m 多/m 万/m,仅/d 一百/m 个/q, 四十/m 来/m 个/q,二十/m 余/m 只数词 个字母,n,u已有他/q, 十几/m 个/q,三十/m 左右/m , 两个数词相连的及“成百”、“上千”等则不予切分。 五六/m 年/q, 七八/m 天/q,十七八/m 岁/q, 成百/m 学生/n,上千/m 人/n, 4.表序关系的“数+名”结构,应予切分。 二/m 连/n , 三/m 部/n , 19 Ng 名词性语素。名词代码置以N。 20 n 取英语名词noun的第 出/v 过/u 两/m 天/q 差/Ng, 理/v 了/u 一/m 次/q 发/Ng, (参见 动词--v) 岗位/n , 城市/n , 机会/n , 她/r 是/v 责任/n 编辑/n , ( 编辑/v 科技/n 文献/n ) 21 nr 名词代码n和“人起。 1. 汉族人及与汉族起名方式相同的非汉族人的姓和名单独切分,并分别标注为nr。 张/nr 仁伟/nr, 欧阳/nr 修/nr, 阮/nr 志雄/nr, 朴/nr 贞爱/nr 汉族人除有单姓和复姓外,还有双姓,即有的女子出嫁后,在原来的姓上加上丈夫的姓。如:陈方安生。这种情况切分、标注为:陈/nr 方/nr 安生/nr;唐姜氏,切分、标注为:唐/nr 姜氏/nr。 2. 姓名后的职务、职称或称呼要分开。 江/nr 主席/n, 小平/nr 同志/n, 江/nr 总书记/n,张/nr 教授/n, 王/nr 部长/n, 陈/nr 老总/n, 李/nr 大娘/n, 刘/nr 阿姨/n, 龙/nr 姑姑/n 3. 对人的简称、尊称等若为两个字,则合为一个切分单位,并标以nr。 老张/nr, 大李/nr, 小郝/nr, 郭老/nr, 陈总/nr 4. 明显带排行的亲属称谓要切分开,分不清楚的则不切开。 三/m 哥/n, 大婶/n, 大/a 女儿/n, 大哥/n, 小弟/n, 老爸/n 5. 一些著名作者的或不易区分姓和名的笔名通常作为一个切分单位。 名语素 为n,语素代码g前面名词 1个字母。 人名 (ren)”的声母并在一鲁迅/nr, 茅盾/nr, 巴金/nr, 三毛/nr, 琼瑶/nr, 白桦/nr 6. 外国人或少数民族的译名(包括日本人的姓名)不予切分,标注为nr。 克林顿/nr, 叶利钦/nr, 才旦卓玛/nr, 小林多喜二/nr, 北研二/nr, 华盛顿/nr, 爱因斯坦/nr 有些西方人的姓名中有小圆点,也不分开。 卡尔·马克思/nr 22 ns 名词代码n和处所词 (参见2。短语标记说明--NS) 安徽/ns,深圳/ns,杭州/ns,拉萨/ns,哈尔滨/ns, 呼和浩特/ns, 乌鲁木齐/ns,长江/ns,黄海/ns,太平洋/ns, 泰山/ns, 华山/ns,亚洲/ns, 海南岛/ns,太湖/ns,白洋淀/ns, 俄罗斯/ns,哈萨克斯坦/ns,彼得堡/ns, 伏尔加格勒/ns 1. 国名不论长短,作为一个切分单位。 中国/ns, 中华人民共和国/ns, 日本国/ns, 美利坚合众国/ns, 美国/ns 2. 地名后有“省”、“市”、“县”、“区”、“乡”、“镇”、“村”、“旗”、“州”、“都”、“府”、“道”等单字的行政区划名称时,不切分开,作为一个切分单位。 四川省/ns, 天津市/ns,景德镇/ns沙市市/ns, 牡丹江市/ns,正定县/ns,海淀区/ns, 通州区/ns,东升乡/ns, 双桥镇/ns 南化村/ns,华盛顿州/ns,俄亥俄州/ns,东京都/ns, 大阪府/ns,北海道/ns, 长野县/ns,开封府/ns,宣城县/ns 3. 地名后的行政区划有两个以上的汉字,则将地名同行政区划名称切开,不过要将地名同行政区划名称用方括号括起来,并标以短语NS。 [芜湖/ns 专区/n] NS, [宣城/ns 地区/n]ns, [内蒙古/ns 自治区/n]NS, [深圳/ns 特区/n]NS, [厦门/ns 经济/n 特区/n]NS, [香港/ns 特别/a 行政区/n]NS, [香港/ns 特区/n]NS, 地名 代码s并在一起。 [华盛顿/ns 特区/n]NS, 4. 地名后有表示地形地貌的一个字的普通名词,如“江、河、山、洋、海、岛、峰、湖”等,不予切分。 鸭绿江/ns,亚马逊河/ns, 喜马拉雅山/ns, 珠穆朗玛峰/ns,地中海/ns,大西洋/ns,洞庭湖/ns, 塞普路斯岛/ns 5. 地名后接的表示地形地貌的普通名词若有两个以上汉字,则应切开。然后将地名同该普通名词标成短语NS。 [台湾/ns 海峡/n]NS,[华北/ns 平原/n]NS,[帕米尔/ns 高原/n]NS, [南沙/ns 群岛/n]NS,[京东/ns 大/a 峡谷/n]NS [横断/b 山脉/n]NS 6.地名后有表示自然区划的一个字的普通名词,如“ 街,路,道,巷,里,町,庄,村,弄,堡”等,不予切分。 中关村/ns,长安街/ns,学院路/ns, 景德镇/ns, 吴家堡/ns, 庞各庄/ns, 三元里/ns,彼得堡/ns, 北菜市巷/ns, 7.地名后接的表示自然区划的普通名词若有两个以上汉字,则应切开。然后将地名同自然区划名词标成短语NS。 [米市/ns 大街/n]NS, [蒋家/nz 胡同/n]NS , [陶然亭/ns 公园/n]NS , 8. 大小地名相连时的标注方式为: 北京市/ns 海淀区/ns 海淀镇/ns [南/f 大街/n]NS [蒋家/nz 胡同/n]NS 24/m 号/q , 23 nt “团”的声母为t,名起。 (参见2。短语标记说明--NT) 联合国/nt,中共中央/nt,国务院/nt, 北京大学/nt 1.大多数团体、机构、组织的专有名称一般是短语型的,较长,且含有地名或人名等专名,再组合,标注为短语NT。 [中国/ns 计算机/n 学会/n]NT, [香港/ns 钟表业/n 总会/n]NT, [烟台/ns 大学/n]NT, [香港/ns 理工大学/n]NT, [华东/ns 理工大学/n]NT, [合肥/ns 师范/n 学院/n]NT, [北京/ns 图书馆/n]NT, [富士通/nz 株式会社/n]NT, [香山/ns 植物园/n]NT, 机构团体 词代码n和t并在一
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库现代汉语语料库加工规范词语切分与词性标注词在线全文阅读。
相关推荐: