词性标注说明

声明

本规则是基于《北京大学现代汉语语料库基本加工规范》和《计算所汉语词性标记集》修改得到的。 与最初《北京大学现代汉语语料库基本加工规范》相比,主要修改有:

  1. 姓名和起来标”nr”,只有姓单独出现的时候标”nr1”,如“张/nr1 教授/n”
  2. 短语型的地名、团体机构名称及其他专有名称只进行最小粒度的划分,不需要再合并标注。
  3. 去掉了各种语素,“Ng”,“Ag”等都标回“n”,“a”等。
  4. 去掉“i”(成语俗语)和“l”(惯用语)标签,改成“nl”、“al”、“bl”等各种词性的惯用语标签
  5. 去掉标签“j”(缩略词),将其标回原来的词性
  6. 依据《计算所汉语词性标记集》的标准对一些标签进行细分
  7. 增加标签“vi”(不及物动词)

共22个大类,70个标签

1名词

n 名词

nr 人名(包括”@XXX”),姓名整体标注,如“李某某”、“李××”也标为nr

nr1 中文姓氏,如果单出现姓氏,标为nr1,姓名一起出现的,合起来标nr

nrf 音译人名,如“奥巴马”,“布拉德・皮特”

ns 地名,如“中国”,“上海市”,“江浙”

nt 组织机构名,如“中国队”,“央行”

nz 其它专有名词,如“银联”,“腾讯”

nl 名词性惯用语,如“豪言壮语”,“亲朋好友”

2时间词

t 时间词,如“1988年”,”3月”

3处所词

s 处所词,如“国内”,“市区”

4方位词

f 方位词,如“上”,“下”,“前面”,“后面”

5 动词

v 动词

vd 副动词,如“持续/vd 提供/v”,“优先/vd 安排/v”

vshi 动词“是”

vyou 动词“有”

vi 不及物动词,如“运营”,“点球”

vl 动词性惯用语,如“远走高飞”,“相依为命”

6 形容词

a 形容词

ad 副形词,如“经过/p 谨慎/ad 筛选/v”

an 名形词,如“虽然/c 困难/an 很多/m”

al 形容词性惯用语,如“拥挤不堪”,“难能可贵”

7 区别词

b 区别词,如“原来”,“所有”

bl 区别词性惯用语,如“至关重要”,“光天化日”

8 状态词

z 状态词,如“依旧”,“一头雾水”

9 代词

r 代词,“我”,“这”,“谁”

10 数字

m 数词

11 量词

q 量词

12 副词

d 副词,如“更”,“非常”

dl 副词性惯用语,如“对了”,“万万”

13 介词

p 介词

pba 介词“把”

pbei 介词“被”

14 连词

c 连词,如“和”,“与”,“及”

15 助词

u 助词

uzhe 助词“着”

ule 助词“了”

uguo 助词“过”

ude 助词“的”、“地”、“得”

usuo 助词“所”

udeng 助词“等”、“等等”

uyy 助词“一样”、“似的”

udh 助词“的话”

uzhi 助词“之”

ulian 助词“连”

16 语气词

y 语气词,将原来的叹词也合并到语气词里面

17 拟声词

o 拟声词

18 前缀

h 前缀,如“非/h 正常/a”

19 后缀

k 后缀,如“孩子/n 们/k”,“隐藏/v 式/k”

20 字符串

nx 字符串,url和其他特殊字符除外

21 标点符号

w 标点符号

wkz 左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { <

wky 右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >

wyz 左引号,全角:“ ‘ 『

wyy 右引号,全角:” ’ 』

wj 句号,全角:。 半角:.

ww 问号,全角:? 半角:?

wt 叹号,全角:! 半角:!

wd 逗号,全角:, 半角:,

wf 分号,全角:; 半角: ;

wn 顿号,全角:、

wm 冒号,全角:: 半角: :

ws 省略号,全角:…… …

wp 破折号,全角:—— -- ——- 半角:— —-

wb 百分号千分号,全角:% ‰ 半角:%

wh 单位符号,全角:¥ $ £ ° ℃ 半角:$

22 其它

email 电子邮件地址 ,如“jane.li@bosondata.com.cn

tel 电话号码,如:“13818636693”

id 身份证号

ip ip地址,如“127.0.0.1”

url 网页链接,如“http://bosonnlp.com/