2020-02-23 12:51 已编辑门头沟学院算法工程师

关注

实体标注、序列标注工具-BIO方式

笔者研究方向为NLP知识抽取，做实体抽取实验过程中需要对训练数据进行标注。
我先使用jieba分词对原文本进行分词和pos词性标注，然后基于pos词性标注抽取出文本中的公司名、证券、基金名称（这部分也可以使用正则方法）等，保存到word_dict.txt中作为词典，然后基于该词典对原文本中进行的数据进行标注。
word_dict.txt如下：
INT与BON文本对应的标签。
占位词 NONE，这一行必须要有，作为词典的停止关键词

启迪设计集团股份有限公司 INT
北京光环新网科技股份有限公司 INT
周口市综合投资有限公司 INT
上海汉得信息技术股份有限公司 INT
湖南湘江新区投资集团有限公司 INT
融信福建投资集团有限公司 INT
湖南尔康制药股份有限公司 INT
厦门灿坤实业股份有限公司 INT
中融国证钢铁行业指数分级证券投资基金 BON
华中证空天一体军工指数证券投资基金 BON
富国新兴成长量化精选混合型证券投资基金 BON
江西省政府一般债券 BON
占位词 NONE

标注源码：

# -*- coding: utf-8 -*-

''' 基于外部词典对数据进行标注 BIO方式 Author:西兰 Date：2019-8-26 '''


features_list = []
with open('./data/word_dict.txt','r',encoding='utf-8') as f:
    for line in f.readlines():
        features_list.append(line.strip().split(' ')[0])
        #print(features_list[0])

''' 创建特征词列表、特征词+tag字典（特征词作为key，tag作为value） '''

#将features_dict中的特征词和tag存入字典 特征词为key，tag为value
dict={}
with open('./data/word_dict.txt','r',encoding='utf-8') as f:
     for line in f.readlines():
          item = line.split(' ')
          #print(item)
          if len(item) >1:
              dict[item[0]]=item[1]
          else :
              with open('./data/error.txt','a',encoding='utf-8') as f:
                  f.write(line+"\n")


''' 根据字典中的word和tag进行自动标注，用字典中的key作为关键词去未标注的文本中匹配，匹配到之后即标注上value中的tag '''
file_input = './data/dev_unlabel.txt'
file_output = './cut_data/dev_labeled.txt'
index_log = 0
with open(file_input,'r',encoding='utf-8') as f:
    for line in f.readlines():
        print(line)
        word_list = list(line.strip())
        tag_list = ["O" for i in range(len(word_list))]

        for keyword in features_list:
            print(keyword)
            while 1:
                index_start_tag = line.find(keyword,index_log)
                #当前关键词查找不到就将index_log=0,跳出循环进入下一个关键词
                if index_start_tag == -1:
                     index_log = 0
                     break
                index_log = index_start_tag+1
                print(keyword,":",index_start_tag)
                #只对未标注过的数据进行标注，防止出现嵌套标注
                for i in range(index_start_tag, index_start_tag + len(keyword)):
                    if index_start_tag == i:
                        if tag_list[i] == 'O':
                            tag_list[i] = "B-"+dict[keyword].replace("\n",'')  # 首字
                    else:
                        if tag_list[i] == 'O':
                           tag_list[i] = "I-"+dict[keyword].replace("\n",'')  # 非首字


        with open(file_output,'a',encoding='utf-8') as output_f:
            for w,t in zip(word_list,tag_list):
                      print(w+" "+t)
                      if w != ' ' and w != ' ':
                          output_f.write(w+" "+t+'\n')
                          #output_f.write(w + " "+t)
            output_f.write('\n')

通过以上代码标注之后的数据：

鹏 B-INT
华 I-INT
基 I-INT
金 I-INT
管 I-INT
理 I-INT
有 I-INT
限 I-INT
公 I-INT
司 I-INT
申 O
请 O
， O
本 B-INT
所 I-INT

喜欢编程的同学可以关注我的公众号：编程ABC，欢迎投稿哦~

全部评论

推荐最新楼层

01-17 10:00

门头沟学院嵌入式软件工程师

嵌入式春招：为什么要“多投简历”以及如何做好准备？

春招季一到，嵌入式工程师的求职市场就变得格外热闹。很多同学会发现一个问题：投了很久，面试却很少；面试很多，却很难拿到offer。其实，这背后并不是你的能力不行，而是因为你没有把“机会”这个因素做足。01 为什么嵌入式春招要多投简历？机会=数量×匹配度很多人只投少数几家公司，抱着“我只想去这几家”的心态。可现实是：嵌入式岗位的岗位需求和招聘节奏非常分散，有些公司可能一周发布一次，有些公司可能一个月才发布一次。你投得少，就意味着你错过了大量的机会。另外，嵌入式岗位的面试具有一定的随机性：招聘需求突然变更面试官临时缺席公司预算调整你投的岗位突然被内部人选替代这些都可能导致你原本看起来很匹配的岗位，最...

点赞评论收藏

分享

01-14 14:43

华南师范大学算法工程师

27寒假实习简历求锐评

牛爷爷们，不玻璃心，求锐评

点赞评论收藏

分享

2025-12-14 15:46

江西财经大学运维工程师

运维简历拷打

大老们，拷打一下我的简历吧

投了多少份简历才上岸

点赞评论收藏

分享

01-19 10:21

上海智元新创技术有限公司_强化学习算法工程师(准入职员工)

智元机器人内推，智元机器人内推码

智元机器人关节模块面1️⃣自我介绍2️⃣问了实习细节 仿真用的什么软件 work bench用的什么模块 谐响应什么模块3️⃣用的什么绘图软件 creo钣金会用多少 描述一下建模水平 ，说一下几种钣金材料，冷轧和热轧有什么区别4️⃣除了钣金还知道什么材料，45钢材和245钢材在机器人中有哪些应用5️⃣说说实习中电机相关知识，了解哪些电机算法6️⃣问一下克拉克变换和帕克变换的数学原理7️⃣软体机器人的设计要点，怎么考虑折弯角，怎么计算握力，怎么选取气动压强，怎么设计气动？8️⃣假如项目中伺服电机编码反馈信号出现干扰，导致关节定位不准，你该如何定位问题？智元机器人【人形机器人头部企业】2026届校...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 哪些公司开春招了？ #

9157次浏览 115人参与

# 运营人的第一份offer应该如何选 #

213879次浏览 1253人参与

# 上班以后，你还有哪些坚持的爱好？ #

6585次浏览 167人参与

# 华为工作体验 #

288747次浏览 1369人参与

# 你都在哪些场所面过试？ #

18277次浏览 217人参与

# 聊聊你的职场新体验 #

314291次浏览 1852人参与

# 找工作以来，你最看不惯__ #

12597次浏览 283人参与

# AI coding的好用工具分享 #

16549次浏览 354人参与

# 工作压力大怎么缓解 #

137180次浏览 1228人参与

# 实习怎么做才有更好的产出 #

11030次浏览 204人参与

# 实习教会我的事 #

51407次浏览 399人参与

# 你最近因为什么迷茫？ #

32312次浏览 459人参与

# 实习生工资多少才算正常？ #

11761次浏览 189人参与

# 小米求职进展汇总 #

1006082次浏览 6509人参与

# 你给AI提过哪些离谱的需求？ #

5440次浏览 157人参与

# 你见过最离谱的招聘要求是什么？ #

253975次浏览 1727人参与

# 非技术2024笔面经 #

458793次浏览 4930人参与

# 领导做过最不靠谱的事 #

11650次浏览 203人参与

# 你想跟着什么样领导？ #

47483次浏览 235人参与

# 职场破防瞬间 #

359222次浏览 2835人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务