序列化标注框架，利用pytorch实现了高效的数据加载模块-FinClip官网

序列化标注框架，利用pytorch实现了高效的数据加载模块

网友投稿 1169 2022-10-17

序列化标注框架，利用pytorch实现了高效的数据加载模块

SLTK - Sequence Labeling Toolkit

序列化标注工具，基于PyTorch实现BLSTM-CNN-CRF模型，CoNLL 2003 English NER测试集F1值为91.10%（word and char feature）。

1. 快速开始

1.1 安装依赖项

$ sudo pip3 install -r requirements.txt --upgrade # for all user$ pip3 install -r requirements.txt --upgrade --user # for current user

1.2 预处理&训练

$ CUDA_VISIBLE_DEVICES=0 python3 main.py --config ./configs/word.yml -p --train

1.3 训练

若已经完成了预处理，则可直接进行训练:

$ CUDA_VISIBLE_DEVICES=0 python3 main.py --config ./configs/word.yml --train

1.4 测试

$ CUDA_VISIBLE_DEVICES=0 python3 main.py --config ./configs/word.yml --test

2. 配置文件说明

修改配置文件需遵循yaml语法格式。

2.1 训练|开发|测试数据

数据为conllu格式，每列之间用制表符或空格分隔，句子之间用空行分隔，标签在最后一列(若有标签)。

修改配置文件中data_params下的path_train，path_dev和path_test参数。其中，若path_dev为空，则在训练时会按照model_params.dev_size参数，将训练集划分一部分作为开发集。

2.2 特征

若训练数据包含多列特征，则可通过修改配置文件中的data_params.feature_cols指定使用其中某几列特征，data_params.feature_names为特征的别名，需和data_params.feature_cols等长。

data_params.alphabet_params.min_counts: 在构建特征的词汇表时，该参数用于过滤频次小于指定值的特征。

model_params.embed_sizes: 指定特征的维度，若提供预训练特征向量，则以预训练向量维度为准。

model_params.require_grads: 设定特征的embedding table是否需要更新。

model_params.use_char: 是否使用char level的特征。

2.3 预训练特征向量

data_params.path_pretrain: 指定预训练的特征向量，该参数中元素格式需要和data_params.feature_names中的顺序一致(可设为null)。

2.4 其他特征

word_norm: 是否对单词中的数字进行处理（仅将数字转换为0）；

max_len_limit: batch的长度限制。训练时，一个批量的长度是由该批量中最长的句子决定的，若最大句子长度超出此限制，则该批量长度被强制设为该值；

all_in_memory: 预处理之后，数据被存放在hdf5格式文件中，该数据对象默认存储在磁盘中，根据索引值实时进行加载；若需要加快数据读取速度，可将该值设为true(适用于小数据量)。

3. 性能

下表列出了在CoNLL 2003 NER测试集的性能，特征和参数设置与Ma等（2016）一致。

表. 实验结果

模型	% P	% R	% F1
Lample et al. (2016)	-	-	90.94
Ma et al. (2016)	91.35	91.06	91.21
BGRU	85.50	85.89	85.69
BLSTM	88.05	87.19	87.62
BLSTM-CNN	89.21	90.48	89.84
BLSTM-CNN-CRF	91.01	91.19	91.10

注：

CoNLL 2003语料-: CoNLL 2003 NER，标注方式需要转换为BIESO。词向量-: glove.6B.zip，词向量需修改为word2vec词向量格式，即txt文件的首部需要有'词表大小向量维度'信息。

4. Requirements

python3 gensimh5pynumpytorch==0.4.0pyyaml

5. 参考

Lample G, Ballesteros M, et al. Neural Architectures for Named Entity Recognition. NANCL, 2016. Ma X, and Hovy E. End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF. ACL, 2016.

Updating...

clip: RNN层的梯度裁剪； deterministic: 模型的可重现性； one-hot编码字符向量； lstm抽取字符层面特征；单机多卡训练。

微前端架构如何改变企业的开发模式与效率提升

1169 2022-10-17

序列化标注框架，利用pytorch实现了高效的数据加载模块

微前端架构如何改变企业的开发模式与效率提升

前端开源框架如何提升开发效率与用户体验的关键因素

前端移动端框架如何推动数字化转型与创新发展

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计