NLP 中文拼写检测纠正论文SOTA FASPell github 源码介绍

wptr33 2025-01-19 00:40 38 浏览

NLP 开源项目

[1] nlp-hanzi-similar 汉字相似度: https://github.com/houbb/nlp-hanzi-similar
[2] word-checker 中英文拼写检测: https://github.com/houbb/word-checker
[3] pinyin 汉字转拼音: https://github.com/houbb/pinyin
[4] opencc4j 繁简体转换: https://github.com/houbb/opencc4j
[5] sensitive-word 敏感词: https://github.com/houbb/sensitive-word

前言

大家好，我是老马。

下面学习整理一些其他优秀小伙伴的设计和开源实现。

FASPell

https://github.com/iqiyi/FASPell

FASPell

该仓库（根据GNU通用公共许可证v3.0许可）包含构建当前最佳（到2019年初）中文拼写检查器所需的所有数据和代码，可以以此复现我们的同名论文中的全部实验：

FASPell: A Fast, Adaptable, Simple, Powerful Chinese Spell Checker Based On DAE-Decoder Paradigm LINK[7]

此论文发表于 the Proceedings of the 2019 EMNLP Workshop W-NUT: The 5th Workshop on Noisy User-generated Text。

使用本代码与数据时，请按如下信息引用我们的论文：

    @inproceedings{hong2019faspell,
        title = "{FASP}ell: A Fast, Adaptable, Simple, Powerful {C}hinese Spell Checker Based On {DAE}-Decoder Paradigm",
        author = "Hong, Yuzhong  and
          Yu, Xianguo  and
          He, Neng  and
          Liu, Nan  and
          Liu, Junhui",
        booktitle = "Proceedings of the 5th Workshop on Noisy User-generated Text (W-NUT 2019)",
        month = nov,
        year = "2019",
        address = "Hong Kong, China",
        publisher = "Association for Computational Linguistics",
        url = "https://www.aclweb.org/anthology/D19-5522",
        pages = "160--169",
    }

概述

中文拼写检查（CSC）的任务通常仅考虑对中文文本中的替换错误进行检测和纠正。

其他类型的错误（例如删除/插入错误）相对较少。

FASPell是中文拼写检查器，可让您轻松完成对任何一种中文文本（简体中文文本；

繁体中文文本；人类论文； OCR结果等）的拼写检查，且拥有最先进的性能。

性能

下述表格描述了FASPell在SIGHAN15测试集上的性能。

句子级性能为:

	精确率	召回率
检错	67.6%	60.0%
纠错	66.6%	59.1%

字符级性能为:

	精确率	召回率
检错	76.2%	67.1%
纠错	73.5%	64.8%

这意味着10个错误检测/纠正中大约7个是正确的，并且可以成功检测/纠正10个错误中的6个。

使用方法

以下是能够指导您构建中文拼写检查器的步骤指南。

依赖

python == 3.6
tensorflow >= 1.7
matplotlib
tqdm
java (仅在使用树编辑距离时需要)
apted.jar (同上，仅在使用树编辑距离时需要)

数据准备

在此步骤中，您将在此处[8]下载所有数据。

数据包括拼写检查数据（用于训练和测试）以及用于计算字符相似度的字符特征。

由于FASPell中使用的大多数数据来自其他提供商，所以请注意下载的数据应转换为我们所需的格式。

在仓库中，我们提供了一些示例数据来占位。下载好全部数据后请用相同的文件名覆盖它们。

完成此步骤后，如果您有兴趣，则可以使用以下脚本来计算字符相似度：

$ python char_sim.py 午 牛 年 千

请注意，FASPell仅采用字符串编辑距离进行计算相似。如果您对使用树编辑距离计算相似度感兴趣，您需要下载（从这里[9]）并编译一个树编辑距离可执行文件“ apted.jar”到主目录，然后运行：

$ python char_sim.py 午 牛 年 千 -t

训练

我们强烈建议您在实施此步骤之前阅读我们的论文。

共有三个训练步骤（按顺序）。点击链接

获得他们的详细信息：

1.预训练掩码语言模型：请参阅此处[10]

2.微调训练掩码语言模型：请参阅此处[11]

3.训练CSD过滤器：请参见此处[12]

运行拼写检查器

检查您的目录结构是否如下：

    FASPell/
      - bert_modified/
          - create_data.py
          - create_tf_record.py
          - modeling.py
          - tokenization.py
      - data/
          - char_meta.txt
      - model/
          - fine-tuned/
              - model.ckpt-10000.data-00000-of-00001
              - model.ckpt-10000.index
              - model.ckpt-10000.meta
          - pre-trained/
              - bert_config.json
              - bert_model.ckpt.data-00000-of-00001
              - bert_model.ckpt.index
              - bert_model.ckpt.meta
              - vocab.txt
      - plots/
          ...
      - char_sim.py
      - faspell.py
      - faspell_configs.json
      - masked_lm.py
      - plot.py

现在，您应该可以使用以下命令对中文句子进行拼写检查:

    $ python faspell.py 扫吗关注么众号 受奇艺全网首播

您还可以检查文件中的句子（每行一个句子）:

    $ python faspell.py -m f -f /path/to/your/file

如要在测试集上测试拼写检查器，请将faspell_configs.json中的"testing_set"设置为测试集的路径并运行：

    $ python faspell.py -m e

您可以将faspell_configs.json中的"round"设置为不同的值，并运行上述命令以找到最佳的回合数。

数据

中文拼写检查数据

1.人类生成的数据:

?SIGHAN-2013 shared task on CSC: LINK[13]?SIGHAN-2014 shared task on CSC: LINK[14]?SIGHAN-2015 shared task on CSC: LINK[15]

2.机器生成的数据:

?我们论文中使用的OCR结果:

?Tst_ocr: LINK[16]?Trn_ocr: LINK[17]

要使用我们的代码，拼写检查数据的格式应按照以下例子:

    错误字数    错误句子    正确句子
    0    你好！我是張愛文。    你好！我是張愛文。
    1    下個星期，我跟我朋唷打算去法國玩兒。    下個星期，我跟我朋友打算去法國玩兒。
    0    我聽說，你找到新工作，我很高興。    我聽說，你找到新工作，我很高興。
    1    對不氣，最近我很忙，所以我不會去妳的。    對不起，最近我很忙，所以我不會去妳的。
    1    真麻煩你了。希望你們好好的跳無。    真麻煩你了。希望你們好好的跳舞。
    3    我以前想要高訴你，可是我忘了。我真戶禿。    我以前想要告訴你，可是我忘了。我真糊塗。

中文字符特征

我们使用来自两个开放数据库提供的特征。使用前请检查其许可证。

	数据库名	数据链接	使用的文件
字形特征※	漢字データベースプロジェクト（汉字数据库项目）[18]	LINK[19]	ids.txt
字音特征	Unihan Database[20]	LINK[21]	Unihan_Readings.txt

※ 请注意，原始 ids.txt 本身不提供笔划级别的IDS（出于压缩目的）。但是，您可以使用树递归（从具有笔画级IDS的简单字符的IDS开始）来为所有字符自己生成笔画级IDS。

可以与我们的代码一起使用的特征文件（char_meta.txt）应该具有格式如下：

    unicode编码    字符    CJKV各语言发音    笔划级别的IDS
    U+4EBA    人    ren2;jan4;IN;JIN,NIN;nhan    ?丿?
    U+571F    土    du4,tu3,cha3,tu2;tou2;TWU,THO;DO,TO;th?    ??一丨一
    U+7531    由    you2,yao1;jau4;YU;YUU,YUI,YU;do    ??丨??一丨一
    U+9A6C    马    ma3;maa5;null;null;null    ???一
    U+99AC    馬    ma3;maa5;MA;MA,BA,ME;m?    ????一?一一丨?灬

其中：

?CJKV各语言发音的字符串遵循格式：MC;CC;K;JO;V；?当一个语言中的字符是多音字时，可能的发音用,分隔；?当一个字符不存在某个语言的发音时，用null来做占位符。

小结

希望本文对你有所帮助，如果喜欢，欢迎点赞收藏转发一波。

我是老马，期待与你的下次相遇。

java unicode

上一篇：Java基础 - javac命令详解之编译
下一篇：前经纪人还原邓紫棋名字注册原因

NLP 中文拼写检测纠正论文SOTA FASPell github 源码介绍

NLP 开源项目

前言

FASPell

FASPell

概述

性能

使用方法

依赖

数据准备

训练

运行拼写检查器

数据

中文拼写检查数据

中文字符特征

小结

相关推荐

Python第六讲:tuple_python tuple类型

如何将AI助手接入微信（打开ai手机助手）

SparkSQL——DataFrame的创建与使用

使用过 Redis 分布式锁么，它是什么回事?

VUE循环语句的使用(v-for)（vuefor循环的key）

Python rembg 库去除图片背景

HiveOs系统教程最细手把手教学（hiveos启动）

HIVE SQL基础语法（hive-sql）

Spring Boot 概述（spring boot干嘛的）

《循环(for/while)》（循环while语句）