1GB文本标记只需20秒！抱抱脸团队发布最新NLP工具

NgCafai 2020-01-15

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

专注NLP的强大团队抱抱脸（hugging face)又发新资源！这一次是帮助NLP过程中，词语切分（tokenization）更快的Tokenizers。

只要20秒就能编码1GB文本，适用Rust、Python和Node.js，已经在GitHub上获得了800多星。

前不久，这个团队也凭借自己的技术实力获得了1500万美元的天使投资。

速度快，功能多样

在NLP模型训练中，词语标记和切分往往是一个瓶颈。Tokenizer能够训练新的词汇，并且进行标记。

功能多样：适用于BPE/byte-level-BPE/WordPiece/SentencePiece各种NLP处理模型。

可以完成所有的预处理：截断(Truncate)、填补(Pad)、添加模型需要的特殊标记。

速度超级快：只需要20秒就可以在CPU上标记1GB的文本。

目前适用三种编程语言：Rust/Python/Node.js

使用示例

github的资源页面上提供了在Python上使用Tokenizers的示例，进行简单的设置就可以使用：

1GB文本标记只需20秒！抱抱脸团队发布最新NLP工具

也可以用Tokenizers进行新词训练：

1GB文本标记只需20秒！抱抱脸团队发布最新NLP工具

虽然目前只可用于三种语言Python、JS、Rust，抱抱脸团队表示，将来会继续升级以适用更多～

抱抱脸团队最新进展

1GB文本标记只需20秒！抱抱脸团队发布最新NLP工具

抱抱脸团队是一个创业团队。他们的Transformers是github上最火的NLP项目，已经获得了20K星。

作为专注于自然语言处理的创业公司，他们的目标是开发一个可以使用文字、照片、表情包的聊天机器人，名字叫做social AI 。

目前已经经过了三轮融资，共2000万美元。其中，在2019年底的A轮融资中，公司获得了1500万美元，并打算将员工增加两倍。

: NgCafai

相关推荐

使用NLP创建摘要

你有没有读过很多的报告，而你只想对每个报告做一个快速的总结摘要?你是否曾经遇到过这样的情况?摘要已成为21世纪解决数据问题的一种非常有帮助的方法。在本篇文章中，我将向你展示如何使用Python中的自然语言处理创建个人文本摘要生成器。基本上，在保持关键信息的

csdnfelix 0喜欢 / 0评论 2020-11-12

为什么企业应该了解聊天机器人中的自然语言处理？

自然语言处理使聊天机器人能够理解我们的会话信息并相应地作出响应。企业应该对聊天机器人中的自然语言处理有所了解，因为它可以确定用户意图，评估其情绪并了解其行为。聊天机器人已经成为企业在当今竞争激烈的市场中获得认可的当务之急。利用聊天机器人提供的前所未有的客户

saluzirobot 0喜欢 / 0评论 2020-11-05

本周六锁定成都！解析百度文心（ERNIE）如何助力快速定制企业级NLP模型

继去年巡回公开课后，百度AI快车道将再次锁定天府之国成都！小伙伴们，这周六莫吃火锅喽，一哈去快车道嘛！本周六，百度NLP资深研发工程师将为成都地区的开发者们带来满满的NLP技术干货分享。从文心技术解析到EasyDL实战演练，为你解析如何定制企业高精度NLP

yyhhlancelot 0喜欢 / 0评论 2020-11-04

在预训练NLP模型上测量性别相关性

在过去的几年中，自然语言处理取得了长足的进步，诸如BERT，ALBERT，ELECTRA和XLNet等预训练语言模型在各种任务中均取得较高的准确性。鉴于这样的预训练表示在不同NLP任务中得到广泛采用，作为从业者，我们需要了解预训练模型如何对信息编码以及学习

mxs 0喜欢 / 0评论 2020-10-26

NLP：不要重新造轮子

自然语言处理是一个令人生畏的领域名称。从非结构化文本中生成有用的结论是很困难的，而且有无数的技术和算法，每一种都有自己的用例和复杂性。作为一个接触NLP最少的开发人员，很难知道要使用哪些方法以及如何实现它们。本文的目标读者是希望将自然语言处理快速集成到他们

熊Ok 0喜欢 / 0评论 2020-10-26

NLP/CV模型跨界，视觉Transformer赶超CNN?

在计算机视觉领域中，卷积神经网络一直占据主流地位。不过，不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究，有的还实现了相当不错的结果。近日，一篇匿名的 ICLR 2021 投稿论文将标准 Transformer 直接应用于图像，提出

cswingman 0喜欢 / 0评论 2020-10-05

人工智能的研究热点:自然语言处理

人工智能作为新一轮科技革命和产业变革的重要驱动力量，正在深刻地影响世界、改变世界。而自然语言处理已成为AI领域的研究热点，它推动着语言智能的持续发展和突破，并越来越多地应用于各个行业。正如国际知名学者周海中先生曾经所言：“自然语言处理是极有吸引力的研究领域

hxq 0喜欢 / 0评论 2020-09-23

性能媲美BERT，参数量仅为1/300，谷歌最新的NLP模型

在最新的博客文章中，谷歌公布了一个新的 NLP 模型，在文本分类任务上可以达到 BERT 级别的性能，但参数量仅为 BERT 的 1/300。在过去的十年中，深度神经网络从根本上变革了自然语言处理领域的发展，但移动端有限的内存和处理能力对模型提出了更高的要

熊Ok 0喜欢 / 0评论 2020-09-22

自然语言处理必读：5本平衡理论与实践的书籍

当谈到学习方法时，我们常常会提到教程、博客文章、在线课程等等，书本总是会被忽略掉。即使是在找一本关于某个主题的书，也会很快发现这样的书太多了，无法快速判断哪一本最适合自己。它也称为NLTK书籍，应用Python进行自然语言处理在整个过程中都很大程度上依赖于

MakeRoomFor 0喜欢 / 0评论 2020-08-30

谷歌开源NLP模型可视化工具LIT，模型训练不再「黑箱」

深度学习模型的训练就像是「黑箱操作」，知道输入是什么、输出是什么，但中间过程就像个黑匣子，这使得研究人员可能花费大量时间找出模型运行不正常的原因。假如有一款可视化的工具，能够帮助研究人员更好地理解模型行为，这应该是件非常棒的事。近日，Google 研究人员

yyhhlancelot 0喜欢 / 0评论 2020-08-26

百度语言与知识技术峰会召开王海峰揭秘NLP技术演进路径

AI正在向更深层次进化，语言与知识技术的重要性愈加凸显。在演讲中，王海峰表示，“在百度语言与知识技术的布局和发展中，我们始终在注意把握两个趋势，即技术发展趋势和产业发展趋势，并力争引领趋势。”

龙心尘 0喜欢 / 0评论 2020-08-25

无需「域外」文本，微软：NLP就应该针对性预训练

在生物医学这样的专业领域训练NLP模型，除了特定数据集，「域外」文本也被认为是有用的。但最近，微软的研究人员「大呼」：我不这么觉得！这是一个拷问人工智能「门外汉」的灵魂问题。但研究人员将这部分归因于数据中的噪声。

mxs 0喜欢 / 0评论 2020-08-10

NLP小白入门篇：莫愁前路，一文读懂语料预处理

自然语言处理是 AI 皇冠上的明珠，而语料预处理是自然语言处理的基础。如今，NLP 技术可以充当人类和机器之间沟通的桥梁。环顾周围的生活，我们随时可以享受到 NLP 技术带来的便利，语音识别、机器翻译、问答系统等等。现在你可以跟随本文，初探 NLP 技术的

天才幻想家 0喜欢 / 0评论 2020-08-03

EasyDL全新升级，文心（ERNIE）3项能力助力快速定制企业级NLP模型

近日，百度文心重磅发布三项功能，新增定制多标签文本分类、情感倾向分析模型等功能，同时数据管理能力也进一步增强，更好地满足自然语言处理领域开发者需求，开发者可通过百度AI开发平台EasyDL进行使用。在2020世界人工智能大会，百度文心荣获最高奖项SAIL奖

PaddlePaddle 0喜欢 / 0评论 2020-07-30

这款NLP神器火了！关键词提取、结果可视化，从小白进阶大神

如何快速优雅地处理你的NLP数据集？试试这款号称「从小白到大神」的Texthero的工具包。不仅编写界面友好美观，而且功能全面，预处理、表征、可视化样样精通，在Reddit上17个小时内就获得了近1.1k的热度。事实上，Texthero的优雅绝不仅仅在于界

yyhhlancelot 0喜欢 / 0评论 2020-07-06

达观数据融合自研OCR与NLP技术推出智能RPA<

2019 年7月 26 日，人工智能企业达观数据在北京召开“达道至简”为主题的产品发布会，正式推出国内首款自主研发集OCR与 NLP于一体的达观智能RPA。RPA作为一种软件产品和解决方案，在国外市场上已进入大规模发展应用。RPA 的价值在于将企业重复性劳

WarGamesdc 0喜欢 / 0评论 2020-06-30

NLP中的标识化

从零开始掌握一门新的语言令人望而生畏。如果你曾经学过一种不是你母语的语言，你就会理解！有太多的层次需要考虑，例如语法需要考虑。这是一个相当大的挑战。这就是自然语言处理中标识化的概念。简单地说，标识化对于处理文本数据十分重要。标识化是一种将文本分割成称为标识

NgCafai 0喜欢 / 0评论 2020-06-28

基于OpenSeq2Seq的NLP与语音识别混合精度训练

Mixed Precision Training for NLP and Speech Recognition with OpenSeq2Seq. 迄今为止，神经网络的成功建立在更大的数据集、更好的理论模型和缩短的训练时间上。为此，我们创建了OpenSeq

bensonrachel 0喜欢 / 0评论 2020-06-21

腾讯AI又创新纪录：ACL 2020入选27篇论文

近日，国际计算语言学协会年会在官网公布了ACL 2020的论文收录名单，共计收录779篇论文。据不完全统计，此次腾讯共有27篇论文入选，投中论文总数刷新国内记录，领跑国内业界AI研究第一梯队。此次ACL 2020的审稿周期相比以往几乎增加了一倍的时间，据最

dynalidan 0喜欢 / 0评论 2020-05-22

一口气发布1008种机器翻译模型，GitHub最火NLP项目大更新：涵盖140种语言组合

现在，你可以用 GitHub 上最火的 NLP 项目做机器翻译了。没错，就是 Hugging Face （抱抱脸）标星26.9k的 Transformer 项目。在最新更新的版本里，抱抱脸发布了 1008 种模型，正式涉足机器翻译领域。模型涵盖 140 种

BigDataDigest 0喜欢 / 0评论 2020-05-19

《NLP 中的Mask全解》

Mask 在NLP中是一个很常规的操作，也有多种应用的场景和形式，下面尝试从以下几个方面去全解Mask，并尽可能地辅以图片说明和代码解释：。区分的目的是使得RNN只作用到它实际长度的句子，而不会处理无用的 padding 部分，这样RNN的输出和隐状态都会

yyy0 0喜欢 / 0评论 2020-05-12

自然语言处理的应用前景

自然语言处理是人工智能技术的一个分支，它使计算机能够像人们一样理解、处理和生成语言，并且在商业中的应用正在迅速增长。虽然自然语言处理这一术语最初指的是人工智能系统的阅读能力，但它后来成为所有计算语言学的一种通俗说法。当单击搜索结果时，搜索引索会将其视为对找

熊Ok 0喜欢 / 0评论 2020-04-24

论文阅读 | Energy and Policy Considerations for Deep Learning in NLP

作者认为现在的NLP模型，虽然精度提高了，但它们消耗了大量的计算资源，这些资源带来了大量的能源消耗。所以作者量化了最近的一些神经网络的经济成本和环境成本，希望来警醒NLP研究者。NLP的进步得益于神经网络技术和硬件的进步。下面这张图是NLP模型训练排放的二

小发猫 0喜欢 / 0评论 2020-04-21

入门自然语言处理（NLP）的门

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。简单点说就是怎样让计算机能够理解人类的语言，以执行如机器翻译、文本分析、情感分析等任务。自然语言处理是人工智能领域比较火热的方向，本人决定入坑是因为听那个谁说，这个方向对数学要求不像计算机视觉那么

bensonrachel 0喜欢 / 0评论 2020-04-20

NLP（七）ELMO

ELMO不同于glove，word2vec，后者们的思想是对于一个词语，用一个预训练好的模型，把一个词语变成一个固定不变的词向量表示，固定不变的意思就是，一旦我确定好了我的模型，确定好了我的语料库，那么这个词即将变成哪一个词向量表示就确定了。

ElmStudios 0喜欢 / 0评论 2020-04-18

Python深度学习自然语言处理工具Stanza试用！这也太强大了吧！

众所周知，斯坦福大学自然语言处理组出品了一系列NLP工具包，但是大多数都是用Java写得，对于Python用户不是很友好。几年前我曾基于斯坦福Java工具包和NLTK写过一个简单的中文分词接口：Python自然语言处理实践: 在NLTK中使用斯坦福中文分词

katyusha 0喜欢 / 0评论 2020-04-15

NLP学习-----1

NLP = NLU + NLG. 分词。工具：。3、[LTP](https://www.ltp-cloud.com/ "c"). 前向最大匹配（forward-max matching）

mxs 0喜欢 / 0评论 2020-03-27

2020年AI和机器学习的重要趋势是什么？

在竞争日益激烈的技术市场中，从高科技初创公司到全球跨国公司都将人工智能视为关键竞争优势。但是，人工智能行业发展如此之快，以至于很难跟踪最新的研究突破和成就，甚至很难应用科学成果来实现业务成果。在2020年为了帮助业务制定强大的AI策略，本文总结了不同研究领

BigDataDigest 0喜欢 / 0评论 2020-03-23

完胜 BERT，谷歌优秀 NLP 预训练模型开源

本文转自雷锋网，如需转载请至雷锋网官网申请授权。近日，谷歌宣布将 AI 语言模型 ELECTRA 作为 TensorFlow 之上的开源模型发布。该方法用到了一种称为替换令牌检测的新预训练任务，使其能够在从所有输入位置学习的同时，训练双向模型。该代码支持在

龙心尘 0喜欢 / 0评论 2020-03-17

NLP（二十二）利用ALBERT实现文本二分类

在文章NLP（二十）利用BERT实现文本二分类中，笔者介绍了如何使用BERT来实现文本二分类功能，以判别是否属于出访类事件为例子。但是呢，利用BERT在做模型预测的时候存在预测时间较长的问题。因此，我们考虑用新出来的预训练模型来加快模型预测速度。ALBER

小发猫 0喜欢 / 0评论 2020-03-04

EasyDL专业版课程上线！解密NLP 情感分类技术解析并实战模型开发

3月4号（本周三）晚8点，“EasyDL深度学习实战营”系列直播课进阶版课程即将开播，第一二节课程分别讲解“解密 EasyDL 专业版的技术原理”和“NLP 情感分类技术解析与模型开发实战”。此前，百度大脑正式推出“EasyDL 深度学习实战营”系列直播课

NgCafai 0喜欢 / 0评论 2020-03-04

广告行业中那些趣事系列3：NLP中的巨星BERT

BERT虽然在模型创新的角度来说并不是非常出色，但它是近几年NLP领域杰出成果的集大成者。BERT大火最重要的原因是效果好，通用性强两大优点。可以说BERT的出现是NLP领域里具有里程碑意义的大事件。本篇主要讲解NLP里面的Word Embedding预训

mxs 0喜欢 / 0评论 2020-03-01

广告行业中那些趣事系列2：BERT实战NLP文本分类任务(附github源码)

摘要：上一篇广告中那些趣事系列1：广告统一兴趣建模流程，我们了解了如何为广告主圈人群以及如何刻画用户的兴趣度。要想给用户打标签，我们需要构建数据源和标签的关联，也就是item-tag。针对数量较少的app数据源我们可以使用人工打标的方式来识别，但是对于ne

mxs 0喜欢 / 0评论 2020-03-01

突破迁移学习局限！谷歌提出“T5”新NLP模型，多基准测试达SOTA

过去几年间，迁移学习给 NLP 领域带来了丰硕的成果，掀起了新一波的发展浪潮。迁移学习在2018年出现的GPT、ULMFiT、ELMo以及 BERT等成果上初露锋芒，之后又在2019年大显身手，推动了领域内多种新方法的发展，其中就包括XLNet、RoBER

yyhhlancelot 0喜欢 / 0评论 2020-02-25

12 种自然语言处理的开源工具

让我们看看可以用在你自己的 NLP 应用中的十几个工具吧。在过去的几年里，自然语言处理推动了聊天机器人、语音助手、文本预测等这些渗透到我们的日常生活中的语音或文本应用程技术的发展。目前有着各种各样开源的 NLP 工具，所以我决定调查一下当前开源的 NLP

yaohaishen 0喜欢 / 0评论 2020-02-25

12种自然语言处理的开源工具

让我们看看可以用在你自己的 NLP 应用中的十几个工具吧。在过去的几年里，自然语言处理推动了聊天机器人、语音助手、文本预测等这些渗透到我们的日常生活中的语音或文本应用程技术的发展。目前有着各种各样开源的 NLP 工具，所以我决定调查一下当前开源的 NLP

zkq 0喜欢 / 0评论 2020-02-25

2020年中文NLP顶级预训练模块

对于BERT后时代，不得不说强有力的预训练模型是刷榜、出色完成任务的基础，现在列举几个对此很有帮助的资源，同大家一起进步！！！少年们，加油吧！！！

bensonrachel 0喜欢 / 0评论 2020-02-21

超赞的PyTorch资源大列表，GitHub标星9k+

自 2017 年 1 月 PyTorch 推出以来，其热度持续上升。PyTorch 能在短时间内被众多研究人员和工程师接受并推崇是因为其有着诸多优点，如采用 Python 语言、动态图机制、网络构建灵活以及拥有强大的社群等。最近红色石头在浏览 GitHub

sunbrother 0喜欢 / 0评论 2020-02-20

基于Pytorch热门深度学习框架从零开发NLP聊天机器人

NLP要学习和应用的好，首先是心理学的基础根基要打牢。人的内在有自我完满的情节。

mxs 0喜欢 / 0评论 2020-02-18

StanfordCoreNLP + Python

使用清华的镜像安装stanfordcorenlp，速度会快些。sentence = 'Stanford CoreNLP provides a set of human language technology tools.'. Python输出的结果和在线版

NgCafai 0喜欢 / 0评论 2020-02-17

NLPer复工了！先看看这份2019机器学习与NLP年度盘点吧

2019 年是机器学习和自然语言处理领域飞速发展的一年。DeepMind 科学家 Sebastian Ruder 从 10 个方面总结了我们在过去的一年中取得的重要进展，对未来的研究方向有着重要的指导意义。对于每个方向，本文都会先总结今年我们在该方向取得的

夏未眠秋风起 0喜欢 / 0评论 2020-02-03

NLP之中文分词cppjieba

jieba库是一个简单实用的中文自然语言处理分词库。jieba分词属于概率语言模型分词。依次类推, 最后得到最大概率路径, 得到最大概率的切分组合。这个就是起始向量, 就是HMM系统的最初模型状态。IDF在KeywordExtractor中，使用的是经典的

小发猫 0喜欢 / 0评论 2020-02-02

nlp：分布相似性学习

比如这个例子中，单词可能意思是beer，和beer相似。两篇文章的向量相似，那么两篇文章也相似。这个是DAN JURAFSKY教授的视频讲解，我安排看一下！不过现在感觉自己还是主攻代码部分吧，

小发猫 0喜欢 / 0评论 2020-02-02

(转)蘑菇街如何通过构建平台搞定数据标注难题？

在许多学术界和工业界人士努力下，先后在多个领域诞生了开放数据集，从入门的 MNIST，再到大名鼎鼎的 Image Net，涵盖了通用场景。但在实际的业务通常碰到某些细分领域没有开放数据集，比如服装的类型和风格，这就要求自己构建训练数据集，或自力更生，或临时

真新镇的涅法雷姆 0喜欢 / 0评论 2020-01-29

Google 开源最新 NLP 模型，能处理整本《罪与罚》

Transformer 可谓是近年 NLP 领域关注度颇高的模型之一。2017 年，Google 发表题为“Attention Is All You Need”的论文，提出了完全基于注意力机制的网络框架 Transformer。2019 年，机器学习领域最

yyy0 0喜欢 / 0评论 2020-01-18

爬虫小案例：联想词汇搜索

在人工智能领域里，有一个很重要的领域，叫自然语言处理。NLP致力于让计算机听懂人的话，理解人的话，在此基础上，人与计算机才有对话的可能。而这个处理语言的网站的主要功能，就是NLP中的核心的底层技术。无论最后建成的大楼有多么宏伟，都不可缺少坚实的地基。

bensonrachel 0喜欢 / 0评论 2020-01-17

张小龙缺席2020微信公开课：全面开放NLP能力

2020 年 1 月 9 日，又一年微信公开课如期而至。今年，张小龙没有如约出现在白天主论坛的开场环节中，而是以视频演讲的形式发表了开场致辞，并分享了他关于信息互联的 7 个思考。本次公开课的主题是“未完成 Always Beta”。本次公开课对这些问题作

NgCafai 0喜欢 / 0评论 2020-01-09

最新书籍《自然语言处理实战》推荐分享，（附电子书+代码下载）

自然语言是人类智慧的结晶，自然语言处理是人工智能中最为困难的问题之一，而对自然语言处理的研究也是充满魅力和挑战的。今天，给大家推荐的一本新书是《Natural Language Processing in Action 》，这本书为我们提供了从基础知识到动

qxconverse 0喜欢 / 0评论 2020-01-06

自然语言处理（NLP）:离我们生活最近的十大应用

通讯，书籍，消息，短信，歌曲，电影……我们很难想象没有语言的世界。我们每天要面对非常多的文本和语音数据。而NLP要做的，就是如何理解这些数据中并做一些有趣的事情？本篇文章主要给大家整理和介绍了NLP在日常生活中最常见的十大应用。教机器理解我们的交流似乎不是

yyhhlancelot 0喜欢 / 0评论 2020-01-04