博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
中文自然语言处理:手写两个方法去掉字符串中的空格
阅读量:6953 次
发布时间:2019-06-27

本文共 950 字,大约阅读时间需要 3 分钟。

在文本预处理和特征工程的过程中,我们可能常常会为文本中出现不少的空格、\t \n 所苦恼。

虽然说String的.strip()方法已经良好地实现了去掉字符串前后的空格的作用,但是由于中文文本本身中间也不应该出现空格,  这一点和英文处理有极大区别。

我写了两个方法,一个是利用python的切片功能复现.strip()方法,功能与其一样;一个是通过运用String对象的可迭代性,可以去除文本内空格的方法。

一、先看.strip()的效果:

mystr = '   Lady   GAGA   ' mystr_strip = mystr.strip() print(mystr_strip)

 >>>Lady    GAGA

 

 二、利用python的切片功能复现.strip()方法:

mystr = '  Lady  GAGA   ' def trim(str):     while str[:1] == ' ':         str = str[1:]     while str[-1:] == ' ':         str = str[:-1]     return str print(trim(mystr))

 >>>Lady    GAGA

 

三、中文文本去空格(包含空格、\n  \t),运用String对象可迭代(iterated)的特性:

mystr = '  Lady  GAGA   ' def mystr_filter(mystr):     mystr2 = ''     for str in mystr:         if str == ' ':             continue         else:             mystr2 = mystr2 + str     return mystr2 print(mystr_filter(mystr))

>>>LadyGAGA

print(mystr_filter(" 逻辑回归  其实是一种用来做 分类  的模型, 而不是做  回归   。 "))

>>>逻辑回归其实是一种用来做分类的模型,而不是做回归。

 

转载于:https://www.cnblogs.com/wangliman/p/9796271.html

你可能感兴趣的文章
Word Break II
查看>>
驱动lx4f120h,头文件配置,没有完全吃透,望指点
查看>>
caffe linux下面的调试mnist遇到的问题
查看>>
IOS的Application以及IOS目录的介绍
查看>>
SDN第六次上机作业
查看>>
虚拟Linux系统使用Windows系统oracle数据库
查看>>
javascript之奇淫技巧
查看>>
python 使用函数参数注解
查看>>
Redis五大数据类型以及操作---散列表
查看>>
重载类型转换操作符(overload conversion operator)
查看>>
bootstrap学习(二)页面
查看>>
C++ sizeof操作符的用法和strlen函数的区别
查看>>
文件的续写
查看>>
每天一道算法题(16)——翻转链表
查看>>
点亮LCD1602
查看>>
Windows下SVN备份脚本
查看>>
如何在页面中获取到ModelAndView绑定的值
查看>>
Linux 系统磁盘满处理方法
查看>>
点击按钮弹出窗口
查看>>
以Python为基础的REST(JSON为交换数据)接口的测试框架设计(一)
查看>>