机器在学习
今天在特征工程的时候,碰到一个小问题,通常我们读取文本的时候,pd.read_csv()就可以很方便读取,但我拿到的这份数据集比较奇葩,列之间使用空格来间隔,但是空格的长度不一致。数据大概长这样【img/Sheer_Woven_Blouse/img_00000001.jpg 031 081 168 259】
需要对空格进行统一,废话不多说,下面是我的代码
写一个递归函数吧.
def spaceReplace(i): i = i.replace(' ', ' ') if ' ' in i: i = cc(i) else: return i return i
行数太多,简化一下代码.
def spaceReplace(i): i = i.replace(' ', ' ') i = cc(i) if ' ' in i else i return i
更简单的方法,用正则表达式直接替换.
import redef spaceReplace(i): i = re.sub(' +', ' ', i).split(' ') return i
以上三种方法都可以实现多空格的替换,将【img/Sheer_Woven_Blouse/img_00000001.jpg 031 081 168 259】替换为【img/Sheer_Woven_Blouse/img_00000001.jpg 031 081 168 259】
The End
已发布
分类
标签:
请问这里的i时什么类型的数据呀
i是string类型
您的电子邮箱地址不会被公开。 必填项已用*标注
评论 *
显示名称
电子邮箱地址
网站地址
Δ
发表回复