博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
打乱图片顺序,按一定比例分别存放
阅读量:6368 次
发布时间:2019-06-23

本文共 692 字,大约阅读时间需要 2 分钟。

正样本可分为训练集,测试集,验证集,按数量需求批量得到相应的样本是要解决的问题

 

把所有正样本放在all.txt中,然后按照一定的样本比例得到相应的其他文件。

代码:

#!/usr/bin/env python# -*- coding: UTF-8 -*-from numpy.matlib import random'''edited by zr    2017/6/3 '''flpath = '/home/zr/projects/all.txt'fpath = open(flpath)dataset = []for line in fpath.readlines():    dataset.append(line.strip())random.shuffle(dataset)posnm = int((len(dataset))*0.75)posset = dataset[:posnm]negset = dataset[posnm:]f1=open('/home/zr/projects/pos.txt','w')for name in posset:    f1.write(name+'\n')f1.closedf2=open('/home/zr/projects/neg.txt','w')for name in negset:    f2.write(name+'\n')f2.closed

 

会自动在相应文件夹内创建pos.txt和neg.txt.

转载于:https://www.cnblogs.com/xiaoheizi-12345/p/6936149.html

你可能感兴趣的文章
漏洞预警!微软曝光震网三代漏洞,隔离网面临重大危机
查看>>
协鑫集成第二批1000台E-KwBe光伏储能设备即将启运澳洲
查看>>
爱立信物联网广州路演
查看>>
云计算企业业绩分化明显 9家上市公司中期预喜
查看>>
《VMware Virtual SAN权威指南(原书第2版)》一3.5 可能发生的网络配置问题
查看>>
SK电讯发布Q2财报 净利润同比下降26.9%
查看>>
零售品牌如何驾驭大数据主导商业决策?
查看>>
经济模式UPS在数据中心的应用(上)
查看>>
Intel首款32核Xeon E5 v5跑分曝光:史上最强
查看>>
中国基于国产龙芯处理器的大数据一体机
查看>>
物联网影响商业发展三要素
查看>>
China Unicom and Chunghwa Telecom work together&nb
查看>>
Java图片上查找图片算法
查看>>
Python fabric实现远程操作和部署
查看>>
详解Java中staitc关键字
查看>>
前中情局局长:FBI目的是从根本上改善iPhone
查看>>
大隐隐于市,你身边的那些安全隐患你都知道么?
查看>>
物联网市场迅猛发展 “中国芯”如何把握机会?
查看>>
aws 上使用elb 的多域名问题
查看>>
环球花木网的目标就是致力于打造成为“园林相关行业的专业性门户网站
查看>>