python 读取libsvm文件

以下三种方式

# -*- coding:utf-8 -*-

import numpy as np

import os

from sklearn import datasets

def data_generator(input_filename, batch_size):

    """

    :param input_filename:

    :param batch_size:

    :return:

    """

    feature_size = 3

    labels = np.zeros(batch_size)

    rets = np.empty(shape=[batch_size, feature_size])

    i = 0

    for line in open(input_filename, "r"):

        data = line.split(" ")

        label = int(float(data[0]))

        ids = []

        values = []

        for fea in data[1:]:

            id, value = fea.split(":")

            if int(id) > feature_size - 1:

                break

            ids.append(int(id))

            values.append(float(value))

        ret = np.zeros([1, feature_size])

        for (index, d) in zip(ids, values):

            ret[0][index] = d

        labels[i] = int(label)

        rets[i] = ret

        i += 1

        if i > batch_size - 1:

            i = 0

            yield labels, rets[0:, 0:3]

def get_data(input_filename, batch_size):

    oneline = 16294  # 一行多少个字节

    feature_size = 1947

    batch = 0

    while True:

        data = datasets.load_svmlight_file(input_filename, offset=oneline * batch_size * batch,

                                           length=oneline * batch_size,

                                           n_features=feature_size)

        features = data[0]

        labels = data[1]

        if features.shape[0] > 0:  # 保证返回和数据的有效性

            batch += 1

            yield labels, features[0:, 0:3]

        else:

            raise StopIteration

def get_data_all(input_filename, batch_size):

    data = datasets.load_svmlight_file(input_filename)

    features = data[0]

    labels = data[1]

    batch = 0

    while True:

        start_index = batch * batch_size

        end_index = (batch + 1) * batch_size

        if features.shape[0] > end_index:

            yield labels[start_index:end_index], features[start_index:end_index, 0:3]

            batch += 1

        else:

            raise StopIteration

if __name__ == "__main__":

    print("====", os.getcwd())

    filename = "/home/part-00000"

    generator = data_generator(filename, 10)

    labels, features = generator.next()

    print([labels])

    print(features)

    generator = get_data_all(filename, 1000)

    while True:

        labels, features = generator.next()

        print 'data', len(labels), features.shape

对于需要循环多次调用方法的，可以使用缓存，需要注意的是，缓存不能直接加在yiled函数上

# -*- coding:utf-8 -*-

import numpy as np

from sklearn.externals.joblib import Memory

import os

import random

from sklearn import datasets

mem = Memory("/tmp/mycache")

def get_data_batch(input_filename, batch_size):

    data = get_data(input_filename)

    features = data[0]

    labels = data[1]

    batch = 0

    while True:

        start_index = batch * batch_size

        end_index = (batch + 1) * batch_size

        if features.shape[0] > end_index:

            yield labels[start_index:end_index], features[start_index:end_index]

            batch += 1

        else:

            raise StopIteration

@mem.cache

def get_data(input_filename):

    return datasets.load_svmlight_file(input_filename)

巴特西

python 读取libsvm文件

最新文章

热门文章