Вопрос по dictionary, python, numpy, arrays – Запись в массив numpy из словаря

2

У меня есть словарь значений заголовков файлов (время, количество кадров, год, месяц и т. Д.), Которые я хотел бы записать в массив Numpy. Код у меня в настоящее время выглядит следующим образом:

    arr=np.array([(k,)+v for k,v in fileheader.iteritems()],dtype=["a3,a,i4,i4,i4,i4,f8,i4,i4,i4,i4,i4,i4,a10,a26,a33,a235,i4,i4,i4,i4,i4,i4"])

Но я получаю сообщение об ошибке: «Я могу только объединить кортеж (не« int ») в кортеж.

По существу, конечным результатом должны быть массивы, хранящие общую информацию заголовка файла (которая составляет 512 байтов) и данные каждого кадра (заголовок и данные, 49408 байтов для каждого кадра). Есть ли более простой способ сделать это?

Редактировать: Чтобы уточнить (для себя тоже), мне нужно записать данные из каждого кадра файла в массив. Мне дали код Matlab в качестве базы. Вот примерное представление о данном коде:

data.frame=zeros([512 96])
frame=uint8(fread(fid,[data.numbeams,512]),'uint8'))
data.frame=frame

Как мне перевести «фрейм» в питон?

Ваша ошибка не имеет ничего общего с NumPy. Это исходит от(k,)+v в[(k,)+v for k,v in fileheader.iteritems()], Похоже, вы хотите использовать имена ключей в качестве имен записей в массиве numpy? Если это так, вам нужно собрать dtype, чтобы использовать эти имена. Также имейте в виду, чтоdictОни неупорядочены, что может вызвать проблемы с тем, как вы пишете вещи прямо сейчас. Joe Kington
Спасибо! Как я могу поместить все значения в упорядоченном формате? (У меня практически нет опыта работы с Python) Victoria Price

Ваш Ответ

2   ответа
3

Вы, вероятно, лучше просто сохраняете данные заголовка в dict. Вам действительно нужно это как массив? (Если да, то почему? Имеется несколько преимуществ наличия заголовка в массиве numpy, но он более сложный, чем простойdictи не такой гибкий.)

Один недостатокdict в том, что нет никакого предсказуемого порядка для его ключей. Если вам нужно записать свой заголовок обратно на диск в обычном порядке (аналогично структуре C), то вам нужно отдельно хранить порядок полей и их значений. Если это так, вы можете рассмотреть заказанный дикт (collections.OrderedDict) или просто собрать простой класс для хранения данных заголовка и сохранить там порядок.

Если у вас нет веской причины поместить его в массив numpy, вы, возможно, не захотите.

Однако структурированный массив сохранит порядок вашего заголовка и облегчит запись его двоичного представления на диск, но он негибок в других отношениях.

Если вы хотите сделать заголовок массивом, вы должны сделать что-то вроде этого:

import numpy as np

# Lists can be modified, but preserve order. That's important in this case.
names = ['Name1', 'Name2', 'Name3']
# It's "S3" instead of "a3" for a string field in numpy, by the way
formats = ['S3', 'i4', 'f8'] 

# It's often cleaner to specify the dtype this way instead of as a giant string
dtype = dict(names=names, formats=formats)

# This won't preserve the order we're specifying things in!!
# If we iterate through it, things may be in any order.
header = dict(Name1='abc', Name2=456, Name3=3.45)

# Therefore, we'll be sure to pass things in in order...
# Also, np.array will expect a tuple instead of a list for a structured array...
values = tuple(header[name] for name in names)
header_array = np.array(values, dtype=dtype)

# We can access field in the array like this...
print header_array['Name2']

# And dump it to disk (similar to a C struct) with
header_array.tofile('test.dat')

С другой стороны, если вы просто хотите получить доступ к значениям в заголовке, просто сохраните его какdict, Так проще.


Основываясь на том, что вы делаете, я делаю что-то подобное. Я использую массивы для чтения в заголовке, но значения заголовка фактически сохраняются как атрибуты класса (а также массив заголовков).

Это выглядит сложнее, чем есть на самом деле.

Я просто определяю два новых класса, один для родительского файла и один для фрейма. Вы можете сделать то же самое с немного меньшим количеством кода, но это дает вам основу для более сложных вещей.

import numpy as np

class SonarFile(object):
    # These define the format of the file header
    header_fields = ('num_frames', 'name1', 'name2', 'name3')
    header_formats = ('i4', 'f4', 'S10', '>I4')

    def __init__(self, filename):
        self.infile = open(filename, 'r')
        dtype = dict(names=self.header_fields, formats=self.header_formats)

        # Read in the header as a numpy array (count=1 is important here!)
        self.header = np.fromfile(self.infile, dtype=dtype, count=1)

        # Store the position so we can "rewind" to the end of the header
        self.header_length = self.infile.tell()

        # You may or may not want to do this (If the field names can have
        # spaces, it's a bad idea). It will allow you to access things with
        # sonar_file.Name1 instead of sonar_file.header['Name1'], though.
        for field in self.header_fields:
            setattr(self, field, self.header[field])

    # __iter__ is a special function that defines what should happen when we  
    # try to iterate through an instance of this class.
    def __iter__(self):
        """Iterate through each frame in the dataset."""
        # Rewind to the end of the file header
        self.infile.seek(self.header_length)

        # Iterate through frames...
        for _ in range(self.num_frames):
            yield Frame(self.infile)

    def close(self):
        self.infile.close()

class Frame(object):
    header_fields = ('width', 'height', 'name')
    header_formats = ('i4', 'i4', 'S20')
    data_format = 'f4'

    def __init__(self, infile):
        dtype = dict(names=self.header_fields, formats=self.header_formats)
        self.header = np.fromfile(infile, dtype=dtype, count=1)

        # See discussion above...
        for field in self.header_fields:
            setattr(self, field, self.header[field])

        # I'm assuming that the size of the frame is in the frame header...
        ncols, nrows = self.width, self.height

        # Read the data in
        self.data = np.fromfile(infile, self.data_format, count=ncols * nrows)

        # And reshape it into a 2d array.
        # I'm assuming C-order, instead of Fortran order.
        # If it's fortran order, just do "data.reshape((ncols, nrows)).T"
        self.data = self.data.reshape((nrows, ncols))

Вы бы использовали его примерно так:

dataset = SonarFile('input.dat')

for frame in dataset:
    im = frame.data
    # Do something...
Ох, как в стороне - программа уже была написана (полу) успешно в Matlab, и мы пытаемся преобразовать в Python. Victoria Price
Вам нужно записать его обратно в исходный формат файла?
Ну, я полагаю, что информация заголовка не должна быть в массиве. Однако для создания изображения мне нужна информация о кадре в массиве. Терпите меня здесь - меня бросили в глубокий конец, и мне поручили перевод кода Matlab для обработки изображений. Я знаю следующее: заголовок файла имеет размер 512 байт, каждый кадр имеет размер 49408 байт, причем 256 из них являются заголовком кадра, а тот, кто написал код matlab, установил начальный массив нулей с размерами [512,96] ( это сонар с 96 лучами). Мне нужно обработать каждый кадр каждого файла. Victoria Price
Смотрите обновления. Надеюсь, это поможет немного! Существует более одного способа сделать это, и вы могли бы сделать то, что я показал, со значительно меньшим количеством кода, но это было бы менее гибко, если бы вам пришлось обновлять его в будущем. Я обычно считаю, что проще всего сделать что-то в этом духе для чтения похожих данных. К этому также довольно просто добавить запись на диск в том же формате. (Сколько бы это ни стоило, я тоже морской геофизик, и мне кажется, что я читаю в случайных двоичных форматах данных гораздо чаще, чем мне бы хотелось.)
Отрицательно, я бы хотел в конечном итоге экспортировать окончательные данные в файл .txt. На данный момент мне нужно прочитать в каждом файле и связанные данные изображения; это двоичный файл в формате. Наш конечный результат (путь вниз по линии) состоит в том, чтобы взять эти файлы изображений (собранные с помощью сонарной камеры) и автономно определить местоположение цели в луче сонара (для визуализации это, по существу, белый круг на черном фоне). Мне нужно в конечном итоге сохранить координаты местоположения обнаруженной цели в файле, если это имеет смысл. Большое спасибо за вашу помощь, я абсолютный новичок! Victoria Price
1

Кажется, проблема в том, чтоv являетсяint а неtuple, Пытаться:

arr=np.array([(k,v) for k,v in fileheader.iteritems()],dtype=["a3,a,i4,i4,i4,i4,f8,i4,i4,i4,i4,i4,i4,a10,a26,a33,a235,i4,i4,i4,i4,i4,i4"])
k здесь будет строка, которая не имеет никакого смысла, учитывая dtype массива. ОП, наверное, просто хочетvно я не уверен ....
Я получил каждый dtype из этой переменной в заголовке файла ... a3 - это 3-строчный тип файла, a - это версия, i4 - это число int32 и т. Д. Некоторые заголовки в файле соответствуют строкам, некоторые являются числами с плавающей запятой, а большинство - 32-разрядными целыми числами. Это помогает? Victoria Price

Похожие вопросы