Вопрос по scipy, python, pandas, numpy – Каковы различия между Pandas и NumPy + SciPy в Python? [закрыто]

177

Они оба кажутсяexceedingly похоже, и мне любопытно, какой пакет будет более полезным для анализа финансовых данных.

Ваш Ответ

3   ответа
273

pandas предоставляет высокоуровневые инструменты для работы с данными, построенные на основе NumPy. NumPy сам по себе является довольно низкоуровневым инструментом и будет очень похож на использование MATLAB. Pandas, с другой стороны, предоставляет богатые функциональные возможности временных рядов, выравнивание данных, удобную для статистики статистику, методы группового объединения, слияния и объединения, а также множество других удобств. В последние годы он стал очень популярным в финансовых приложениях. В моей следующей книге у меня будет глава, посвященная анализу финансовых данных с использованием панд.

Холодная нить, но как насчет различий в производительности, например, сложной операции в numpy, но синтаксически упрощенной в пандах? Есть ли затраты на производительность, чтобы перейти на простой синтаксический путь высокого уровня?
Вы должны были упомянуть, что вы являетесь основным автором панд. :) Книга под вопросом:shop.oreilly.com/product/0636920023784.do
может быть глупый вопрос, но что вы подразумеваете подNA-friendly statisticsУпоминается в вашем ответе.
Я думаю, что он ссылается на статистику, учитывающую отсутствующие данные (нет данных "Нет в наличии")
Было бы справедливо сказать, что numpy в первую очередь предоставляет эффективные массивы, тогда как pandas предоставляет эффективные словари? (В обоих случаях, ограниченный согласованным типом данных, а не свободной формой.) Для меня (я только сейчас начинаю разбираться в этом), это поражает меня как основное различие: обработка парных данных меток (в 1d, иначе: 2д ака таблицы). Выравнивание данных, присоединение и т. Д. Все становитсяpossible из-за этого, но для людей, которые не понимают этого основного различия, даже не ясно, что они означают (например, что такое «выравнивание данных» двух пустых массивов?).
53

ля Python). Scipy не требуется строго для панд, но указан как «необязательная зависимость». Я бы не сказал, что панды - это альтернатива Нампи и / или Сципи. Скорее, это дополнительный инструмент, который обеспечивает более упорядоченный способ работы с числовыми и табличными данными в Python. Вы можете использовать структуры данных Pandas, но свободно использовать функции Numpy и Scipy для управления ими.

3

так как вы можете сделать биннинг легким (биннинг датафрейма в пандах в Python) и рассчитать статистику. Еще одна вещь, которая хороша в pandas - это класс Panel, в котором вы можете объединять серии слоев с разными свойствами и комбинировать их с помощью функции groupby.

Похожие вопросы