Pandasarchive - Efficient Coder

Python常用三方库

1 years ago 高效码农

Python常用三方库，小编根据工作经验分了下类，仅供参考：后端框架类、办公类、数据分析类、爬虫类、GIS类、人工智能类等。一、后端框架类 1、Django Django 是Python中最为流行的Web框架之一，它提供了完整的Web开发支持，包括ORM、模板引擎、路由、中间件等功能。 2、Flask Flask 是Python中最为常用的Web框架之一，它提供了轻量级的Web开发支持，同时也支持RESTful API的开发。 3、FastAPI FastAPI是一个用于构建API的现代、快速（高性能）的web框架，使用Python 3.8+并基于标准的Python类型提示。二、办公类 1、openpyxl openpyxl 是一个处理 Microsoft Excel 文档的 Python 第三方库，它支持读写的 Excel 的 xls、xlsx、xlsm、xltx、xltm 等格式文件，并进一步处理 Excel 文件中的工作表、表单和数据单元。 2、xlrd xlrd 模块可以用于读取Excel的数据，速度非常快，推荐使用！ 3、xlwt xlwt 可以用于写入新的Excel表格或者在原表格基础上进行修改，速度也很快，但是只支持xls格式！ 4、xlutils xlutils 可用于拷贝原excel或者在原excel基础上进行修改，并保存。三、数据分析类 1、numpy numpy 是 Python 的一种开源数值计算扩展第三方库，用于处理数据类型相同的多维数组（ndarray），简称“数组”。这个库可用来存储和处理大型矩阵，比 Python 语言提供的列表结构要高效的多。 2、pandas pandas是基于numpy扩展的第一个重要的第三方库，它是为解决数据分析任务创建的。提供了一批标准的数据模型和大量快速便捷处理数据的函数和方法，提供了高效地操作大型数据集所需的工具。 3、scipy scipy 是一款方便、易用、转为科学和工程设计的Python工具包，是在numpy库的基础上增加了众多的数学、科学以及工程计算中常用的库函数。 4、Matplotlib Matplotlib 是Python中最常用的绘图库之一，它可以生成各种类型的统计图表，如折线图、散点图、柱状图等，支持各种格式的输出。四、爬虫类 1、Requests Requests 是Python中最为常用的HTTP库之一，它提供了简洁的API，使得开发者可以轻松地进行HTTP请求的发送和处理。 2、Httpx Httpx 是 Python 3 的全功能 HTTP 客户端，它提供同步和异步 API，并支持 HTTP/1.1 和 HTTP/2。 3、Scrapy Scrapy 是Python中最为常用的爬虫框架之一，它提供了完整的爬虫开发支持，包括HTTP请求、数据解析、数据存储等功能。 4、Beautiful Soup Beautiful Soup 是Python中最为常用的HTML解析库之一，它可以将HTML文档解析为Python对象，使得开发者可以更加方便地进行数据解析和数据提取。 5、Playwright Playwright 是微软在 2020 年初开源的新一代自动化测试工具，它的功能类似于 Selenium、Pyppeteer 等，都可以驱动浏览器进行各种自动化操作。它的功能也非常强大，对市面上的主流浏览器都提供了支持，API 功能简洁又强大。虽然诞生比较晚，但是现在发展得非常火热。 6、DrissionPage DrissionPage 是基于python的网页自动化工具。既能控制浏览器，也能收发数据包。可兼顾浏览器自动化的便利性和requests的高效率。功能强大，内置无数人性化设计和便捷功能。语法简洁而优雅，代码量少。五、GIS类 1、GDAL GDAL 是读写大量的栅格空间数据格式的广泛应用的开源库。 2、shapefile shapefile 是GIS中非常重要的一种数据类型，在ArcGIS中被称为要素类(Feature Class)，主要包括点(point)、线(polyline)和多边形(polygon)。 3、shapely shapely 是专门做图形计算的包，基本上图形线段，点的判断包里都有，实现的几何对象的基本类型是点、曲线和曲面。六、人工智能类 …

Python pandas 使用技巧

1 years ago 高效码农

一、 pd.to_datetime 格式化日期报错： ValueError: time data "2023-10-14T18:44:36-07:00" doesn’t match format "%Y-%m-%d %H:%M:%S", at position 0. You might want to try: – passing `format` if your strings have a consistent format; – passing `format=’ISO8601’` if your strings are all ISO8601 but not necessarily in exactly the same format; – passing `format=’mixed’`, and the format will be inferred for each element individually. You might want to use `dayfirst` alongside this. 修改方法：将 df[‘购买日期’] = pd.to_datetime(df[‘购买日期’], format=’%Y-%m-%d %H:%M:%S’) 改为 df[‘购买日期’] = pd.to_datetime(df[‘购买日期’]).dt.strftime(‘%Y-%m-%d %H:%M:%S’)

索引的力量：利用 Pandas 提高数据整理效率

1 years ago 高效码农

介绍 Pandas 是使用最广泛的 Python 数据操作库，它使我们能够有效地访问和操作数据。通过在 Pandas 中有效地理解和利用索引技术，我们可以显着提高数据整理任务的速度和效率。在本文中，我们将探索 Pandas 中的各种索引技术，并将了解如何利用它们来更快地进行数据整理。在 Pandas 中引入索引 Pandas 库提供了两个主要对象：Series 和 DataFrame。 Pandas Series 是一个一维标记数组，能够保存任何类型的数据类型。 Pandas DataFrame 是一个表格，类似于电子表格，能够存储任何类型的数据，并由行和列构建。更准确地说，Pandas DataFrame 也可以看作是 Pandas Series 的有序集合。因此，Series 和 DataFrame 都有一个索引，它提供了一种唯一标识和访问每个元素的方法。在本文中，我们将演示 Pandas 中的一些索引技术，以增强您的日常数据操作任务。 Pandas 中的编码索引技术现在，让我们使用实际的 Python 代码探索一些索引技术。基于整数的索引我们将从基于整数的方法开始，该方法使我们能够选择数据框中的行和列。广告但首先，让我们了解如何在 Pandas 中创建数据框： import pandas as pd # Create tabular data data = { ‘A’: [1, 2, 3, 4, 5], ‘B’: [6, 7, 8, 9, 10], ‘C’: [11, 12, 13, 14, 15] } # Create data frame df = pd.DataFrame(data) # Show data frame print(df) 这将产生： A B C 0 1 6 11 1 2 …

pandas使用相关报错集锦

2 years ago 高效码农

一、报错：can’t multiply sequence by non-int of type ‘numpy.float64’ 无法将序列乘以’numpy.float64’类型的非整数解决方案：网上大部分解决方案是需要将需要相乘的数类型改为Int；但是对于金额来说必须保证精确；所以建议是：先将数字相乘在用Decimal函数保留2位小数 Decimal(总费用 / 点击次数总和).quantize(Decimal(‘0.00’)) 二、打包exe报错： pyinstaller ModuleNotFoundError: No module named ‘PyQt5’ 解决方案：检查一下pyinstaller的路径是否在虚拟环境中在虚拟环境上重新 pip install pyinstaller 三、pyinstaller打包exe报错：‘NoneType‘ object has no attribute ‘write‘ 解决方案：pip install pyinstaller==5.4.0

Python pandas读取csv文件报错，PyQt5设置背景图片

4 years ago 高效码农

一、报错内容信息： pandas.errors.ParserError: Error tokenizing data. C error: Expected 1 fields in line 13, saw 2 解决方法如下：将csv文件打开另存为：以逗号分隔的csv文件，重新在代码中加载csv文件即可解决原理解析： csv也叫逗号分隔符文件，但是其文件以纯文本形式存储表格数据（数字和文本）。 CSV文件格式的通用标准并不存在，因为分隔字符也可以不是逗号；所以程序在读取不规则分隔符的csv文件时就报错： pandas.errors.ParserError: Error tokenizing data. C error: Expected 1 fields in line 13, saw 2 PyQt5设置背景图片问题描述：在Qt Designer设计器中都不显示背景图片解决思路：不支持JPG图片文件，换成png文件问题描述：在Qt Designer设计器中背景图片显示，通过pyUIC生成代码后背景图片不显示解决思路：安装插件pyrcc5，将.prc文件生成.py文件

机器学习准备工作：Pandas 使用入门

6 years ago 高效码农

机器学习的前提条件和准备工作参考网址：前提条件和准备工作一、Pandas安装 pandas可以通过PyPI的 pip安装 pip install pandas pandas依赖包： setuptools：24.2.0或更高版本 NumPy：1.12.0或更高 python-dateutil：2.5.0或更高版本 pytz 注意强烈建议您安装这些库，因为它们可以提高速度，尤其是在处理大型数据集时。二、简介 pandas是一个Python包，提供快速，灵活和富有表现力的数据结构，非常适合许多不同类型的数据：具有异构类型列的表格数据，如SQL表或Excel电子表格中有序和无序（不一定是固定频率）时间序列数据。具有行和列标签的任意矩阵数据（均匀类型或异构）任何其他形式的观察/统计数据集。实际上不需要将数据标记为放置在pandas数据结构中三、十分钟入门Pandas 导入包和依赖 import numpy as np import pandas as pd 创建对象 1、通过传列表创建一个Series对象 Series对象的API文档 s = pd.Series([1, 3, 5, np.nan, 6, 8]) print(s) 输出结果： 0 1.0 1 3.0 2 5.0 3 NaN 4 6.0 5 8.0 dtype: float64 2、创建DataFrame对象 DataFrame对象API文档 #用字典构造DataFrame。 d = {‘col1’: [1, 2], ‘col2’: [3, 4]} df = pd.DataFrame(data=d) print(df) 输出结果： col1 col2 0 1 3 1 2 4 查看数据 1、head（[N]）返回前n行 d = {‘col1’: [1, 2], ‘col2’: [3, 4]} df = pd.DataFrame(data=d) # 返回第一行数据 print(df.head(1)) 输出结果： col1 …