首页
友情链接
精美壁纸
给我留言
更多
关于我
Search
1
uniapp Click点击事件冲突解决
4,558 阅读
2
【插件】UNI APP 实现商米打印机功能支持T1,T2,V2机型
3,874 阅读
3
【测试可用】个人码免签支付系统源码/免签支付系统/微信支付平台
1,976 阅读
4
Java Validation参数校验注解使用
1,230 阅读
5
windows10下docker:给已存在的容器添加端口映射的方法
1,219 阅读
Java
Spring Boot
Spring Mvc
Java基础
进阶知识
前端
uniapp
小程序/公众号
JavaScript
HTML/CSS
Vue
PHP
开源软件
商城
营销工具
开发工具
视频/教程
Discuz主题/插件
typecho主题/插件
SEO杂谈
数据库
MongoDB
MySQL
Redis
单片机
概念说明
电路相关
Python
devops
docker
k8s
linux
职场杂谈
登录
/
注册
Search
标签搜索
python
mysql
人人商城
php
java
docker
typecho
插件
微擎
seo
spring boot
discuz
队列
uni-app
phpcms
教程视频
开源系统
源码
工具
css
哈根达斯
累计撰写
100
篇文章
累计收到
154
条评论
首页
栏目
Java
Spring Boot
Spring Mvc
Java基础
进阶知识
前端
uniapp
小程序/公众号
JavaScript
HTML/CSS
Vue
PHP
开源软件
商城
营销工具
开发工具
视频/教程
Discuz主题/插件
typecho主题/插件
SEO杂谈
数据库
MongoDB
MySQL
Redis
单片机
概念说明
电路相关
Python
devops
docker
k8s
linux
职场杂谈
页面
友情链接
精美壁纸
给我留言
关于我
搜索到
100
篇与
哈根达斯
的结果
2022-04-26
(一) 【新手7天爬虫入门】python基础知识———变量
变量变量是存储在内存中的值,这就意味着在创建变量时会在内存中开辟一个空间。基于变量的数据类型,解释器会分配指定内存,并决定什么数据可以被存储在内存中。因此,变量可以指定不同的数据类型,这些变量可以存储整数,小数或字符。变量赋值Python 中的变量赋值不需要类型声明,这个跟PHP语言相似,每个变量在内存中创建,都包括变量的标识,名称和数据这些信息。每个变量在使用前都必须赋值,变量赋值以后该变量才会被创建。等号 = 用来给变量赋值。等号 = 运算符左边是一个变量名,等号 = 运算符右边是存储在变量中的值。例如count = 100 # 赋值整型变量 miles = 1000.0 # 浮点型 name = "www.gxxblw.com" # 字符串 name = 200 #执行过程中可修改变量类型 print(count,miles,name) #以上代码输出:100 1000.0 200
2022年04月26日
118 阅读
0 评论
0 点赞
2022-04-26
python爬虫技术点及常用工具库导航
Python 网页抓取此列表包含与网络抓取和数据处理相关的 Python 库。网络请求工具网络请求库:通用urllib - 网络库 (stdlib)。requests - 几乎是最流行的网络请求库。grab - 网络库(基于 pycurl)。pycurl - 网络库(基于 libcurl)。urllib3 - 具有线程安全连接池、文件发布支持、健全友好等的 Python HTTP 库。httplib2 - 小型、快速的 HTTP 客户端库。具有持久连接、缓存和 Google App Engine 支持。RoboBrowser - 一个简单的 Pythonic 库,用于在没有独立 Web 浏览器的情况下浏览 Web。MechanicalSoup - 用于自动与网站交互的 Python 库。mechanize - 有状态的程序化网页浏览。socket 底层网络接口 (stdlib)。Unirest for Python - Unirest 是一组轻量级的 HTTP 库,支持多种语言。hyper - Python 的 HTTP/2 客户端。PySocks - 更新和积极维护的 SocksiPy 版本,具有错误修复和额外功能。作为插座模块的直接替代品。网络请求工具:异步treq - API 之类的请求。aiohttp - asyncio 的 http 客户端/服务器 (PEP-3156)。网络请求工具:底层dpkt - 快速、简单的数据包创建/解析,具有基本 TCP/IP 协议的定义。pyOpenSSL - 一个围绕 OpenSSL 库的 Python 包装器。tlslite-ng - 纯 python 中的 TLS 实现。scapy - 强大的基于 Python 的交互式数据包操作程序和库。impacket - 对网络协议数据包的低级编程访问。网页抓取网页抓取:框架grab - 网络抓取框架(基于 pycurl/multicurl)。scrapy - 网络抓取框架(基于 Twisted)。pyspider - 一个强大的爬取系统。cola - 一个分布式爬虫框架。ruia - 基于 asyncio 的异步 Python 3.6+网页抓取微框架。ioweb - 基于 gevent 和 lxml 的网页抓取框架。autoscraper - 一个智能、自动、轻量级的网络爬虫。frontera - 一个可扩展的网络爬虫框架。网页抓取:工具portia - Scrapy 的可视化抓取。restkit - Python 的 HTTP 资源工具包。它允许您轻松访问 HTTP 资源并围绕它构建对象。requests-html - Pythonic HTML Parsing for Humans。ScrapydWeb - Scrapyd 集群管理的全功能 Web UI,支持 Scrapy 日志分析&可视化、自动打包、定时任务、邮件通知等。Starbelly - Starbelly 是一个用户友好且高度可配置的网络爬虫前端。Gerapy - 基于 Scrapy, Scrapyd, Django、Vue.js 的分布式爬虫管理框架。网页抓取:绕过保护cloudscraper - 绕过 Cloudflare 的反机器人页面的 Python 模块。HTML/XMLHTML/XML:通用lxml - 有效的 HTML/XML 处理库,支持 XPATH。cssselect - 使用带有 CSS 选择器的 DOM 树。pyquery - 使用类 jQuery 选择器的 DOM 树。BeautifulSoup - 慢速 HTML/XMl 处理库,纯 Python 编写。html5lib - 根据 WHATWG 规范 构建 HTML/XML 文档的 DOM。该规范用于所有现代浏览器。feedparser - 解析 RSS/ATOM 提要。MarkupSafe - 为 Python 实现 XML/HTML/XHTML 标记安全字符串。xmltodict - 使用 XML 感觉就像使用 JSON。xhtml2pdf - HTML/CSS 到 PDF 转换器。untangle - 将 XML 文档转换为 Python 对象以便于访问。hodor - 围绕 lxml 和 cssselect 的配置驱动包装器。chopper - 使用相应 CSS 规则从 HTML 页面中提取部分并保留正确 HTML 的工具。selectolax - Python 绑定到 Modest 引擎(带有 CSS 选择器的快速 HTML5 解析器)。parsel - 允许您使用 XPath 或 CSS 选择器从 XML/HTML 文档中提取数据。html5-parser - 用于 python 的基于 C 的快速 HTML5 解析。gazpacho - 一个简单、快速、现代的网络抓取库。HTML/XML:消毒Bleach - HTML 的清理(需要 html5lib)。sanitize - 为混乱的数据世界带来理智。HTML/XML:元数据extruct - 用于从 HTML 标记中提取嵌入元数据的库。文本处理用于解析和操作纯文本的库。文本处理:通用difflib - (Python 标准库)计算增量的助手。Levenshtein - 快速计算 Levenshtein 距离和字符串相似度。fuzzywuzzy - 模糊字符串匹配。esmre - 正则表达式加速器。ftfy - 自动减少 Unicode 文本的损坏和更一致。文本处理:音译unidecode - Unicode 文本的 ASCII 音译库。文本处理:字符编码uniout - 打印可读字符而不是转义字符串。chardet - Python 2/3 兼容的字符编码检测器。xpinyin - 一个将汉字(汉字)翻译成拼音(拼音)的库。pangu.py - CJK 和字母数字的间距文本。cchardet - cChardet 是高速通用字符编码检测器,绑定到 uchardet。文本处理:Slugifyawesome-slugify - 一个可以保存 unicode 的 Python slugify 库。python-slugify - 一个将 unicode 转换为 ASCII 的 Python slugify 库。unicode-slugify - 生成 unicode slug 的 slugifier。pytils - 处理俄语字符串的简单工具(包括 pytils.translit.slugify)。文本处理:通用解析器PLY - 用于 Python 的 lex 和 yacc 解析工具的实现。pyparsing - 用于生成解析器的通用框架。文本处理:人名python-nameparser - 将人名解析成各自的组成部分。文本处理:电话号码电话号码 - 解析、格式化、存储和验证国际电话号码。文本处理:用户代理字符串HTTP 代理解析器 - Python HTTP 代理解析器。uap-python - ua-parser 的 Python 实现。python-user-agents - 浏览器用户代理解析器。fake-useragent - Python 用户代理字符串伪造者,基于浏览器的世界统计数据。user_agent - 用户代理数据生成器。文本处理:robots.txtreppy - 适用于 Python 的现代 robots.txt 解析器。文本处理:日期和时间dateutil - 对标准 Python 日期时间功能的有用扩展。dateparser - 用于人类可读日期的 python 解析器。ciso8601 - 将 ISO 8601 或 RFC 3339 日期时间字符串转换为 Python 日期时间对象。文本处理: 价格和货币price-parser - 一个用于从原始文本字符串中提取价格和货币的小型库。结构化格式用于解析和操作特定文本格式的库。结构化格式:通用tablib - XLS、CSV、JSON、YAML 格式的表格数据集模块。texttract - 从任何文档、Word、PowerPoint、PDF 等中提取文本。messytables - 解析杂乱表格数据的工具。rows - 一个通用的、漂亮的表格数据界面,无论格式如何(目前是 CSV、HTML、XLS、TXT)。结构化格式:Officepython-docx - 读取、查询和修改 Microsoft Word 2007/2008 docx 文件。xlwt / xlrd - 从 Excel 文件中写入和读取数据以及格式化信息。XlsxWriter - 用于创建 Excel .xlsx 文件的 Python 模块。xlwings - 一个 BSD 许可的库,可以轻松地从 Excel 调用 Python,反之亦然。openpyxl - 用于读写 Excel 2010 xlsx/xlsm/xltx/xltm 文件的库。Marmir - 采用 Python 数据结构并将它们转换为电子表格。结构化格式:PDFPDFMiner - 从 PDF 文档中提取信息的工具。PyPDF2 - 一个能够拆分、合并和转换 PDF 页面的库。ReportLab - 允许快速创建丰富的 PDF 文档。pdftables - 直接从 PDF 文件中提取表格结构化格式:MarkdownPython-Markdown - John Gruber 的 Markdown 的 Python 实现。Mistune - 最快且功能齐全的 Markdown 纯 Python 解析器。markdown2 - Markdown 的快速且完整的 Python 实现。mistletoe - 在纯 Python 中快速、可扩展且符合规范的 Markdown 解析器。结构化格式:YAMLPyYAML - Python 的 YAML 实现。结构化格式:CSScssutils - Python 的 CSS 库。结构化格式:ATOM/RSSfeedparser - 通用提要解析器。结构化格式:SQLsqlparse - 一个非验证 SQL 解析器。结构化格式:HTTPhttp-parser - C 中 python 的 HTTP 请求/响应解析器。httptools - Node.js HTTP 解析器的 Python 绑定。结构化格式:微格式opengraph - 解析开放图协议标签的 Python 模块。结构化格式:可移植的可执行文件pefile - 一个多平台模块,用于解析和使用可移植可执行文件(又名 PE)文件。结构化格式:PSDpsd-tools - 读取 Adobe Photoshop PSD 文件(如 规范 中所述/fileformatashtml/PhotoshopFileFormats.htm)) 到 Python 数据结构。结构化格式:书签文件bookmarks-parser - 解析 Firefox/Chrome HTML 书签文件。序列化orjson - 支持数据类和日期时间的快速、正确的 Python JSON 库。ujson - 用 C 语言编写的超快速 JSON 解码器和编码器,带有 Python 绑定。自然语言处理用于处理人类语言的库。NLTK - 用于构建 Python 程序以处理人类语言数据的领先平台。spacy - 允许使用最先进的深度学习模型来完成常见的 NLP 任务。fastai - 带有免费视频教程 + 活跃论坛社区的深度学习库,lib 的缺点:需要 GPU。gensim - 用于主题建模、文档索引和大型语料库相似性检索的库。Pattern - Python 的网络挖掘模块。它具有用于自然语言处理、机器学习等的工具。TextBlob - 为深入研究常见的 NLP 任务提供一致的 API。站在 NLTK 和 Pattern 的巨大肩膀上。jieba - 中文分词工具。SnowNLP - 处理中文文本的库。loso - 另一个中文分词库。genius - 基于条件随机场的中文片段。langid.py - 独立的语言识别系统。韩语 - 韩语 形态学库。pymorphy2 - 俄语的形态分析器(POS 标记器 + 转换引擎)。PyPLN - 用于自然语言处理的分布式管道,用 Python 制作。该项目的目标是创建一种使用 NLTK 处理大型语料库的简单方法,并带有 Web 界面。langdetect - Google 语言检测库到 Python 的端口。浏览器自动化浏览器自动化:浏览器selenium - 自动化真实浏览器(Chrome、Firefox、Opera、IE)。Ghost.py - QtWebKit 的包装器(需要 PyQT)。Spynner - QtWebKit QtWebKit 的包装器(需要 PyQT)。Splinter - 浏览器模拟器的通用 API (selenium webdrivers, django client, zope)。Requestium - Requests 和 Selenium 之间的集成层,用于 Web 操作的自动化。Splash - 具有 HTTP API 的轻量级、可编写脚本的浏览器即服务。pyppeteer - 无头 chrome/chromium 自动化库(puppeteer 的非官方端口)。Playwright - Playwright 是一个 Python 库,可通过单个 API 自动化 Chromium、Firefox 和 WebKit 浏览器。seleniumbase - 用于 Web/UI 测试 + RPA 的 Python 框架。
2022年04月26日
340 阅读
0 评论
0 点赞
2022-04-20
微信公众号分享链接,直接点url链接分享js生成失效问题
今日遇到了个很奇怪的事情,找不到官方任何说明。就是分享网页链接,测试的时候我把链接http://fjdsjfds这个样的链接直接发到微信,点击进去分享没有图文的样式,而是直接以串原链接,如下图debug找了很久,开发测试工具也没问题,debug打印也没问题。最后直接通过扫码查看链接,或者公众号菜单进去的链接就没有问题了,我估计是微信的某些机制自身做了处理。浪费了一个多小时一直在排查,官方也没有说明提示说明,然后还有最后一点,就是只有认证的订阅号和服务号才有这个分享的接口权限。不同类型公众号之间权限文档:https://developers.weixin.qq.com/doc/offiaccount/Getting_Started/Explanation_of_interface_privileges.html公众号jsdk文档:https://developers.weixin.qq.com/doc/offiaccount/OA_Web_Apps/JS-SDK.html#66
2022年04月20日
354 阅读
0 评论
0 点赞
2022-04-19
Docker 宿主与容器之间的文件拷贝
docker文件拷贝,docker容器与宿主文件拷贝
2022年04月19日
141 阅读
0 评论
0 点赞
2022-04-18
linux 定时任务备份至七牛
场景生产数据定时备份的意义大家应该都是知道的,很多人备份只是备份到了本地,但是也会存在一定的隐患,比如客户一直不用系统,我们也不去注意,哪天服务器到期了过了几个月客户突然要用方向数据没了。。。使用到的工具主要看大家的服务器的安装情况,如果是安装了宝塔面板这种,有定时任务工具直接使用,而且也有免费的七牛云插件,设置起来超级简单,如果安装宝塔的不懂设置可以评论区留言,实在是太简单了本文就不讲了,说实话是会点鼠标就可以弄了基于linux系统内备份大概的意思就是你的mysql是自己用命令安装的。七牛平台shell脚本linux定时任务需要七牛云账号,用户需要自己创建,或者其它用其它云盘原理都是一样的(一)下载qshell工具并安装设置1. 工具下载说明文档与下载地址: 七牛工具下载 工具是七牛官方提供的,下载工具后传到服务器,主要看自己服务器的架构,我的服务是linux x86的,根据自己服务器去下载,把文件上传至服务目录/home/backup/shell 目录。并赋予权限chomd +x qshell2. 登录设置七牛云账号注意需要在工具目录下执行,如果需要任何目录执行需要添加环境变量可查看官方文档说明,更多说明以官方最新文档为准# 参数说明可自己根据情况修改 #ak :官方获取 #sk: 官方平台获取 #name : 任意用户名,不是七牛的账户,比如 db-test qshell account <ak> <sk> <name> #完成命令参考(二) shell编辑脚本在目录/home/backup/shell 下新建脚本backup.sh#!/bin/sh # mysql data backup script # # use mysqldump --help,get more detail. # 需要设置环境变量,crond中默认读取不到我们的一些环境 PATH=$PATH:/home/backup/shell export PATH dbname=<dbname> #备份文件目录 bakDir=/home/backup/sql logFile=/home/backup/backup.log month=` date +%Y%m ` # 七牛的备份目录,当前按数据库为一级目录,月份为2级目录如:dbname/202004/****.gz.sql qiniuPath=typecho_joe_theme/$month # 七牛空间名 qiniuBucket=<bucketName> datetime=`date +%Y%m%d%H%M%S` keepDay=7 echo "-------------------------------------------" >> $logFile echo $(date +"%y-%m-%d %H:%M:%S") >> $logFile echo "--------------------------" >> $logFile cd $bakDir bakFile=$dbname.$datetime.sql.gz # yum,apt-get,源码编译安装释放 mysqldump -u$user -p$password $dbname | gzip > $bakFile #docker安装执行方式,需要修改<dbname>为自己的数据库 #docker exec mysql5.6 sh -c 'exec mysqldump <dbname> -uroot -p"$MYSQL_ROOT_PASSWORD"' | gzip > $bakDir/$bakFile echo "数据库 [$dbname] 备份完成" >> $logFile echo "$bakDir/$bakFile" >> $logFile echo "开始上传备份文件至七牛云存储" >> $logFile #七牛上传命令,分片上传适用大文件,当前使用低频储存,具体命令可以查看文档 qshell rput $qiniuBucket $qiniuPath/$bakFile $bakDir/$bakFile --storage 1 | sed -r "s/\x1B\[([0-9]{1,2}(;[0-9]{1,2})?)?[m|K]//g" >> $logFile 2>&1 echo "删除${keepDay}天前的备份文件" >> $logFile find $bakDir -ctime +$keepDay >> $logFile find $bakDir -ctime +$keepDay -exec rm -rf {} \; echo " " >> $logFile echo " " >> $logFile 参考文献:qshell命令说明rput 操作说明(二) 添加定时任务需要使用到cron命令,本文不展开讲这个,需要了解的可以参考以下文献文献一: crontab配置方法文献二: Linux系统crontab定时任务的配置概要与常见问题文献三: crontab 与 环境变量下面直说具体操作,执行器需要先检查crond的状态service crond status,如果是在运行中就没什么问题编辑定时任务#修改当前用户定时任务 crontab -e 添加任务脚本,操作和vi是一样的# 每天凌晨3点执行脚本, 0 3 * * * /home/backup/backup.sh # 如果是测试可以用以下的脚本,意思是没2分钟执行一次,看看有没有成本 */2 * * * * /home/backup/backup.sh查看定时任务#查看当前任务情况 crondtab -l(三) 完成设置完成以后最好要检查下是否成功,建议先设置按分钟执行备份看看,如果中间有什么问题要多百度,一般都可以搜得到
2022年04月18日
135 阅读
0 评论
0 点赞
1
...
7
8
9
...
20