1.【原神】各角色Pixiv涩统计(二) Python爬虫爬取Pixiv上各角色涩并统计.
2.帮我看看这个ASP源码文件包后台程序是爷源码哪个,我不知道如何登录后台啊
3.大象成品w灬源码1昔日被封频道将重新开放,爷源码Bumble用户布伦达直呼:爷青回!爷源码
4.五穷六绝七翻身?量化分析揭开背后真相(附源码)
【原神】各角色Pixiv涩统计(二) Python爬虫爬取Pixiv上各角色涩并统计.
统计结果详情请参阅前一篇文章。爷源码
已将代码开源至GitHub。爷源码
诚然,爷源码博客 源码 php此项目为我完成过的爷源码最具挑战性的爬虫任务,耗时两天半,爷源码全无进展。爷源码
Pixiv的爷源码反爬机制使我不得不面对复杂的代码编写。
为了统计各角色的爷源码涩图数量,我们需要在Pixiv搜索角色名称。爷源码对于爬虫而言,爷源码正确的爷源码链接应为:
Pixiv主要使用的语言包括简体中文、繁体中文、爷源码日文、英文和韩文。考虑到《原神》没有俄语版本,我们不统计俄语。
同时,应注意,搜索出的角色名称可能与《原神》无关,因此不能将其纳入统计。
综上,我们的统计逻辑如下:
使用的库包括:
首先,我们需要获取《原神》各角色名称,这可以从《原神》官网爬取。
在实际爬取过程中,网站的语言切换经常失败或自动根据IP地址跳转,甚至返回一半英语一半日文内容。因此,我手动保存了网站各语言的源代码。简体中文名称可直接在《原神》国内官网找到,与国际版类似,但注意,一定注意。
国内官网上刻晴和七七的顺序有误,需要在保存的源代码中调整。
之后,用正则表达式识别各角色的各语言名称,并对一些稻妻角色名称进行适当调整,以增加搜索内容。
注意,原神官网上没有荧和空,需进行特殊处理。
判断作品是否与特定《原神》角色相关的方法是:如果作品中出现其他《原神》角色名称、除本语言外的本角色名称,或包含特定元素(如列表中的元素),则认为其与该角色相关。pca+源码
忽略大小写。
判断标签如下:
标签包括:原神、Genshin、Impact、米哈游、HoYoLAB、원신、HOYOVERSE、miHoYo、蒙德、璃月、须弥、稻妻、枫丹、纳塔、至冬、提瓦特、Mondstadt、Liyue、Inazuma、Sumeru、Fontaine、Natlan、Snezhnaya、爷、派蒙、Paimon、旅行者、履刑者、屑、森林书、兰纳罗、双子、愚人众、Traveller、Traveler、雷音权现、七星、水、火、岩、冰、风、雷、草、タル蛍、雷**、雷电真、pacs源码出售雷**、黄金梦乡、深渊、Abyss、七圣召唤、Twins、崩坏、星穹铁道、爱莉希雅、Elysia、女仆、旅人、Travel、公子、捷德、风花节、海灯节、纠缠、Wish、Pull、海祈岛、珊瑚宫、渊下宫、尘歌、萍姥姥、龙脊雪山、苍风高地、风啸山坡、明冠山地、坠星山谷、珉林、璃沙郊、云来海、碧水原、甜甜花、层岩巨渊、Status、天理、琪亚娜、食岩之罚、仙跳墙、佛跳墙、野菇鸡肉串、珊瑚宫、心海、Pyro、Cyro、Hydro、火烛源码网Nature、Anemo、Geo、Dendro、Electro、Swirl、原石、Primogem、Jade、God、Fate、Intertwined、纠缠之缘、Serenitea、Artifact、圣遗物、博士、doctor、同人。
随后,便是核心环节:爬取Pixiv。
由于Pixiv不接受未登录的爬虫,但我们可以巧妙绕过登录接口。我们通过复制登录后浏览器的cookie并写入header。
(关于使用多个cookie的原因,我将在后面解释)
有了cookie,我们在爬取tags时才能获取正常内容。请注意,内容并非直接在HTML页面中返回,而是需要通过请求另一个页面才能获得有意义的信息。特定链接用于生成请求,然后请求获取内容。
链接生成方式简单,通过字符串拼接。
之后,加载JSON数据,使用正则表达式筛选出有用信息。
注意,Pixiv的响应速度较慢,短时间内的请求量过大,会返回空内容,因此需要判断内容是否为空。同时,如果某个tag下面没有内容,返回的也是空值。此外,网络不稳定也可能导致收到空内容或不完整内容。
有时网络状况良好,商城积分源码Pixiv正确处理响应,但返回的内容不完整或与预期不符。
最后,爬取完所有内容后,将page加1,继续爬取下一页内容。Pixiv不会返回错误,而是返回空值。
还需注意,返回的内容可能包含重复信息,需要处理。
如需自写代码,上述问题都需要考虑。我的代码中已考虑并测试通过。
之前提到,Pixiv爬取速度慢,因此我们使用多线程。但多线程容易导致cookie失效,因此采用多个cookie,并设计算法决定使用哪个cookie。如果一次请求失败,该cookie的sleep time增加秒。更换cookie时,需睡眠对应cookie的睡眠时间。成功处理完6个角色(所有语言名称)后,将sleep time重置,避免退化为单cookie模式。
至于main.py运行后的结果可视化,这部分内容较长且主要涉及matplotlib绘图,如有问题可至评论区询问。
代码开源地址:
前一篇文章:
封面(AI):
荧 / Lumine
帮我看看这个ASP源码文件包后台程序是哪个,我不知道如何登录后台啊
很明显,这是用NetBox打包后的asp源码。运行红色那个B,然后在地址栏输入“admin”就是登录的入口了。
如果看不到地址栏的话,用鼠标在页面上的任何一个超链接上右键》在新窗口打开,就可以看到地址栏了。
大象成品w灬源码1昔日被封频道将重新开放,Bumble用户布伦达直呼:爷青回!
菜游网解读分享
大象成品w灬源码1昔日被封频道将重新开放,网友直呼:爷青回!!菜游网小编推荐的大象成品w灬源码1是一款非常火热的视频播放软件,这里面打造了很多小伙伴们喜欢观看的视频资源,热门视频、最新视频等等都有提供的,小伙伴们都可以根据自己的需求来进行点播,这些视频都是为你们提供的,不需要会员就可以直接进行播放的。这里面的视频都是不存在任何广告的,小伙伴们体验起来都是超轻松的,再也不用受到广告的干扰,而且还可以享受到全新的视觉体验哦。视频的内容都是不一样的,你每天都可以观看到不一样的视频播放,都是不会重复的,你可以放心。喜欢的朋友们可以来试试这款大象成品w灬源码1。声明:本文内容仅代表作者个人观点,与本站立场无关。如有内容侵犯您的合法权益,请及时与我们联系,我们将第一时间安排处理
五穷六绝七翻身?量化分析揭开背后真相(附源码)
六月悄然离去,留下了鲜绿色的回忆。七月的第一交易日即将来临,不用想,不用猜,投资群中的人们纷纷谈论着那句耳熟能详的股市谚语,相互取暖,相互打气。
这句谚语就是“五穷六绝七翻身”,虽然不能说每个人都耳熟能详,但肯定都略有耳闻。从字面上就能看出,说的是股市每逢每年的五月和六月都会出现下跌,到了七月,下跌趋势终止,开始回升走出低谷,打一个漂亮的翻身仗。
目前主流观点认为,这种说法最早起源于香港股市,在上世纪年代至年代的时候港岛特别流行,据说当时的经济研究员参考过历年香港股市的涨跌情况后,统计总结得出的结论。
类似的说法,不单单中国股市有,国外股市也存在,最著名的莫过于美国华尔街流传已久的“Sell in May”(在五月份卖出),但最早的出处却是在英国。完整的句子应该是“Sell in May and go away, come back at St.Leger's Day”,St.Leger's Day指的就是英国每年九月份在南约克郡举行的秋季赛马比赛。所以整句话翻译过来就是说,在五月份的时候大家都要卖出清仓离开,等到秋季赛马比赛后再回来。
为啥要在五月份离开呢?因为夏天到了太热了,离开伦敦去避暑,就跟清朝皇帝一到夏天就跑到承德避暑山庄消夏一样,等到秋天转凉了再屁颠屁颠跑回来。所以嘛,那群英国贵族、银行家和投资家都跑出去避暑了,清仓不玩了,那时候还没现在远程炒股的便利,股市可不就冷清没有行情嘛,等到他们九月末回来之后,行情才会有起色。后来这句话被投资者们念叨着跨过大西洋,带到了北美大陆,成为了如今华尔街金融人士口口相传的一句谚语。
同样都是五月卖出/下跌,一个来自于香港,一个来自于英美,那跟我国的大A行情规律吻合吗?今年大盘五月份跌了3.%,六月份跌了0.%,真的是又穷又绝,接下来的一个月我们能翻身不?
要看我国股市符不符合“五穷六绝七翻身”这个规律,靠瞎说可不行,要有数据统计结果,邓爷爷教育道“实践是检验真理的唯一标准”,我们就撸起袖子开干。
要总结规律,那数据时间范围当然越长越好,挑来挑去,觉得还是先选择“上证指数”较为合适,它在年就发布了(沪深指数还要年后才发布),基本跟上交所深交所同龄,数据长度够长,基本全覆盖了A股发展历程,更何况股民日常说的点、点什么的,指的就是上证指数的点位。
首先我们就来获取上证指数的历史行情数据,这里使用的是股票量化开源库qstock,直接使用“pip install qstock”就可以安装,基本的功能无需注册便可以使用,对新手来说非常方便,详情请见:github.com/tkfy/qsto...
在这里我们就获取了上证指数从年6月至年6月的全部月度行情数据,结合当月的收盘价和上个月的收盘价(close)就可以计算出当月的涨跌幅(pct),为了方便后续统计,我们还需要将日期索引(date,对应的是每个月的最后交易日)转换为对应的月份数值(month)。
至此,我们就获取到了年7月至年6月这年之间每个月的涨跌幅数据,这样的日期范围设置的原因是,平衡每个月份数的分布,保证每个月都出现的次数相同,都是次。
数据整理完毕后,就可以开始统计了,在这里我们要统计的是每个月的上涨次数(win_num)、下跌次数(lose_num)、胜率(win_rate)、涨跌幅的均值(pct_avg)、涨跌幅的中位数(pct_med)、涨跌幅的最小值(pct_min)和涨跌幅的最大值(pct_max)。
实现的原理是,按月份数值(month)进行循环,分月份进行统计,那每一个月份就有个涨跌幅(pct)数值,若涨跌幅为正数记为上涨,负数记为下跌,胜率(单位百分比)则为“*上涨次数/”,其余的4个指标就分别对应着这个涨跌幅数值序列当中的均值、中位数、最小值和最大值,具体细节请看下方代码。
现在统计结果就一目了然了,五月份和六月份的胜率都是五五开,年里面涨跌都是各有次,而七月份上涨次数只有次,再看涨跌幅均值,这3个月份的涨跌幅均值分别为5.%、-0.%和-0.%,而且七月份的涨跌幅均值是一年个月里面最差的,涨跌幅中位数也是。
因此结果显而易见,无论从胜率,还是涨跌幅均值/中位数,七月份都要比五月份和六月份的差,如果还要坚持说五六月份还是“五穷六绝”的话,那整句话就该改为“五穷六绝七地狱”,地狱还可能是十八层的那种。
为了降低选择代表性指数时的片面性,我们把市场上主流的那几个指数都逐个统计一遍,只要把第一段代码中的变量symbol再分别逐次修改为深证成指、上证、沪深、中证、中证、创业板指和中证全指,时间范围也做对应的调整,挨个重新run一遍,就可以统计出相应指数的月份涨跌幅数据,每次的统计结果都会保存为以指数名称为文件名后缀的Excel文件,汇总这些统计文件,就可以看到所有指数的全貌,统计结果如下所示。
主流指数所有月份胜率数据表:
主流指数所有月份涨跌幅均值数据表:
从胜率表当中看出,五六七月份的总体胜率均值分别是.2%、.%和.%,七月份并没有好于五六月份;五六七月份的总体涨跌幅均值分别是2.%、-0.%和1.%,虽然七月份翻身了一丢丢,但也没有体现出“五穷”的赶脚,综上所述,至少在主流指数概况当中,“五穷六绝七翻身”这种说法并不成立,根本站不住脚,今年的七月翻身仗,翻不翻得了基本是五五开,但从总体涨跌幅均值来看,还是“优势在我”。
论证已经完毕了,但是在过程当中还有两个有趣的发现,也可以顺便说一下,眼尖的小伙伴可能已经发现了。
第一个就是存在着“五穷六绝七翻身”的指数,它就是上证指数,它五六七月份的胜率分别是%、%和.%,涨跌幅均值是-0.%、-1.和1.%,这样一看,是不是完美契合这句谚语了。
其实吧,只要你把各种市场指数、行业指数、风格指数、概念指数和板块指数统统都统计一遍,肯定能找出不少符合这种规律的指数,只不过占比不高,并不是主流,只要林子足够大,什么鸟儿都会有。
第二个发现其实我已经在上面的表格当中标注出来了,那就是在所有月份当中,二月份的胜率和涨跌幅均值出奇的高,如果还没有感觉的话,我们把它转化为柱状图展示就直观了。
特别是看二月份的涨跌幅均值,简直就是谷子地里窜高粱——硬生生高出一大截来,并且没有一个指数的二月份涨跌幅均值出现负数,二月份的胜率均值接近%,也是没有一个指数的二月份胜率是低于%的。
如果拿枪指着我的脑袋,让我硬是选一个月份翻身,我会毫不犹豫选择二月份,谁会跟概率过不去嘛。
其实上面的这些统计研究,在量化交易或金融工程里面有一个确切的术语,叫做“日历效应”,也就是研究那些与日期存在关联的非正常收益和非正常波动的数据特征现象。
如果大家对我国股市的日历效应感兴趣,特别是想了解清楚本次统计中二月份的胜率和收益为什么这么高,背后的金融逻辑是什么,推荐大家去看国海金工今年新出的深度金工研报《日历效应背后的择时策略探究》,在里面作者列举和解释了A股中各种各样与日期节假日相关的Alpha场景,并利用其中的原理构建指数择时和行业轮动策略。
这次就先聊到这儿,噢~对了,差点忘记说,找研报不方便的小伙伴,可在公众号“量化君也”后台回复暗号“日历效应”,就可以直接保存和下载上面那篇研报,如果对你有帮助的话,可以点个充满鼓励的“赞”告诉我,让我动力满满继续肝~
我是 @quantkoala,一枚大写的量化/程序化策略源码捕手,喜欢全方位收集分享市面上主流的策略源码(股票+期货+外汇),在“量化藏经阁”和“量化藏经阁Max”社群(入口)中,持续分享量化策略源码和量化知识等干货(目前已分享+套精品策略),欢迎关注点赞&联系沟通,探讨共赢&成果共享,相互交流&共同进步!!!常在线,多交流,多沟通!!!更多相关资料请见下方文章卡片,另外还有一个持续更新的公众号“量化君也”,专注于量化策略分享/交流/社群,欢迎来玩~