知乎回答图片爬虫

知乎回答图片爬虫

有一些知乎问题下的回答中包含了很多精美的图片,比如一些壁纸、风景图。

如果想保存的话,手动一张一张的保存有太慢了。

我自己用Python爬虫实现了一个并发的知乎回答图片爬虫,只需要将知乎问题ID输入即可,还能支持多问题同时爬取。速度非常快。只需要python环境和一些很基础的网络工具包就可以了,快来试试吧!

项目地址:ZhihuPicCrawler

阅读更多
The deviation of cross entropy with softmax

The deviation of cross entropy with softmax

Softmax function

Softmax function is used to regularize all number of a vector to [0, 1]. It is usual appeared in classification problems. By softmax, a vector with huge number can be projected to a small number range – from 0 to 1. That is useful to avoid gradient explosion & vanishing.

阅读更多
基本操作

基本操作

2021/5/22 下午九点,基本操作公众号发了一篇推送:解开谜题,获取基本操作的最新进展。原文链接

阅读更多
基于word2vec的红楼梦人物关系分析

基于word2vec的红楼梦人物关系分析

word2vec是Google公司在2013年提出的一种词嵌入算法。使用word2vec算法对词汇进行向量化后,原来的近义词在向量空间中是邻近的,因此word2vec可以很好的保留原来词汇之间的相似性。

阅读更多
sklearn踩坑

sklearn踩坑

这几天在做毕业设计,想做一个微博的情感分析,想着实现两种方式,一是朴素贝叶斯,二是用LSTM。

在做朴素贝叶斯的时候,据网上看到的一些文章说,训练的速度应该是很快的。但是我的训练速度却很慢,分析了一下发现是文本分词、清洗占去了大量的时间。我的语料大概12w行,20MB左右。文本处理需要一分多钟,而朴素贝叶斯的训练时间只需要一秒钟左右。

于是想把文本处理的结果,保存起来,下次直接使用,就不需要每次都多等一分钟了。

阅读更多