最新公告
  • 欢迎您光临起源地模板网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入钻石VIP
  • 电商的商品信息采集

    正文概述 掘金(laical85671)   2021-05-27   586

    电商爬虫一直都有,采集淘宝,天猫的人也越来越多,电商网站都有反爬虫策略,比如淘宝PC的反爬策略,一般都是验证码,一般登陆之后如果频繁访问就会出现验证码,此时就需要使用爬虫代理IP去解决验证码。就算使用了IP去访问,如果还是频繁访问过渡,还是会出现另一种验证码。所以需要控制好访问的频率和请求。或者去采集淘宝APP版本的。因为APP版本的并没有这种限制。但是APP的采集难度会比采集PC端的难度大些。就看自己的技术能力是否支持采集淘宝APP了。

    电商的商品信息采集

    采集PC端的淘宝一般分为以下及步骤:

    1、解决淘宝登陆:可以使用爬虫代理IP解决。

    2、指定采集的页面:http://h5api.m.taobao.com/

    3、查看采集数据页面的源码,进行数据采集

    4、过滤所需数据

    5、保存所采集的数据到文件

    爬虫程序展示:

    import java.io.IOException;
    import java.net.Authenticator;
    import java.net.InetSocketAddress;
    import java.net.PasswordAuthentication;
    import java.net.Proxy;
    
    import org.jsoup.Jsoup;
    import org.jsoup.nodes.Document;
    
    
    public class Demo
    {
        // 代理验证信息
        final static String ProxyUser = "username";
        final static String ProxyPass = "password";
    
        // 代理服务器(产品官网 www.16yun.cn)
        final static String ProxyHost = "t.16yun.cn";
        final static Integer ProxyPort = 31111;
    
        // 设置IP切换头
        final static String ProxyHeadKey = "Proxy-Tunnel";
    
    
        public static String getUrlProxyContent(String url)
        {
            Authenticator.setDefault(new Authenticator() {
                public PasswordAuthentication getPasswordAuthentication()
                {
                    return new PasswordAuthentication(ProxyUser, ProxyPass.toCharArray());
                }
            });
            // 设置Proxy-Tunnel
            Random random = new Random();
            int tunnel = random.nextInt(10000);
            String ProxyHeadVal = String.valueOf(tunnel);
    
            Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress(ProxyHost, ProxyPort));
    
            try
            {
                // 处理异常、其他参数
                Document doc = Jsoup.connect(url).timeout(3000).header(ProxyHeadKey, ProxyHeadVal).proxy(proxy).get();
    
                if(doc != null) {
                    System.out.println(doc.body().html());
                }
            }
            catch (IOException e)
            {
                e.printStackTrace();
            }
    
            return null;
        }
    
        public static void main(String[] args) throws Exception
        {
            // 要访问的目标页面
            String targetUrl = "http://httpbin.org/ip";
    
    
            getUrlProxyContent(targetUrl);
        }
    }
    

    起源地下载网 » 电商的商品信息采集

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    模板不会安装或需要功能定制以及二次开发?
    请QQ联系我们

    发表评论

    还没有评论,快来抢沙发吧!

    如需帝国cms功能定制以及二次开发请联系我们

    联系作者

    请选择支付方式

    ×
    迅虎支付宝
    迅虎微信
    支付宝当面付
    余额支付
    ×
    微信扫码支付 0 元