Как получить session_id при использовании Crawlera Lua скрипт в Scrapy Всплеск?

голоса
0

Как вы знаете, мы используем этот Lua сценарий, когда мы пытаемся использовать Scrapy Всплеск с Crawlera:

function use_crawlera(splash)
    -- Make sure you pass your Crawlera API key in the 'crawlera_user' arg.
    -- Have a look at the file spiders/quotes-js.py to see how to do it.
    -- Find your Crawlera credentials in https://app.scrapinghub.com/
    local user = splash.args.crawlera_user

    local host = 'proxy.crawlera.com'
    local port = 8010
    local session_header = 'X-Crawlera-Session'
    local session_id = 'create'

    splash:on_request(function (request)
        request:set_header('X-Crawlera-Cookies', 'disable')
        request:set_header(session_header, session_id)
        request:set_proxy{host, port, username=user, password=''}
    end)

    splash:on_response_headers(function (response)
        if type(response.headers[session_header]) ~= nil then
            session_id = response.headers[session_header]
        end
    end)
end

function main(splash)
    use_crawlera(splash)
        splash:init_cookies(splash.args.cookies)
        assert(splash:go{
            splash.args.url,
            headers=splash.args.headers,
            http_method=splash.args.http_method,
        })    
            assert(splash:wait(3))
        return {
            html = splash:html(),
            cookies = splash:get_cookies(),
        }
end

Существует session_idпеременная в этом Lua скрипт , который мне нужен плохо, но как я могу получить к нему доступ из ответа Scrapy в?

Я пробовал response.session_idили , response.headers['X-Crawlera-Session']но оба не работают.

Задан 27/11/2018 в 15:13
источник пользователем
На других языках...                            


2 ответов

голоса
0
  1. Возвращение данных Хар также ( https://splash.readthedocs.io/en/stable/scripting-ref.html#splash-har ) в вашем Lua скрипт:
    return {
        html = splash:html(),
        har = splash:har(),
        cookies = splash:get_cookies(),
    }
  1. Предполагая , что вы используете Scrapy-всплеск ( https://github.com/scrapy-plugins/scrapy-splash ) убедитесь , что вы установите executeконечную точку на запрос:

meta['splash']['endpoint'] = 'execute',

Если вы используете scrapy.Request, render.json является конечной точкой по умолчанию, но для scrapy_splash.SplashRequestконечной точки по умолчанию является render.html. Проверьте эти 2 примера , чтобы увидеть , как установить конечную точку: https://github.com/scrapy-plugins/scrapy-splash#requests

  1. Только теперь у вас есть доступ к X-Crawlera-Sessionзаголовку в методе синтаксического анализа:
    def parse(self, response):
        headers = json.loads(response.text)['har']['log']['entries'][0]['response']['headers']
        session_id = next(x for x in headers if x['name'] == 'X-Crawlera-Session')['value']
>>> headers = json.loads(response.text)['har']['log']['entries'][0]['response']['headers']
>>> next(x for x in headers if x['name'] == 'X-Crawlera-Session')
{u'name': u'X-Crawlera-Session', u'value': u'2124641382'}
Ответил 06/07/2019 в 19:59
источник пользователем

голоса
0

Использование Всплеск: set_result_header .

Ответил 05/07/2019 в 16:41
источник пользователем

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more