Статистический тест для временных рядов, в которых происходит результат - питон

голоса
49

Я спрашиваю о помощи в отношении регрессионного тестирования. У меня есть непрерывный временной ряд, который колеблется между положительными и отрицательными целыми числами. Также у меня есть события, происходящие на протяжении всего этого временного ряда в казалось бы случайных временных точках. По сути, при возникновении события я хватаюсь за соответствующее целое число. Затем я хочу проверить, влияет ли вообще это целое число на событие. Так же, как и в случае с положительными/отрицательными целыми числами

Изначально я думал, что логистическая регрессия с положительным/отрицательным числом, но для этого потребовалось бы как минимум две отдельные группы. В то время как у меня есть информация только о произошедших событиях. На самом деле я не могу включить такое количество событий, которые не происходят, так как они несколько непрерывны и случайны. Количество раз, когда событие не происходит, невозможно измерить

Таким образом, моя отдельная группа в некотором смысле верна, так как у меня нет никаких результатов от чего-то, что не произошло. Я пытаюсь классифицировать

Когда происходит событие, влияет ли на него положительное или отрицательное целое число.

Задан 11/05/2020 в 04:28
источник пользователем
На других языках...                            


3 ответов

голоса
0

Хотя этот вопрос довольно трудно понять после первого абзаца. Позвольте мне помочь вам понять то, что я смог понять из этого вопроса.

Предположим, вы хотите понять, существует ли взаимосвязь между происходящими событиями и целыми числами в данных.

1-й подход: Поместите данные в 2-ю шкалу и проверьте визуально, есть ли взаимосвязь между данными. 2-й подход: сделать данные от событий непрерывными и удалить события из других данных и с помощью скользящего окна сгладить данные, а затем сравнить обе тенденции.

Вышеуказанный подход работает хорошо только в том случае, если я правильно понимаю вашу проблему Есть еще одна вещь, известная как предвзятое отношение к выживанию. Возможно, у вас не хватает данных, пожалуйста, проверьте и эту часть.

Ответил 18/05/2020 в 13:52
источник пользователем

голоса
0

Звучит так, как будто вы заинтересованы в определении основных сил, которые производят данный поток данных. Такие математические модели называются Марковскими моделями. Классическим примером является изучение текста

Например, если я запущу алгоритм Скрытой Модели Маркова на абзаце английского текста, то обнаружу, что есть две категории вождения, которые определяют вероятность того, какие буквы появляются в абзаце. Эти категории можно грубо разбить на две группы: "aeiouy" и "bcdfghjklmnpqrstvvxz". Ни математика, ни УКМ "не знали", как называть эти категории, но именно к ним статистически сходятся при анализе того или иного абзаца текста. Мы могли бы назвать эти категории "гласными" и "согласными". Итак, да, гласные и согласные - это не просто категории 1 класса, которые следует изучать, они следуют из того, как текст написан статистически. Интересно, что "пробел" больше похож на гласную, чем на согласную. Я не приводил вероятности для примера выше, но интересно отметить, что "y" заканчивается с вероятностью примерно 0.6 гласной и 0.4 согласной; это означает, что "y" - самая согласная гласная, ведущая себя статистически

Отличная статья - https://www.cs.sjsu.edu/~stamp/RUA/HMM.pdf, которая рассказывает об основных идеях такого рода анализа временных рядов и даже предоставляет некоторый sudo-код для справки

Я не очень много знаю о данных, с которыми вы имеете дело, и я не знаю, играют ли понятия "положительное" и "отрицательное" определяющий фактор в данных, которые вы видите, но если вы прогоняли HMM по вашим данным и обнаружили, что две группы - это сбор положительных чисел и сбор отрицательных чисел, то ваш ответ будет подтвержден, да, наиболее влиятельными двумя категориями, которые управляют вашими данными, являются понятия положительного и отрицательного. Если они не разделены равномерно, то ваш ответ будет состоять в том, что эти понятия не являются влиятельными факторами при управлении данными. Более того, алгоритм завершится несколькими матрицами вероятностей, которые покажут Вам, насколько каждое целое число в Ваших данных подвержено влиянию каждой категории, таким образом, Вы получите гораздо больше информации о поведении Ваших данных временных рядов

Ответил 19/05/2020 в 07:59
источник пользователем

голоса
0

Может быть, я неправильно понимаю вашу проблему, но я не верю, что вы можете предсказать какую-либо значимую регрессию без дополнительной информации.

Регрессия обычно используется для нахождения связи между двумя или более переменными, однако оказывается, что у вас есть только одна переменная (если они положительные или отрицательные) и одна константа (результат всегда верен в данных). Может быть, вы могли бы сделать некоторую статистику по распределению чисел (среднее, медиана, стандартное отклонение), но я не уверен, как вы можете сделать регрессию. https://en.wikipedia.org/wiki/Regression_analysis

Возможно, вы захотите учесть, что, если вы пропустите большой кусок своих данных, может возникнуть сильная предвзятость в отношении выживания. https://en.wikipedia.org/wiki/Survivorship_bias

Надеюсь, это хотя бы немного поможет вам направить вас в правильном направлении

Ответил 11/05/2020 в 04:53
источник пользователем

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more