Eu estou apenas começando a aprender sobre data science e tenho grande interesse no mercado financeiro. Achei bem interessante seu artigo, mas me deixou com uma dúvida.
Pelo conhecimento que eu tenho, os dados normalmente são separados entre treinamento e teste para evitar o problema de overfitting. Ao treinar o modelo com todos os dados disponíveis, você não teme que os modelos fiquem "muito bons em prever o passado" e, portanto, sem confiabilidade para prever o futuro?
Normalmente para predições é usado uma estratégia 80/20 o que pode variar com o tamanho do dataset, e com certeza, utilizar todo o dataset pode fazer com que os resultados sofram de overfitting.
Por trabalharmos com sazonalidade diária, também descontantando o finais de semana temos uma amostragem muito pequena, o que pode fazer com que sofra underfitting.
Um exemplo é se pegarmos a stock NU (Nubank) que fez IPO em dezembro, não teremos dados o suficiente para trabalharmos em cima.
Com base nisso, optei por nesse pequeno exemplo utilizar o meu dataframe de datas futuras como teste, assim como na documentação.
Abaixo colei um pequeno trecho onde é usado as datas futuras como entrada para o ajuste.
"You can get a suitable dataframe that extends into the future a specified number of days using the helper method Prophet.make_future_dataframe. By default it will also include the dates from the history, so we will see the model fit as well."
O prophet é uma biblioteca especificamente construída para trabalhar com séries temporais e utiliza o sci kit learn por baixo dos panos e tem diversas funções que nos ajudam a trabalhar com esse categoria de dados.
For further actions, you may consider blocking this person and/or reporting abuse
We're a place where coders share, stay up-to-date and grow their careers.
Boa noite Lucas, tudo bem?
Eu estou apenas começando a aprender sobre data science e tenho grande interesse no mercado financeiro. Achei bem interessante seu artigo, mas me deixou com uma dúvida.
Pelo conhecimento que eu tenho, os dados normalmente são separados entre treinamento e teste para evitar o problema de overfitting. Ao treinar o modelo com todos os dados disponíveis, você não teme que os modelos fiquem "muito bons em prever o passado" e, portanto, sem confiabilidade para prever o futuro?
Bom dia Felipe, tudo ótimo e com você?
Obrigado pela contribuição!
Normalmente para predições é usado uma estratégia 80/20 o que pode variar com o tamanho do dataset, e com certeza, utilizar todo o dataset pode fazer com que os resultados sofram de overfitting.
Por trabalharmos com sazonalidade diária, também descontantando o finais de semana temos uma amostragem muito pequena, o que pode fazer com que sofra underfitting.
Um exemplo é se pegarmos a stock NU (Nubank) que fez IPO em dezembro, não teremos dados o suficiente para trabalharmos em cima.
Com base nisso, optei por nesse pequeno exemplo utilizar o meu dataframe de datas futuras como teste, assim como na documentação.
facebook.github.io/prophet/docs/qu...
Abaixo colei um pequeno trecho onde é usado as datas futuras como entrada para o ajuste.
"You can get a suitable dataframe that extends into the future a specified number of days using the helper method Prophet.make_future_dataframe. By default it will also include the dates from the history, so we will see the model fit as well."
O prophet é uma biblioteca especificamente construída para trabalhar com séries temporais e utiliza o sci kit learn por baixo dos panos e tem diversas funções que nos ajudam a trabalhar com esse categoria de dados.