Perkiraan seri non-stasioner, atau bagaimana data scientist dapat hidup di tahun 2020

Pandemi dan karantina telah mengubah kehidupan dan perilaku hampir setiap penghuni planet ini. Pada saat yang sama, beberapa perubahan bersifat jangka pendek dan menghilang dengan pencabutan tindakan karantina, sementara yang lain mungkin tetap bersama kami untuk waktu yang lama, bahkan mungkin selamanya.

, Dentsu Aegis Network, , . , 2020 , .

 

  ,   () , .        (, , )  ,  .  

,     ,   ,  .  

, , , .

.

:  

  •  —   ,      ( ,    - , , ,   ..,    , - ). 

  •   —  ,       .      , . 

  • TVR   —  ,            . 

  • Affinity   —  ,   ,  ,      (TVR  / TVR  ).

 

·        . Mediascope, . – . , (, ) . , , . : , , , ..  

 ·           .  ()   . , :  \ ,  ,    (,  ..). . 

   : 

 ·        COVID-19. : , , . - 2020 2019 , - 2020 ,   - , .

·        2020   .    100  (100+), 2020     , 100  (100-). ,   ( 100 ) , ( 100 ).    , .    ,  , ,    TVR.  

·          . “”   TVR  0.10. -  TVR 0.05 0.15 ( ),    0.05 / 0.10 = 50% 0.15 / 0.10 = 150%.    .  

·        , , .    . 

·        . 

·         

, , : MS SQL+Python+LightGBM(CPU) – , .

    :     TVR, , , . ,         .    ( ). 

,  Mediascope .  6 . , 4 ,  , ,  (12*4*[ =130] *[ -=24] = 150. )  . 

  . 40 ,   (60*24=1440),    36 . , 6 ( ). 

  2  –  .    , , , , .

, ,     .  130 .

. - , , , . , .

   . - , - . , : 

·         : PCA   .  

·        100- .    ,  100-. . 

·        Anomaly detection. \ TVR .   isolation forest -  . 

·           -. 

 



·         : , , , -, , ,   30 , (, “ ”), . ,      .

·        .     ,  :  

1.      

a.       dummy  +   “100-”, ,   dummy  . 

b.    – ,   .  

  c.     . . 

2.     .1 + dummy  +   “100-” ( ),  dummy , . 

3.      dummy  : . ,  “100-”, .  

  4.     .3 + +   «100-», , . . 

   5.     (!) : +   «100-», . 

 ·        COVID-19. 

1.             . 

2.        :

a.     2020-03-05 - “”

b.     2020-03-25 -

c.      2020-03-28 –

d.     2020-04-06 -

e.     2020-06-01 -

f.       2020-06-14 -

 

3.       .1    -  .  .

  : 

·        , 

·             , 

·          ( ) , . 

, (, ).   ,    . boxplot () 2 4 .

·          .  

1.     95     ( )    . ,     . 

2.     :   TVR         ( .1),   TVR .  

3.      TVR   , . 

·         TVR  log(TVR+1).  TVR, .           .

. , - . 

https://download.dentsuaegis.ru/index.php/s/emtvlKKdPkUCdvn

    

Machine Learning Engineer     developer.  ML Engineer      Clean Code Paradigm,      .   Data Engineer’.   ,   :    MS SQL server  . 

-,   MS SQL.    .  SQLAlchemy .   , ,    (,  MS SQL ?).  :   deadlock’,     .  ,    ,   pyodbc.   :  

1.         ( )      .   constraints,    race condition  deadlock. 

2.     ,  . , : 

a.     Insert into table(col1,col2) values (1,1);

Insert into table(col1,col2) values (1,2);

b.    Insert into table(col1,col2) values

(1,1),

(1,2);

,  )   2  , ) , . 1000  . 

3.     \   merge tables     target table (  target table). 

    .  2 10 - .   , , -  .  , , ,  MS SQL. 

-,  .  ,  : .  , ,   ,  .    .  : 

  1. ,  , \  . (, ) .

  2.      .1. 

   

, . . .      .    .   tableau.  , , ,    , .   avg[(fact – predict) / (fact +predict +epsilon)].   boxplot    .    .  :  

·         TVR  .   R_squared  – . 

·          \  \     

·          -  TVR. 

·            –  ,  . 

, 22 .   .    2 4 : , . 

  : 

 

  

·        (,    ..).  

·         -: -   , - ( ). 

·        :   TVR 2 , . 

·         - .  . 

 




All Articles