ProbSwitchFactorized.Rmd

---
title: "ProbSwitchFactorized"
output: html_notebook
---

# Define functions
## Read in and clean data

```{r Read in ages}

get_ages = function(ages_file_dir) {
  
  ages = read.csv(ages_file_dir)
  colnames(ages)[colnames(ages) == "ID"] = "sID"
  
  # subset(ages, !Gender %in% c(1, 2))  # IDs 307 & 336 are "3"?! asked Sarah 3/19/2019
  # subset(ages, is.na(Columbia_cat))  # subjects 11-16, 34 and 55 are missing PDS
  # subset(ages, Gender==1 & PDS >3.5)  # we only have 1 boy with PDS > 3.5, but 22 girls
  
  ages$Gender = factor(ages$Gender, levels=c(2, 1, 3), labels=c("Female", "Male", NA))
  
  ages$Columbia_cat[ages$sID >= 300] = 10  # community adults (25-30)
  ages$Columbia_cat[ages$sID >= 400] = 9  # Berkeley undergrads (ca. 17-25)
  ages$Columbia_cat = factor(ages$Columbia_cat, labels=c("Pre", "Pub", "Post", "18-24", "25-30", NA))
  
  # Add testost. group
  ages$log_T = log(ages$meanT)
  ggplot(ages, aes(log_T, fill=Gender)) + geom_histogram(bins=15, position = position_dodge())
  
  make_groups = function(ages, colname, probs=c(1, 3/4, 2/4, 1/4)) {
    
    quantiles_f = quantile(ages[ages$sID < 300 & ages$Gender=="Female", colname], probs=probs, na.rm=T)
    quantiles_m = quantile(ages[ages$sID < 300 & ages$Gender=="Male", colname], probs=probs, na.rm=T)
    
    groups = rep(NA, nrow(ages))
    for (i in 1:length(probs)) {
      groups[ages$Gender=="Female" & ages[,colname] <= quantiles_f[i]] = paste0(round(100*probs[i], digits=0), "%")
      groups[ages$Gender=="Male" & ages[,colname] <= quantiles_m[i]] = paste0(round(100*probs[i], digits=0), "%")
    }
    
    # Split adults by recruitment
    groups[ages$sID >= 300] = "25-30"
    groups[ages$sID >= 400] = "18-24"
    
    # Split adults by age
    groups[ages$PreciseYrs > 17] = "18-24"
    groups[ages$PreciseYrs > 25] = "25-30"
    
    return(groups)
  }
  
  ages$T_group = make_groups(ages, "meanT")
  ages$T_group = factor(ages$T_group, levels=c("25%", "50%", "75%", "100%", "18-24", "25-30"))
  ages$age_group = make_groups(ages, "PreciseYrs")
  ages$age_group = factor(ages$age_group, levels=c("25%", "50%", "75%", "100%", "18-24", "25-30"))
  
  ages$PDS[ages$age_group == "18-24"] = 9
  ages$PDS[ages$age_group == "25-30"] = 10
  ages$PDS = as.numeric(ages$PDS)
  ages$PDS_group[ages$PDS == 1] = "pre"
  PDS_sub = (ages$PDS > 1) & !(is.na(ages$PDS))
  ages$PDS_group[PDS_sub] = make_groups(ages[PDS_sub,], "PDS", probs=c(1, 2/3, 1/3))
  ages$PDS_group = factor(ages$PDS_group, levels=c("pre", "33%", "67%", "100%", "18-24", "25-30"))
  
  ddply(ages, .(T_group, Gender), T=min(meanT, na.rm=T), summarize)  # check that assignment was right (min matches up with quantiles)
  
  ggplot(ages, aes(Columbia_cat)) +
    geom_histogram(stat="count") +
    facet_grid(~ Gender)
  
  ggplot(ages, aes(PDS)) +
    geom_histogram() +
    facet_grid(~ Gender)
  
  return(ages)
}
```

```{r Read in data}
get_data = function(data_dir, data_name, patt) {
  
  # data_dir = human_data_dir
  # data_name = "human"
  # patt = ".*csv"
  
  all_files = data.frame()
  missed_trials = data.frame()

  filenames = list.files(data_dir, pattern = patt)
  print(paste(length(filenames), "filenames on the list."))

  # filename = filenames[1]  # DEBUG
  for(filename in filenames) {

    if (data_name == "human_mat") {
      mat_file = readMat(file.path(data_dir, filename))$exp[,,1]$PROBSWITCHdata[,,1]
      subj_file = data.frame(RT = t(mat_file$RT))
      subj_file$selected_box = (t(mat_file$key) - 10) / 2  # recode to make key left==0 and key right==1 (initially key right==12; key left==10)
      subj_file$reward = t(mat_file$reward)  # reward==1, no reward==0
      subj_file$correct_box = 1 - t(mat_file$better.box.left)  # recode to make left==0 and right==1 (initially the opposite)
      sID = as.numeric(strsplit(strsplit(filename, split = "PROBSWITCH_")[[1]][2], ".mat")[[1]])
      subj_file$sID = sID
      
      missed_data = subset(subj_file, is.na(reward))
      missed_trials = as.data.frame(rbind(missed_trials, missed_data))
      
      subj_file = subset(subj_file, !is.nan(reward) & selected_box %in% c(0, 1))  # remove no-response trials
      subj_file = subj_file[47:nrow(subj_file),]  # remove instruction trials
      
    } else {
      subj_file = read.csv(file.path(data_dir, filename))
    }
    
    # Make sure all files have the same columns
    ## Remove unwanted columns
    for (col_name in colnames(subj_file)) {
      if (!col_name %in% desired_columns) {
        subj_file[,col_name] = NULL
      }
    }
    ## Add NA columns for wanted columns
    for (col_name in desired_columns) {
      if (!col_name %in% colnames(subj_file)) {
        subj_file[,col_name] = NA
      }
    }

    if (data_name == "PCsim") {
      
      # Fill in arbitrary data
      for (col_name in c("T_group", "PDS_group", "Columbia_cat", "Category", "BMI", "Period_age", "Last_period", "Months", "T1", "T2", "T3")) {
        if (!col_name %in% colnames(subj_file)) {
          subj_file[,col_name] = 1
        }
      }
      for (col_name in c("PDS", "meanT", "PreciseYrs", "log_T")) {
        if (!col_name %in% colnames(subj_file)) {
          subj_file[,col_name] = runif(1, 8, 30)
        }
      }
      subj_file$age_group = "50%"
      subj_file$Gender = "Male"
    }

    # Add columns
    subj_file$TrialID = 1:nrow(subj_file)
    subj_file$rewardversion = subj_file$sID %% 4
    subj_file$ACC = with(subj_file, selected_box == correct_box)

    # # Sort by TrialID
    # subj_file = subj_file[order(subj_file$sID, subj_file$TrialID),]

    # Get switch_trial, block, and trialssinceswitch
    this_trial = subj_file$correct_box[2:nrow(subj_file)]
    prev_trial = subj_file$correct_box[1:(nrow(subj_file) - 1)]
    subj_file$switch_trial = c(F, this_trial != prev_trial)
    subj_file$block = cumsum(subj_file$switch_trial)

    subj_file$trialsinceswitch = NA
    for (blocki in subj_file$block) {
      n_rows = nrow(subset(subj_file, block == blocki))
      if (n_rows >= 4) {
        subj_file$trialsinceswitch[subj_file$block == blocki] = 0:(n_rows - 1)
        subj_file$trialsinceswitch[subj_file$block == blocki][(n_rows - 3):n_rows] = -4:-1
      }
    }

    subj_file$outcome_1_back = c(NA, subj_file$reward[1:(nrow(subj_file) - 1)])
    subj_file$outcome_2_back = c(NA, NA, subj_file$reward[1:(nrow(subj_file) - 2)])

    subj_file$choice_left = subj_file$selected_box == 0  # left: 0; right: 1
    subj_file$choice_1_back = c(NA, subj_file$choice_left[1:(nrow(subj_file) - 1)])
    subj_file$choice_2_back = c(NA, NA, subj_file$choice_left[1:(nrow(subj_file) - 2)])

    if (data_name == "human_mat") {
      write.csv(subj_file, paste(data_dir, "/PS_", sID, ".csv", sep = ""), row.names = F)
    }

    all_files = as.data.frame(rbind(all_files, subj_file))
  }

  reward_versions = ddply(all_files, .(sID), summarize, rewardversion = rewardversion[1])
  write.csv(reward_versions, paste0(data_dir, "_rewardversions.csv"))
  print(paste("Read in data from", length(unique(all_files$sID)), "unique subjects (might be more simulations)."))
  summary(all_files)
  summary(subj_file)
  colnames(all_files)
  
  if (nrow(missed_trials) > 0) {  # Fingers crossed that this works
    write.csv(missed_trials, paste0(data_dir, "missed_trials.csv"))
  }
  
  return(all_files)
}
```

```{r Remaining fixes for all_filess}

finish_all_files = function(all_files) {
  
  # Sort all_files
  all_files = all_files[order(all_files$sID, all_files$TrialID),]
  
  # Remove missed trials
  all_files = subset(all_files, !is.na(reward))
  
  # Add columns
  all_files$outcome_21_back = paste(all_files$outcome_2_back, all_files$outcome_1_back)
  all_files$outcome_21_back = factor(all_files$outcome_21_back,
                                     levels = c("1 1", "0 1", "1 0", "0 0"),
                                     labels = c("both reward", "no reward, reward", "reward, no reward", "both no reward"))
  all_files$same_choice_01_back = all_files$choice_left == all_files$choice_1_back  # same choice in this trial as in the last?
  all_files$same_choice_12_back = all_files$choice_1_back == all_files$choice_2_back  # same choice in this trial as in the last?
  all_files$choice_12_back = ifelse(all_files$choice_1_back, "left", "right")
  all_files$choice_12_back[!all_files$same_choice_12_back | is.na(all_files$same_choice_12_back)] = NA
  all_files$reward_port = factor(all_files$correct_box, levels = c(0, 1), labels = c("Left", "Right"))

  xyz = ddply(all_files, .(sID, Gender, age_group), x = NA, summarize)
  ddply(xyz, .(age_group, Gender), summarize, n=length(age_group))
  
  # stay
  all_files$stay = with(all_files, c(choice_left == choice_1_back))
  # subset(all_files, select=c(sID, TrialID, choice_left, choice_1_back, ACC, selected_box, stay))
  
  # Part / section / block
  # ddply(all_files, .(sID), summarize, n_trials=max(TrialID))  # Most participants have 131 trials; a few early ones have ~156
  all_files$part = NA
  all_files$part[all_files$TrialID > 11] = 1
  all_files$part[all_files$TrialID > 11+1*40] = 2
  all_files$part[all_files$TrialID > 11+2*40] = 3
  all_files$part[all_files$TrialID > 11+3*40] = NA

  # Get win-stay and loose-shift trials
  all_files$win_stay = with(all_files, (outcome_1_back == 1) & (stay == 1))
  all_files$lose_shift = with(all_files, (outcome_1_back == 0) & (stay == 0))
  # subset(all_files, select=c(sID, TrialID, selected_box, reward, outcome_1_back, stay, win_stay, lose_shift))

  return(all_files)
}
```

```{r get_ACC_reward_subj}

add_age_group_yrs = function(data) {
  
  data$age_group_ = as.character(data$age_group)
  data$age_group_[data$age_group_ == "25%"] = 9
  data$age_group_[data$age_group_ == "50%"] = 11.5
  data$age_group_[data$age_group_ == "75%"] = 14
  data$age_group_[data$age_group_ == "100%"] = 16.5
  data$age_group_[data$age_group_ == "18-24"] = 21.5
  data$age_group_[data$age_group_ == "25-30"] = 27.5
  data$age_group_ = as.numeric(data$age_group_)
  
  return(data)
}

get_ACC_reward_subj = function(all_files) {
    
  # ACC_subj
  ACC_subj = ddply(all_files,
                   .(sID, Gender, T_group, meanT, age_group, PDS_group, PDS, PreciseYrs, Columbia_cat, trialsinceswitch, model_name), summarize,  # 2020/06/02: replaced log_T with meanT after re-reading Sarah's methods
                   ACC = mean(ACC, na.rm=T))  # to make sure error bars are right
  ACC_subj = add_age_group_yrs(ACC_subj)
  
  ACC_subj_block = ddply(all_files,
                   .(sID, Gender, T_group, meanT, age_group, PDS_group, PDS, PreciseYrs, Columbia_cat, trialsinceswitch, model_name, part), summarize,
                   ACC = mean(ACC, na.rm=T))  # to make sure error bars are right
  
  # reward_subj
  reward_subj = ddply(subset(all_files, !is.na(outcome_21_back) & !is.na(choice_12_back)),
                      .(sID, Gender, PDS, T_group, PDS_group, meanT, Columbia_cat, outcome_21_back, age_group, model_name, PreciseYrs), summarize,
                      stay = mean(same_choice_01_back, na.rm = T))
  reward_subj = add_age_group_yrs(reward_subj)
  
  reward_subj_block = ddply(subset(all_files, !is.na(outcome_21_back) & !is.na(choice_12_back)),
                      .(sID, part, Gender, PDS, T_group, PDS_group, meanT, Columbia_cat, outcome_21_back, age_group, model_name, PreciseYrs), summarize,
                      stay = mean(same_choice_01_back, na.rm = T))
  
  # ACCs
  ACCs = ddply(all_files, .(sID, PreciseYrs, Gender, PDS, meanT, age_group, PDS_group, T_group), summarize,
               mean_ACC = mean(ACC, na.rm=T),
               mean_reward = mean(reward, na.rm=T),
               mean_stay = mean(stay, na.rm=T),
               n_switches=120 * mean(switch_trial, na.rm=T),
               p_switch=mean(switch_trial, na.rm=T),
               n_fast_RTs=sum(RT<100, na.rm=T),
               # median_RT=median(RT, na.rm=T),
               n_trials=length(RT))
  ACCs$median_cor_RT = ddply(subset(all_files, ACC==T), .(sID, PreciseYrs, Gender, PDS, age_group, PDS_group, T_group), summarize,
               median_cor_RT = median(RT, na.rm=T))$median_cor_RT
  ACCs = add_age_group_yrs(ACCs)
  
  return(list(ACC_subj, ACC_subj_block, reward_subj, reward_subj_block, ACCs))
}
```

## Analyzing behavior

```{r Exclusion}

plot_indivduals_for_exclusion = function(all_files, exclude_UCB) {
  
  # Overall behavior for each participant
  ACCs = ddply(all_files, .(sID, PreciseYrs, Gender, PDS, meanT, age_group), summarize,
               mean_ACC = mean(ACC, na.rm=T),
               n_switches=120 * mean(switch_trial, na.rm=T),
               n_fast_RTs=sum(RT<100, na.rm=T),
               mean_RT=mean(RT, na.rm=T),
               n_trials=length(RT))
  
  mean(ACCs$n_switches)
  sd(ACCs$n_switches)
  
  # Sort by ACC
  ACCs = ACCs[order(ACCs$mean_ACC),]
  ACCs$ACC_ix = 1:nrow(ACCs)
  
  # Sort by number of switches
  ACCs = ACCs[order(ACCs$n_switches),]
  ACCs$switch_ix = 1:nrow(ACCs)
  
  # Sort by number of <100msec trial
  ACCs = ACCs[order(ACCs$n_fast_RTs),]
  ACCs$fast_ix = 1:nrow(ACCs)
  
  # Plot each one
  gg_0excl_ACC = ggplot(ACCs, aes(ACC_ix, mean_ACC, color=PreciseYrs)) +
    geom_point()
  
  gg_0excl_switch = ggplot(ACCs, aes(switch_ix, n_switches, color=PreciseYrs)) +
    geom_point()
  
  gg_0excl_fast = ggplot(ACCs, aes(fast_ix, n_fast_RTs, color=PreciseYrs)) +
    geom_point()
  
  # Tell us who'll be excluded
  special_excl = 1004
  gender_excl = sort(subset(ACCs, is.na(Gender))$sID)
  # PDS_excl = sort(subset(ACCs, is.na(PDS) & sID < 400)$sID)
  # T_excl = sort(subset(ACCs, is.na(meanT) & sID < 400)$sID)
  age_excl = sort(subset(ACCs, is.na(PreciseYrs))$sID)
  n_trials_excl = sort(subset(ACCs, n_trials < 120)$sID)
  switch_excl = sort(subset(ACCs, n_switches < 5)$sID)
  ACC_excl = sort(subset(ACCs, mean_ACC < 0.58)$sID)
  above30_excl = sort(subset(ACCs, PreciseYrs > 30)$sID)
  if (exclude_UCB) {
    above30_excl = c(above30_excl, subset(ACCs, sID > 400)$sID)
  }
  print("Excluding subject 1004.")
  print(paste("Participants missing gender:", paste(gender_excl, collapse=', '), "unsorted Ages:", paste(subset(ACCs, sID %in% gender_excl)$PreciseYrs, collapse=', ')))
  # print(paste("Participants missing PDS:", paste(PDS_excl, collapse=', '), "unsorted Ages:", paste(subset(ACCs, sID %in% PDS_excl)$PreciseYrs, collapse=', ')))
  # print(paste("Participants missing T:", paste(T_excl, collapse=', '), "unsorted Ages:", paste(subset(ACCs, sID %in% T_excl)$PreciseYrs, collapse=', ')))
  print(paste("Participants with < 120 trials:", paste(n_trials_excl, collapse=', '), "unsorted Ages:", paste(subset(ACCs, sID %in% n_trials_excl)$PreciseYrs, collapse=', ')))
  print(paste("Participants with n_switches < 5:", paste(switch_excl, collapse=', '), "unsorted Ages:", paste(subset(ACCs, sID %in% switch_excl)$PreciseYrs, collapse=', ')))
  print(paste("Participants with mean_ACC < 0.58:", paste(ACC_excl, collapse=', '), "unsorted Ages:", paste(subset(ACCs, sID %in% ACC_excl)$PreciseYrs, collapse=', ')))
  print(paste("Participants > 30:", paste(above30_excl, collapse=', '), "unsorted Ages:", paste(subset(ACCs, sID %in% above30_excl)$PreciseYrs, collapse=', ')))
  all_excluded = unique(c(gender_excl, n_trials_excl, switch_excl, ACC_excl, above30_excl, special_excl))  # , PDS_excl, T_excl
  
  # Save plots
  ggsave(file.path(plot_dir, "/gg_0excl_ACC.eps"), gg_0excl_ACC)
  ggsave(file.path(plot_dir, "/gg_0excl_switch.eps"), gg_0excl_switch)
  ggsave(file.path(plot_dir, "/gg_0excl_fast.eps"), gg_0excl_fast)
  
  ggsave(file.path(plot_dir, "/gg_0excl_ACC.eps"), gg_0excl_ACC)
  ggsave(file.path(plot_dir, "/gg_0excl_switch.eps"), gg_0excl_switch)
  ggsave(file.path(plot_dir, "/gg_0excl_fast.eps"), gg_0excl_fast)
  
  return(all_excluded)
}
```

```{r Create regression data}

get_regression_dat = function(all_files) {
  
  all_files_regr = subset(all_files, select = c("sID", "TrialID", "Gender", "PreciseYrs", "PDS", "log_T", "age_group", "PDS_group", "T_group", "block", "reward", "selected_box", "model_name"))
  all_files_regr = all_files_regr[order(all_files_regr$model_name, all_files_regr$sID, all_files_regr$TrialID),]
  
  ## Age regressors
  all_files_regr$PreciseYrs2 = all_files_regr$PreciseYrs ^ 2
  all_files_regr$age_z = (all_files_regr$PreciseYrs - mean(all_files_regr$PreciseYrs)) / sd(all_files_regr$PreciseYrs)
  all_files_regr$age2_z = (all_files_regr$PreciseYrs2 - mean(all_files_regr$PreciseYrs2)) / sd(all_files_regr$PreciseYrs2)
  
  ## PDS regressors
  fem = subset(all_files_regr, (Gender == "Female") & (PreciseYrs < 18))
  mal = subset(all_files_regr, (Gender == "Male") & (PreciseYrs < 18))
  # all_files_regr$PDS_z = NA
  all_files_regr[(all_files_regr$Gender == "Female") & (all_files_regr$PreciseYrs < 18), "PDS_z"] = (fem$PDS - mean(fem$PDS, na.rm=T)) / sd(fem$PDS, na.rm=T)
  all_files_regr[(all_files_regr$Gender == "Male") & (all_files_regr$PreciseYrs < 18), "PDS_z"] = (mal$PDS - mean(mal$PDS, na.rm=T)) / sd(mal$PDS, na.rm=T)
  
  ## T regressors
  all_files_regr$T_z = NA
  all_files_regr[(all_files_regr$Gender == "Female") & (all_files_regr$PreciseYrs < 18), "T_z"] = (fem$log_T - mean(fem$log_T, na.rm=T)) / sd(fem$log_T, na.rm=T)
  all_files_regr[(all_files_regr$Gender == "Male") & (all_files_regr$PreciseYrs < 18), "T_z"] = (mal$log_T - mean(mal$log_T, na.rm=T)) / sd(mal$log_T, na.rm=T)
  all_files_regr$selected = as.numeric(as.character(factor(all_files_regr$selected_box, levels = c(0, 1), labels = c(-1, 1))))  # 0 / -1: left; +1: right
  
  ## Choice regressors
  all_files_regr$right_rew = all_files_regr$selected_box
  all_files_regr$right_rew[all_files_regr$reward == 0] = -all_files_regr$right_rew[all_files_regr$reward == 0]
  all_files_regr$left_rew = 1 - all_files_regr$selected_box
  all_files_regr$left_rew[all_files_regr$reward == 0] = -all_files_regr$left_rew[all_files_regr$reward == 0]
  
  ## Reward regressors
  all_files_regr$reward_orig = all_files_regr$reward  # reward == 1; noReward == 0
  all_files_regr$noReward = 1 - all_files_regr$reward  # noReward == 1; reward == 0
  all_files_regr$reward[all_files_regr$selected_box == 0] = -all_files_regr$reward[all_files_regr$selected_box == 0]  # reward[action_right] = 1; reward[action_left] = -1
  all_files_regr$noReward[all_files_regr$selected_box == 0] = -all_files_regr$noReward[all_files_regr$selected_box == 0]  # noReward[action_right] = 1; noReward[action_left] = -1
  all_files_regr$selected_box = factor(all_files_regr$selected_box)
  
  ## nback reward regressors
  reward_predictors = c("reward", "noReward")
  for (n in 1:10) {
    for (cond in reward_predictors) {
      col_name = paste0("back", n, cond)
      all_files_regr[, col_name] = c(rep(NA, n), all_files_regr[1:(nrow(all_files_regr)-n), cond])
    }
  }
  
  return(all_files_regr)
}

# subj_dat = subset(all_files_regr, sID == 22 & model_name == "Human")
# # subj_dat = subj_dat[order(subj_dat$TrialID),]
# ggplot(subj_dat, aes(TrialID, back1reward, color=factor(selected_box), group=1)) +
#   geom_point() #+
#   geom_line()
#   
# subset(subj_dat, select=c(TrialID, reward, back1reward))
```

```{r old}

run_regressions = function(all_files_regr) {
    
  # Run regression models for each subject, for each n in n-back
  nback_regr_dat = data.frame()
  reward_predictors = c("reward", "noReward")
  sel_rew_predictors = c("selected", "reward")
  choice_predictors = c("left_rew", "right_rew")
  
  # subj = all_files_regr$sID[1]
  for (subj in unique(all_files_regr$sID)) {
    subj_dat = subset(all_files_regr, sID == subj & !is.na(selected_box))
    
    if (nrow(subj_dat) > 0) {
      
      ## Add nback columns
      # n = 1
      for (n in 1:12) {
        # cond = choice_predictors[1]
        
        for (cond in c(choice_predictors, reward_predictors, sel_rew_predictors)) {
        # for (cond in c(reward_predictors)) {
          col_name = paste0("back", n, cond)
          subj_dat[,col_name] = c(rep(NA, n), subj_dat[1:(nrow(subj_dat)-n), cond])
        }
        
        ## Remove conditions with perfect predictors
        box_nor = mean(as.numeric(as.character(subset(subj_dat, back1reward == -1)$selected_box)))
        box_rew = mean(as.numeric(as.character(subset(subj_dat, back1reward == 1)$selected_box)))
        
        if (T) {#} ((!box_nor %in% c(0, 1)) * (!box_rew %in% c(0, 1))) {

          # ## Selected/rewarded model (predictors: selected [left: -1, right: +1], reward [left: -1, right: +1, none: 0])
          # sel_rew_formula = paste("selected_box ~", paste(paste0("back", n, sel_rew_predictors), collapse = " + "), "+ (1 | block)")
          # sel_rew_mod = glm(as.formula(sel_rew_formula),
          #           family = "binomial",
          #           data = subj_dat)
          # sel_rew_coefs = as.data.frame(summary(sel_rew_mod)$coef)
          # sel_rew_coefss = cbind(sID = subj, model = "selectedRewarded", predictor = rownames(sel_rew_coefs), back = n, data.frame(sel_rew_coefs, row.names = NULL))
  
          # ## Choice model (predictors: left_rew [reward: +1, no reward: -1, none: 0], right_rew [reward: +1, no reward: -1, none: 0])
          # choice_formula = paste("selected_box ~ ", paste(paste0("back", n, choice_predictors), collapse = " + "))
          # choice_mod = glm(as.formula(choice_formula),
          #           family = "binomial",
          #           data = subj_dat)
          # choice_coefs = as.data.frame(summary(choice_mod)$coef)
          # choice_coefss = cbind(sID = subj, model = "leftRight", predictor = rownames(choice_coefs), back = n, data.frame(choice_coefs, row.names = NULL))
  
          ## Reward model (predictors: reward [left: -1, right: +1, none: 0], no reward [left: -1, right: +1, none: 0])
          reward_formula = paste("selected_box ~", paste(paste0("back", n, reward_predictors), collapse = " + "))
          reward_mod = glm(as.formula(reward_formula),
                    family = "binomial", maxit=200,
                    data = subj_dat)
          reward_coefs = as.data.frame(summary(reward_mod)$coef)
          reward_coefss = cbind(sID = subj, model = "rewardNoReward", predictor = rownames(reward_coefs), back = n, data.frame(reward_coefs, row.names = NULL))
  
          # nback_regr_dat = rbind(nback_regr_dat, choice_coefss, reward_coefss, sel_rew_coefss)
          nback_regr_dat = rbind(nback_regr_dat, reward_coefss)
        }
      }
    }
  }
  # Beautify
  nback_regr_dat$predictor = gsub("back.", "", nback_regr_dat$predictor)
  nback_regr_dat$predictor = gsub("[0-99]", "", nback_regr_dat$predictor)
  
  nback_regr_dat$sig_Estimate = NA
  for (pred in unique(nback_regr_dat$predictor)) {
    for (ba in unique(nback_regr_dat$back)) {
      sub = subset(nback_regr_dat, predictor==pred & back==ba)
      z = (sub$Estimate - mean(sub$Estimate, na.rm=T)) / sd(sub$Estimate, na.rm=T)
      
      nback_regr_dat[nback_regr_dat$predictor==pred & nback_regr_dat$back==ba, "sig_Estimate"] = 2 * (1 / (1 + exp(-sub$Estimate))) - 1  # only tanh transform
      nback_regr_dat[nback_regr_dat$predictor==pred & nback_regr_dat$back==ba, "z_sig_Estimate"] = 2 * (1 / (1 + exp(-z))) - 1  # z-score, then tanh transform
    }
  }
      
  # Summarize over versions (for simulated_humans)
  nback_regr_dat = ddply(nback_regr_dat,
                         colnames(nback_regr_dat)[colnames(nback_regr_dat) != "version"],
                         summarize,
                         X = sID[1])
  
  return(nback_regr_dat)
}

# ggplot(nback_regr_dat, aes(Estimate, `Pr...z..`)) +
#   geom_point() +
#   geom_hline(yintercept=0.99)
# 
# ggplot(ddply(subset(nback_regr_dat, `Pr...z..` > 0.99), .(sID, predictor, back, Estimate, predictor), summarize, x=NA), aes(back, Estimate, color=predictor)) +
#   geom_point(position="jitter")
# 
# weird_regr_people = subset(nback_regr_dat, (Estimate > 18) | (Estimate < -5))
# subset(nback_regr_dat, (sID == 442) & (back == 1))
# 
# ggplot(subj_dat, aes(TrialID, back1reward, color=selected_box)) +
#   geom_point()
```

# Main script

```{r Load packages, set parameters}

library("ggplot2"); theme_set(theme_classic()); library("plyr"); library("reshape2"); library("R.matlab"); library("zoo"); library(lmerTest); library("ggfortify"); library("RColorBrewer")
# display.brewer.all(n=NULL, type="all", select=NULL, exact.n=TRUE, colorblindFriendly=T)

data_name = "HumAndSim"  # can be "PCsim" (only look at PC-based simulations), "HumAndSim" (look at human data and BF-&RL-simulated data), or "Hum" (just humans; leave out simulations)
model_class = ""  # can be "BF" or "RL". determines which models will be read in if data_name=="PCsim". otherwise, should be set to ""
exclude_UCB = F
colors_3and1 = c("#00D000", "#00C055", "#00B0AA", "#00A0FF", "gray60", "grey50")
colors_validation = brewer.pal(n=8, name="Set2")
colors_validation[2] = "black"
colors_validation = c(colors_validation, colors_validation)
parameter_names = c('alpha', 'beta', 'nalpha', 'calpha', 'cnalpha', 'p_switch', 'p_reward', 'persev')
desired_columns = c("sID", "selected_box", "p_right", "reward", "RT", "correct", "correct_box", "model_name")

# Directories of all the stuff
ages_file_dir = "C:/Users/maria/MEGAsync/SLCNdata/SLCNinfo2.csv"
human_data_dir = "C:/Users/maria/MEGAsync/SLCNdata/ProbSwitch"
param_file_dir = "C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/new_ML_models/MCMC/clustermodels/"
dir_to_all_simulations = 'C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/new_ML_models/MCMC/clustermodels/simulate/simulations'
PC_sim_data_dir = "C:/Users/maria/MEGAsync/SLCNdata/ProbSwitch/PC_sim_dat"
```

```{r get simulated data}

if (data_name == "PCsim") {
  
  plot_dir = file.path(PC_sim_data_dir, "Plots")
  if (!file.exists(plot_dir)){
      dir.create(plot_dir)
  }
  
  all_files = data.frame()
  nback_regr_dat = data.frame()
  reward_subj = data.frame()
  ACC_subj = data.frame()
  ACCs = data.frame()
    
  # Get simulated data
  patterns = paste0(c("PC_mean_", "PC1_plus_", "PC1_minus_", "PC2_plus_", "PC2_minus_", "PC3_plus_", "PC3_minus_", "PC4_plus_", "PC4_minus_"), model_class)
  for (patt in patterns) {
    print(patt)
    
    sim_all_files = get_data(PC_sim_data_dir, data_name, patt)
    sim_all_files = finish_all_files(sim_all_files)
    # excl_subj = plot_indivduals_for_exclusion(sim_all_files, exclude_UCB)
    # sim_all_files = subset(sim_all_files, !sID %in% excl_subj)
    sim_stuff = get_ACC_reward_subj(sim_all_files)
    sim_ACC_subj = sim_stuff[[1]]
    sim_reward_subj = sim_stuff[[3]]
    sim_ACCs = sim_stuff[[5]]
    sim_all_files_regr = get_regression_dat(sim_all_files)
    sim_nback_regr_dat = run_regressions(sim_all_files_regr)
    sim_nback_regr_dat$age_group = "A"
    
    sim_all_files$model_name = patt
    sim_all_files_regr$model_name = patt
    sim_nback_regr_dat$model_name = patt
    sim_reward_subj$model_name = patt
    sim_ACC_subj$model_name = patt
    sim_ACCs$model_name = patt
    
    all_files = rbind(all_files, sim_all_files)
    nback_regr_dat = rbind(nback_regr_dat, sim_nback_regr_dat)
    reward_subj = rbind(reward_subj, sim_reward_subj)
    ACC_subj = rbind(ACC_subj, sim_ACC_subj)
    ACCs = rbind(ACCs, sim_ACCs)
  }
  
  l = length(unique(all_files$model_name))  # to make figures wider
  
}
```

```{r Read in human and simulated data}

if ((data_name == "HumAndSim") | (data_name == "Hum")) {
  
  # Get human data
  plot_dir = file.path(human_data_dir, "Plots")
  if (!file.exists(plot_dir)){
      dir.create(plot_dir)
  }
  ages = get_ages(ages_file_dir)
  # all_files = get_data(human_data_dir, "human_mat", ".*mat")  # Read in mat files, clean, and write to csv; also write missing trials to csv
  all_files = get_data(human_data_dir, "human", ".*csv")  # Read in cleaned csv files
  all_files = merge(all_files, ages, all.x = T)
  all_files = finish_all_files(all_files)
  excl_subj = plot_indivduals_for_exclusion(all_files, exclude_UCB)
  all_files = subset(all_files, !sID %in% excl_subj)
  stuff = get_ACC_reward_subj(all_files)
  ACC_subj = stuff[[1]]
  reward_subj = stuff[[3]]
  ACCs = stuff[[5]]
  all_files_regr = get_regression_dat(all_files)
  nback_regr_dat = run_regressions(all_files_regr)
  nback_regr_dat = merge(nback_regr_dat, ages, all.x = T)
  nback_regr_dat = add_age_group_yrs(nback_regr_dat)
  
  all_files$model_name = "Human"
  all_files_regr$model_name = "Human"
  nback_regr_dat$model_name = "Human"
  reward_subj$model_name = "Human"
  ACC_subj$model_name = "Human"
  ACCs$model_name = "Human"
  
  l = 0  # don't make figures wider
}

if (data_name == "HumAndSim") {
  
  # Get simulated data
  data_dirs = list.dirs(dir_to_all_simulations, recursive=F)
  patt = ".*csv"
  
  for (data_dir in data_dirs) {
    # plot_dir = file.path(data_dir, "Plots")
    folder_name = strsplit(data_dir, "/")[[1]][length(strsplit(data_dir, "/")[[1]])]
    model_name = strsplit(folder_name, "_")[[1]][1]
    print(model_name)
  
    # Get data
    ages = get_ages(ages_file_dir)
    sim_all_files = get_data(data_dir, "simulated_human", ".*csv")
    sim_all_files = merge(sim_all_files, ages, all.x = T)
    sim_all_files = finish_all_files(sim_all_files)
  
    # Exclude subjects
    sim_excl_subj = plot_indivduals_for_exclusion(sim_all_files, exclude_UCB)
    sim_all_files = subset(sim_all_files, !sID %in% sim_excl_subj)
  
    # Create summary data
    sim_stuff = get_ACC_reward_subj(sim_all_files)  # ACC_subj, ACC_subj_block, reward_subj, reward_subj_block, ACCs
    sim_ACC_subj = sim_stuff[[1]]
    sim_reward_subj = sim_stuff[[3]]
    sim_ACCs = sim_stuff[[5]]
    sim_all_files_regr = get_regression_dat(sim_all_files)
    sim_nback_regr_dat = run_regressions(sim_all_files_regr)
    sim_nback_regr_dat = merge(sim_nback_regr_dat, ages, all.x = T)
    sim_nback_regr_dat = add_age_group_yrs(sim_nback_regr_dat)
  
    sim_all_files$model_name = model_name
    sim_all_files_regr$model_name = model_name
    sim_nback_regr_dat$model_name = model_name
    sim_reward_subj$model_name = model_name
    sim_ACC_subj$model_name = model_name
    sim_ACCs$model_name = model_name
  
    all_files = rbind(all_files, sim_all_files)
    all_files_regr = rbind(all_files_regr, sim_all_files_regr)
    nback_regr_dat = rbind(nback_regr_dat, sim_nback_regr_dat)
    reward_subj = rbind(reward_subj, sim_reward_subj)
    ACC_subj = rbind(ACC_subj, sim_ACC_subj)
    ACCs = rbind(ACCs, sim_ACCs)
  }
}
```

```{r Create Meta file}

# Columns needed
# - DONE Overall accuracy
# - DONE Percent stay trials in terms of choice (e.g., same butterfly chosen as the previous this flower came up)
# - DONE Percent stay trials in terms of motor response (i.e., same button press as on previous trial)
# - DONE Percent win-stay trials
# - DONE Percent lose-shift trials
# - DONE Overall RTs (correct trials only; mean; no transformation)
# - DONE Percent missed trials (too slow, no button press)
# - DONE RTs early, middle, late (same)
# - DONE Accuracy early, middle, late (first third, second third, last third of trials)
# - DONE lose-win-stay & win-lose-stay
# - DONE Number of switches

# Missing trials
missed_trials = read.csv(paste0(human_data_dir, "/missed_trials.csv"))
missed_trials$X = NULL
sum_missed = ddply(missed_trials, .(sID), summarize, n_missed=length(sID))
sum_missed$percent_missed = sum_missed$n_missed / max(all_files$TrialID)
sum_missed$n_missed = NULL
dim(sum_missed)

# Overall ACC, stay, win_stay, lose_shift, RTs
sum_ACC = ddply(all_files, .(sID), summarize,
                ACC=mean(ACC, na.rm=T), stay=mean(stay, na.rm=T))
sum_RT = ddply(subset(all_files, ACC==1), .(sID), summarize, RTsd=sd(RT, na.rm=T), RT=mean(RT, na.rm=T))
sum_switches = ddply(all_files, .(sID), summarize, n_switches=sum(switch_trial))

sum_dat = merge(merge(sum_ACC, sum_RT), sum_switches)

# Check
dim(sum_dat)  # should be 1 row per subject (291 total)
(g = ggplot(sum_dat, aes(sID, ACC, color=sID)) +
  geom_point(position="jitter"))
# g + aes(y=RT)
# g + aes(y=win_stay)
# g + aes(y=lose_shift)

# Overall win-lose-stay and lose-win-stay
win_lose_stay =
  ddply(subset(all_files, (outcome_21_back=="reward, no reward") & (same_choice_12_back==T)),
      .(sID), summarize,
      WLS=mean(stay))
lose_win_stay =
  ddply(subset(all_files, (outcome_21_back=="no reward, reward") & (same_choice_12_back==T)),
      .(sID), summarize,
      LWS=mean(stay))
wsls2 = merge(win_lose_stay, lose_win_stay, all=T, by="sID")

win_stay = 
  ddply(subset(all_files, outcome_1_back==1),
      .(sID), summarize,
      WS=mean(stay))
lose_stay = 
  ddply(subset(all_files, outcome_1_back==0),
      .(sID), summarize,
      LS=mean(stay))
wsls1 = merge(win_stay, lose_stay, all=T, by="sID")

# Check
wsls = merge(wsls2, wsls1, by='sID')

# By parts: ACC, stay, win_stay, lose_shift, RTs
part_sum = ddply(all_files, .(sID, part), summarize,
                 ACC=mean(ACC, na.rm=T), stay=mean(stay, na.rm=T))
part_RTs = ddply(subset(all_files, ACC==1), .(sID, part), summarize, RTsd=sd(RT, na.rm=T), RT=mean(RT, na.rm=T))

parts = merge(part_sum, part_RTs)
parts = subset(parts, !is.na(part))

# Check
dim(parts)  # Should have 3 parts per person, i.e., 3 * 291 = 873 rows
(g = ggplot(parts, aes(part, ACC, color=sID)) +
  stat_summary(geom="bar") +
  geom_point(position="jitter"))
g + aes(y=RT)

# Combine everything
parts_wide = reshape(parts, timevar="part", idvar=c("sID"), direction="wide")
dim(parts_wide)  # should be 1 row per subject (291 total)

ps_params = read.csv("C:/Users/maria/MEGAsync/SLCNdata/Meta/ProbSwitch_base.csv")
dim(ps_params)
sum_dat = merge(merge(ps_params, sum_dat), parts_wide)
sum_dat = merge(sum_dat, sum_missed, all.x = T)
sum_dat$percent_missed[is.na(sum_dat$percent_missed)] = 0  # Replace NA rows (no missed trials) with 0 (0 missed trials)

sum_dat = merge(sum_dat, wsls, all.x=T, by='sID')

# Add criterion trial (need to run chunk 16 before!)
sum_dat = merge(sum_dat, subset(crit_sum, select=c("sID", "criterion_trial")), all.x=T)

# Check
dim(sum_dat)
(g = ggplot(sum_dat, aes(sID, ACC, color=sID)) +
  geom_point(position="jitter")) +
  geom_smooth()
g + aes(y=ACC.1)

write.csv(sum_dat, "C:/Users/maria/MEGAsync/SLCNdata/Meta/ProbSwitch.csv")
```

```{r Numbers of trials for each participant (they differ! Calculate averages instead of counting!)}

(ggplot(ACCs, aes(n_trials, fill=model_name))
  + geom_histogram()
)
```

```{r Comparing "++" and "-+" trials to see differences between RL and BI}

# Create dataframe for plotting
## Select relevant trials (reward history "rew rew" and "nor rew")
RLBI_dat_all = subset(all_files, outcome_21_back %in% c("both reward", "no reward, reward"))
RLBI_dat = ddply(RLBI_dat_all, .(sID, model_name, PreciseYrs, outcome_21_back), summarize, stay = mean(stay, na.rm=T))

## Calculate difference between both
RLBI_wide = reshape(RLBI_dat, timevar="outcome_21_back", idvar=c("sID", "PreciseYrs", "model_name"), direction="wide")

# for (colname in colnames(RLBI_wide)) {
#   if (" " %in% colname) {
#     print(colname)
#   }
# }
colnames(RLBI_wide) = c("sID", "model_name", "PreciseYrs", "stay_rew_rew", "stay_nor_rew")
RLBI_wide$rew_minus_nor = with(RLBI_wide, stay_rew_rew - stay_nor_rew)
RLBI_wide$model_name = factor(RLBI_wide$model_name, levels = c("Human", "RLabnp2", "Bbspr"))

# Make plots
(s_RLBI_rew_nor = ggplot(RLBI_wide, aes(model_name, rew_minus_nor, fill=model_name)) +
  # geom_point(position="jitter") +
  stat_summary(geom="bar", position=position_dodge(width=0.9)) +
  stat_summary(geom="pointrange", position=position_dodge(width=0.9)) +
  labs(x = "", y = "Difference in stay between reward-reward and noReward-reward (%)")
)

(s_RLBI_rew_nor_age = ggplot(subset(RLBI_wide, model_name == "Human"), aes(PreciseYrs, rew_minus_nor)) +
  geom_point(position="jitter") +
  geom_smooth()
)

# Save plot
ggsave(file.path(plot_dir, paste0(model_class, "s_RLBI_rew_nor.png")), s_RLBI_rew_nor, width=3.5, height=3.5)
ggsave(file.path(plot_dir, paste0(model_class, "s_RLBI_rew_nor.eps")), s_RLBI_rew_nor, width=3.5, height=3.5)

# T-test
for (model_n in levels(as.factor(RLBI_wide$model_name))) {
  print(model_n)
  print(t.test(subset(RLBI_wide, model_name == model_n)$rew_minus_nor))
}
```

```{r Sample Composition}

# Prepare data
dat = ddply(ACC_subj, .(sID, Gender, age_group, PDS_group, T_group, PreciseYrs, PDS, meanT), summarize, x=NA)

# Plot
(s_agegroup_n = ggplot(dat, aes(age_group, fill=age_group)) +
  geom_histogram(stat="count") +
  scale_fill_manual(values=colors_3and1) +
  labs(x="", y="Participant n") +
  facet_grid(~ Gender))

s_PDSgroup_n = s_agegroup_n +
  aes(x=PDS_group, fill=PDS_group)
s_PDSgroup_n$data = subset(s_PDSgroup_n$data, !is.na(PDS_group))
s_Tgroup_n = s_agegroup_n +
  aes(x=T_group, fill=T_group)
s_Tgroup_n$data = subset(s_Tgroup_n$data, !is.na(T_group))

# Get borders of each group
ddply(dat, .(Gender, PDS_group), summarize, min=min(PDS, na.rm=T), max=max(PDS, na.rm=T))
ddply(dat, .(Gender, T_group), summarize, min=min(meanT, na.rm=T), max=max(meanT, na.rm=T))

# Save plots
ggsave(file.path(plot_dir, paste0(model_class, "s_agegroup_n.eps")), s_agegroup_n, width=5, height=2)
ggsave(file.path(plot_dir, paste0(model_class, "s_PDSgroup_n.eps")), s_PDSgroup_n, width=5, height=2)
ggsave(file.path(plot_dir, paste0(model_class, "s_Tgroup_n.eps")), s_Tgroup_n, width=5, height=2)
```

```{r Basic Performance (adjust to task switches, 2-trial reward history) - No age analyses}

# Adjust to task switches
dat = ddply(ACC_subj, .(sID, Gender, age_group, T_group, PDS_group, model_name, trialsinceswitch), summarize, ACC=mean(ACC))
(a_trialsinceswitch_ACC =
  ggplot(dat, aes(trialsinceswitch, 100 * ACC)) + 
  geom_vline(xintercept = 0, linetype = "dotted") +
  stat_summary(fun.data = mean_se, geom = "errorbar", width=0) +
  stat_summary(fun.data = mean_se, geom = "line") +
  coord_cartesian(x = c(-3, 7), y = c(0, 100)) +
  scale_x_continuous(breaks = seq(-3, 7, 2)) +
  labs(x = "Trials since switch", y = "% correct") +
  facet_grid(~ model_name))

s_trialsinceswitch_ACC_agegroup = a_trialsinceswitch_ACC +
  aes(color=age_group) +
  scale_color_manual(values=colors_3and1) +
  theme(legend.position="none")
s_trialsinceswitch_ACC_Tgroup = a_trialsinceswitch_ACC +
  aes(color=T_group) +
  scale_color_manual(values=colors_3and1)
s_trialsinceswitch_ACC_PDSgroup = a_trialsinceswitch_ACC +
  aes(color=T_group) +
  scale_color_manual(values=colors_3and1)

# 2-trial reward history
dat = ddply(reward_subj, .(sID, Gender, age_group, T_group, PDS_group, model_name, outcome_21_back), summarize, stay=mean(stay))
(a_outcome12back_stay =
  ggplot(dat, aes(outcome_21_back, 100 * stay)) +
  stat_summary(fun.data = mean_se, geom = "bar", position = "dodge") +
  stat_summary(fun.data = mean_se, geom = "errorbar", position = position_dodge(0.9), width=0) +  # or "pointrante" with size=.02
  theme(axis.text.x = element_text(angle = -30, hjust = 0.2)) +
  coord_cartesian(ylim = c(0, 100)) +
  labs(x = "Previous outcomes", y = "% stay", fill = "Age") +
  facet_grid( ~ model_name))

s_outcome12back_stay_agegroup = a_outcome12back_stay +
  aes(fill=age_group) +
  scale_fill_manual(values=colors_3and1)
s_outcome12back_stay_Tgroup = a_outcome12back_stay +
  aes(fill=T_group) +
  scale_fill_manual(values=colors_3and1)
s_outcome12back_stay_Tgroup$data = subset(s_outcome12back_stay_Tgroup$data, !is.na(T_group))
s_outcome12back_stay_PDSgroup = a_outcome12back_stay +
  aes(fill=PDS_group) +
  scale_fill_manual(values=colors_3and1)
s_outcome12back_stay_PDSgroup$data = subset(s_outcome12back_stay_PDSgroup$data, !is.na(PDS_group))
  
# Save plots
ggsave(file.path(plot_dir, paste0(model_class, "a_trialsinceswitch_ACC.eps")), a_trialsinceswitch_ACC, width=5 + l, height=2)
ggsave(file.path(plot_dir, paste0(model_class, "a_outcome12back_stay.eps")), a_outcome12back_stay, width=3 + l/2, height=2)
ggsave(file.path(plot_dir, paste0(model_class, "a_trialsinceswitch_ACC.png")), a_trialsinceswitch_ACC, width=5 + l, height=2)
ggsave(file.path(plot_dir, paste0(model_class, "a_outcome12back_stay.png")), a_outcome12back_stay, width=3 + l/2, height=2)

ggsave(file.path(plot_dir, paste0(model_class, "s_trialsinceswitch_ACC_agegroup.eps")), s_trialsinceswitch_ACC_agegroup, width=5, height=2)
ggsave(file.path(plot_dir, paste0(model_class, "s_trialsinceswitch_ACC_Tgroup.eps")), s_trialsinceswitch_ACC_agegroup, width=5, height=2)
ggsave(file.path(plot_dir, paste0(model_class, "s_trialsinceswitch_ACC_PDSgroup.eps")), s_trialsinceswitch_ACC_agegroup, width=5, height=2)
ggsave(file.path(plot_dir, paste0(model_class, "s_outcome12back_stay_agegroup.eps")), s_outcome12back_stay_agegroup, width=5, height=2)
ggsave(file.path(plot_dir, paste0(model_class, "s_outcome12back_stay_Tgroup.eps")), s_outcome12back_stay_agegroup, width=5, height=2)
ggsave(file.path(plot_dir, paste0(model_class, "s_outcome12back_stay_PDSgroup.eps")), s_outcome12back_stay_agegroup, width=5, height=2)
```

```{r Basic measures - Age differences and Model validation}

# Correct over age - age bins
(c_age_ACC_validation =
  ggplot(ACCs, aes(age_group, 100 * mean_ACC, group=model_name, color=model_name, linetype=model_name!="Human")) +  # 
  stat_summary() +
  scale_color_manual(values=colors_validation) +
  stat_summary(geom='line'))

s_PDS_ACC_validation = c_age_ACC_validation +
  aes(x=PDS_group)
s_PDS_ACC_validation$data = subset(s_PDS_ACC_validation$data, !is.na(PDS_group))
s_T_ACC_validation = c_age_ACC_validation +
  aes(x=T_group)
s_T_ACC_validation$data = subset(s_T_ACC_validation$data, !is.na(T_group))

# Correct over age - continuous age
(b_age_ACC =
  ggplot(ACCs, aes(x=PreciseYrs, y=100 * mean_ACC, color=Gender, group=1)) +
  geom_point(size=0.3) +
  geom_smooth(method="lm", formula=y ~ x + I(x^2), color="black", size=0.5, alpha=0.3) +
  facet_wrap(~ model_name))

b_PDS_ACC = b_age_ACC +
  aes(x=PDS)
b_PDS_ACC$data = subset(b_PDS_ACC$data, !is.na(PDS) & PreciseYrs < 18)  # exclude adults
b_T_ACC = b_age_ACC +
  aes(x=meanT)
b_T_ACC$data = subset(b_T_ACC$data, !is.na(meanT) & PreciseYrs < 18)  # exclude adults

# Points over age - age bins
(c_age_points_validation = c_age_ACC_validation + aes(y=120 * mean_reward))

s_PDS_points_validation = c_age_points_validation +
  aes(x=PDS_group)
s_PDS_points_validation$data = subset(s_PDS_points_validation$data, !is.na(PDS_group))
s_T_points_validation = c_age_points_validation +
  aes(x=T_group)
s_T_points_validation$data = subset(s_T_points_validation$data, !is.na(T_group))

# Points over age - continuous age
(b_age_points = b_age_ACC + aes(y=120*mean_reward))
  
b_PDS_points = b_age_points +
  aes(x=PDS)
b_PDS_points$data = subset(b_PDS_points$data, !is.na(PDS) & PreciseYrs < 18)  # exclude adults
b_T_points = b_age_points +
  aes(x=meanT)
b_T_points$data = subset(b_T_points$data, !is.na(meanT) & PreciseYrs < 18)  # exclude adults

# N_switches over age - age bins
(c_age_nswitch_validation = c_age_ACC_validation + aes(y=n_switches))

s_PDS_nswitch_validation = c_age_nswitch_validation +
  aes(x=PDS_group)
s_PDS_nswitch_validation$data = subset(s_PDS_nswitch_validation$data, !is.na(PDS_group))
s_T_nswitch_validation = c_age_nswitch_validation +
  aes(x=T_group)
s_T_nswitch_validation$data = subset(s_T_nswitch_validation$data, !is.na(T_group))

# N_switches over age - continuous age
(b_age_nswitch = b_age_ACC + aes(y=120*mean_reward))

b_PDS_nswitch = b_age_nswitch +
  aes(x=PDS)
b_PDS_nswitch$data = subset(b_PDS_nswitch$data, !is.na(PDS) & PreciseYrs < 18)  # exclude adults
b_T_nswitch = b_age_nswitch +
  aes(x=meanT)
b_T_nswitch$data = subset(b_T_nswitch$data, !is.na(meanT) & PreciseYrs < 18)  # exclude adults

# Stay over age - continuous
(b_age_stay =
    b_age_ACC + aes(y=100 * mean_stay))

b_PDS_stay = b_age_stay +
  aes(x=PDS)
b_PDS_stay$data = subset(b_PDS_stay$data, !is.na(PDS) & PreciseYrs < 18)
b_T_stay = b_age_stay +
  aes(x=meanT)
b_T_stay$data = subset(b_T_stay$data, !is.na(meanT) & PreciseYrs < 18)

# Stay over age - bins
(c_age_stay_validation =
  c_age_ACC_validation + aes(y=mean_stay))

s_PDS_stay_validation = c_age_stay_validation +
  aes(x=PDS_group)
s_PDS_stay_validation$data = subset(s_PDS_stay_validation$data, !is.na(PDS_group))
s_T_stay_validation = c_age_stay_validation +
  aes(x=T_group)
s_T_stay_validation$data = subset(s_T_stay_validation$data, !is.na(T_group))

# RTs across age - continuous
(b_age_RT = 
    b_age_ACC + aes(y=median_cor_RT, group=Gender) +
    geom_smooth(method="lm", formula=y ~ x + I(x^2), size=0.5, alpha=0.1))

b_PDS_RT = b_age_RT +
  aes(x=PDS)
b_PDS_RT$data = subset(b_PDS_RT$data, !is.na(PDS) & PreciseYrs < 18)
b_T_RT = b_age_RT +
  aes(x=meanT)
b_T_RT$data = subset(b_T_RT$data, !is.na(meanT) & PreciseYrs < 18)

# RTs across age - bins
(c_age_RT_validation =
  c_age_ACC_validation + aes(y=median_cor_RT, color=Gender, group=Gender) +
  scale_color_manual(values=c("#F8766D", "#00BFC4")))
  
s_PDS_RT_validation = c_age_RT_validation +
  aes(x=PDS_group)
s_PDS_RT_validation$data = subset(s_PDS_RT_validation$data, !is.na(PDS_group))
s_T_RT_validation = c_age_RT_validation +
  aes(x=T_group)
s_T_RT_validation$data = subset(s_T_RT_validation$data, !is.na(T_group))

# Save plots
ggsave(file.path(plot_dir, paste0(model_class, "b_age_ACC.eps")), b_age_ACC, width=6, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "b_PDS_ACC.eps")), b_PDS_ACC, width=6, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "b_T_ACC.eps")), b_T_ACC, width=6, height=3)

ggsave(file.path(plot_dir, paste0(model_class, "b_age_points.eps")), b_age_points, width=6, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "b_age_nswitch.eps")), b_age_nswitch, width=6, height=3)

ggsave(file.path(plot_dir, paste0(model_class, "b_age_stay.eps")), b_age_stay, width=6, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "b_PDS_stay.eps")), b_PDS_stay, width=6, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "b_T_stay.eps")), b_T_stay, width=6, height=3)

ggsave(file.path(plot_dir, paste0(model_class, "b_age_RT.eps")), b_age_RT, width=6, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "b_PDS_RT.eps")), b_PDS_RT, width=6, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "b_T_RT.eps")), b_T_RT, width=6, height=3)

ggsave(file.path(plot_dir, paste0(model_class, "c_age_ACC_validation.eps")), c_age_ACC_validation, width=5, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "s_PDS_ACC_validation.eps")), s_PDS_ACC_validation, width=5, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "s_T_ACC_validation.eps")), s_T_ACC_validation, width=5, height=3)

ggsave(file.path(plot_dir, paste0(model_class, "c_age_points_validation.eps")), c_age_points_validation, width=5, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "c_age_nswitch_validation.eps")), c_age_nswitch_validation, width=5, height=3)

ggsave(file.path(plot_dir, paste0(model_class, "c_age_stay_validation.eps")), c_age_stay_validation, width=5, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "s_PDS_stay_validation.eps")), s_PDS_stay_validation, width=5, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "s_T_stay_validation.eps")), s_PDS_stay_validation, width=5, height=3)

ggsave(file.path(plot_dir, paste0(model_class, "c_age_points_validation.eps")), c_age_points_validation, width=5, height=3)

ggsave(file.path(plot_dir, paste0(model_class, "c_age_RT_validation.eps")), c_age_RT_validation, width=5, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "s_PDS_RT_validation.eps")), s_PDS_RT_validation, width=5, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "s_T_RT_validation.eps")), s_T_RT_validation, width=5, height=3)
```

```{r Same measures - continuous puberty within age bins}

# Correct
(s_PDSwAge_ACC = ggplot(subset(ACCs, PreciseYrs < 18 & model_name == "Human"),
                       aes(PDS, 100 * mean_ACC, color=Gender)) +
  geom_point() +
  geom_smooth(method="lm", formula=y ~ x, color="black", size=0.5, alpha=0.3) +
  facet_grid(~ age_group)
)
s_PDSwAge_ACC$data = subset(s_PDSwAge_ACC$data, !is.na(PDS))

s_TwAge_ACC = s_PDSwAge_ACC +
  aes(x=meanT)
s_TwAge_ACC$data = subset(s_PDSwAge_ACC$data, !is.na(meanT))

# Stay
s_PDSwAge_stay = s_PDSwAge_ACC +
  aes(y=100 * mean_stay)

s_TwAge_stay = s_PDSwAge_stay +
  aes(x=meanT)
s_TwAge_stay$data = subset(s_PDSwAge_ACC$data, !is.na(meanT))

# RTs
s_PDSwAge_RT = s_PDSwAge_ACC +
  aes(y=median_cor_RT)

s_TwAge_RT = s_PDSwAge_RT +
  aes(x=meanT)
s_TwAge_RT$data = subset(s_PDSwAge_RT$data, !is.na(meanT))

# Save plots
ggsave(file.path(plot_dir, paste0(model_class, "s_PDSwAge_ACC.eps")), s_PDSwAge_ACC, width=8, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "s_TwAge_ACC.eps")), s_TwAge_ACC, width=8, height=3)

ggsave(file.path(plot_dir, paste0(model_class, "s_PDSwAge_stay.eps")), s_PDSwAge_stay, width=8, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "s_TwAge_stay.eps")), s_TwAge_stay, width=8, height=3)

ggsave(file.path(plot_dir, paste0(model_class, "s_PDSwAge_RT.eps")), s_PDSwAge_RT, width=8, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "s_TwAge_RT.eps")), s_TwAge_RT, width=8, height=3)
```

```{r Switch speed criterion trial}

# Add criterion
crit_max = 10
crit_n_correct = 2

switch_dat = subset(all_files, trialsinceswitch %in% 0:crit_max)
criterion_dat = data.frame()

for (modeli in unique(switch_dat$model_name)) {
  for (sIDi in unique(switch_dat$sID)) {
    for (blocki in sort(unique(subset(switch_dat, model_name == modeli & sID == sIDi)$block))) {
      
      sub_dat = subset(switch_dat, model_name == modeli & sID == sIDi & block == blocki)
      sub_dat = sub_dat[order(sub_dat$model_name, sub_dat$sID, sub_dat$TrialID),]
      sub_dat$criterion = cumsum(sub_dat$ACC)
      sub_dat$block_trial = 1:nrow(sub_dat)
      
      crit_row = subset(sub_dat, criterion == crit_n_correct)
      if ((nrow(crit_row) == 0) & (nrow(sub_dat) == crit_max+1)) {   # Criterion was not reached even though participant had enough trials
        print(paste("didn't reach criterion", crit_n_correct, ".", modeli, sIDi, blocki))
        crit_row = sub_dat[1,]
        crit_row$block_trial = crit_max
      }
      criterion_dat = rbind(criterion_dat, crit_row[1,])
    }
  }
}

criterion_dat$PreciseYrs2 = (criterion_dat$PreciseYrs) ^ 2

crit_sum = ddply(criterion_dat, .(sID, age_group, PDS_group, T_group, PreciseYrs, sID, Gender, model_name), summarize, criterion_trial = mean(block_trial, na.rm=T))
crit_sum = subset(crit_sum, !is.na(age_group))

switch_mod = lmer(block_trial ~ PreciseYrs + PreciseYrs2 + TrialID + Gender + (1 | sID), data=subset(criterion_dat, model_name == "Human"))
summary(switch_mod)

# Plot criterion over age
b_age_switch = b_age_ACC + aes(y=criterion_trial) + facet_grid(~ model_name)
b_age_switch$data = crit_sum
print(b_age_switch)

c_age_switch_validation = c_age_ACC_validation + aes(y=criterion_trial) #+ geom_point(alpha=0.3) + facet_grid(~ model_name)
c_age_switch_validation$data = crit_sum
print(c_age_switch_validation)

s_PDS_switch_validation = c_age_switch_validation +
  aes(x=PDS_group)
s_PDS_switch_validation$data = subset(s_PDS_switch_validation$data, !is.na(PDS_group))
s_T_switch_validation = c_age_switch_validation +
  aes(x=T_group)
s_T_switch_validation$data = subset(s_T_switch_validation$data, !is.na(PDS_group))

# Save plots
ggsave(file.path(plot_dir, paste0(model_class, "b_age_switch.png")), b_age_switch, width=6, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "c_age_switch_validation.png")), c_age_switch_validation, width=5, height=3)

ggsave(file.path(plot_dir, paste0(model_class, "b_age_switch.svg")), b_age_switch, width=6, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "c_age_switch_validation.eps")), c_age_switch_validation, width=5, height=3)

ggsave(file.path(plot_dir, paste0(model_class, "s_PDS_switch_validation.eps")), s_PDS_switch_validation, width=5, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "s_T_switch_validation.eps")), s_T_switch_validation, width=5, height=3)
```

```{r Exponential fit to switch}

sigmoid = function(params, x) {
  params[1] / (1 + exp(-params[2] * x))
}

x = 0:4
sub_dat = subset(ACC_subj, trialsinceswitch %in% x)
summary(log(sub_dat$ACC))
log(1.1)
exp(1)
exp_mod = lmer(log(ACC+1e-5) ~ trialsinceswitch + (1|sID), data=sub_dat)
log_mod = lmer(exp(ACC) ~ trialsinceswitch + (1|sID), data=sub_dat)
qua_mod = lmer(ACC^2 ~ trialsinceswitch + (1|sID), data=sub_dat)
sig_mod = nls(ACC ~ a/(1 + exp(-b * trialsinceswitch)),
               start=list(a=1, b=.5),
               data=sub_dat)

summary(exp_mod)
summary(log_mod)
summary(qua_mod)
summary(sig_mod)

sub_dat$pred_ACC_exp = exp(predict(exp_mod))
sub_dat$pred_ACC_log = log(predict(log_mod))
sub_dat$pred_ACC_qua = sqrt(predict(qua_mod))
sub_dat$pred_ACC_sig = sigmoid(coef(sig_mod), sub_dat$trialsinceswitch)

ggplot(sub_dat, aes(trialsinceswitch, ACC)) +
  geom_point(aes(color=sID, group=sID), alpha=0.3) +
  geom_line(aes(color=sID, group=sID), alpha=0.3) +
  stat_summary() +
  stat_summary(geom="line") +
  geom_point(aes(y=pred_ACC_log), color="green") +
  geom_line(aes(y=pred_ACC_log), color="green") +
  geom_point(aes(y=pred_ACC_qua), color="red") +
  geom_line(aes(y=pred_ACC_qua), color="red") +
  geom_point(aes(y=pred_ACC_sig), color="orange") +
  geom_line(aes(y=pred_ACC_sig), color="orange")

# for (s in unique(sub_dat$sID)) {
#   
#   # Get subject data
#   subj_dat = subset(sub_dat, sID==s)
#   
#   # Fit regression
#   qua_mod = lm(ACC^2 ~ trialsinceswitch, data=subj_dat)
#   log_mod = lm(exp(ACC) ~ trialsinceswitch, data=subj_dat)
#   sig_mod = nls(ACC ~ a / (1 + exp(-b * (trialsinceswitch - c))),
#                 start=list(a=1, b=0.5, c=25),
#                 data=sub_dat)
#   
#   subj_dat$pred_ACC_qua = sqrt(predict(qua_mod, subj_dat))
#   subj_dat$pred_ACC_log = log(predict(log_mod, subj_dat))
#   
#   ggplot(subj_dat, aes(trialsinceswitch, ACC)) +
#     geom_point() +
#     geom_point(aes(y=pred_ACC_log), color="red")
# }
```

```{r Specific measures - Age differences and Model validation}

# Stay apparent switch
c_age_stayappswitch_validation =
  c_age_ACC_validation + aes(y=100 * stay)
c_age_stayappswitch_validation$data = subset(reward_subj, outcome_21_back=="reward, no reward")

s_PDS_stayappswitch_validation = c_age_stayappswitch_validation +
  aes(x=PDS_group)
s_PDS_stayappswitch_validation$data = subset(s_PDS_stayappswitch_validation$data, !is.na(PDS_group))
s_T_stayappswitch_validation = c_age_stayappswitch_validation +
  aes(x=T_group)
s_T_stayappswitch_validation$data = subset(s_T_stayappswitch_validation$data, !is.na(T_group))

b_age_stayappswitch =
    b_age_ACC + aes(y=100 * stay)
b_age_stayappswitch$data = subset(reward_subj, outcome_21_back=="reward, no reward")

# Asymptotic behavior (non-switch trials in gg_ACC_blocks)
asymp_trials = c(-3:-2, 3:20)
asypmt_dat = ddply(subset(ACC_subj, trialsinceswitch %in% asymp_trials),
                   .(sID, Gender, PDS, meanT, age_group_, age_group, PDS_group, T_group, PreciseYrs, model_name), summarize, ACC=mean(ACC))

c_age_asymptbeh_validation =
  c_age_ACC_validation + aes(y=100 * ACC)
c_age_asymptbeh_validation$data = asypmt_dat

s_PDS_asymptbeh_validation = c_age_asymptbeh_validation +
  aes(x=PDS_group)
s_PDS_asymptbeh_validation$data = subset(s_PDS_asymptbeh_validation$data, !is.na(PDS_group))
s_T_asymptbeh_validation = c_age_asymptbeh_validation +
  aes(x=T_group)
s_T_asymptbeh_validation$data = subset(s_T_asymptbeh_validation$data, !is.na(T_group))

b_age_asymptbeh =
  b_age_ACC + aes(y=100 * ACC)
b_age_asymptbeh$data = asypmt_dat

# b_age_logregr = 
#   b_age_ACC + aes(y=sig_Estimate) +
#   geom_hline(yintercept=0, linetype="dotted") +
#   facet_wrap(back ~ predictor, scales="free", nrow=3)
# b_age_logregr$data = subset(pn_regr_dat, model_name=="Human")

rew_min_nor = subset(pn_regr_dat, back %in% c(1, 2) & predictor=="noReward", select=c(sID, back, sig_Estimate, model_name))
rew_min_nor = reshape(rew_min_nor, timevar="back", idvar=c("sID", "model_name"), direction="wide")
rew_min_nor$n2_min_n1 = with(rew_min_nor, sig_Estimate.2 - sig_Estimate.1)

if (data_name != "PCsim") {
  rew_min_nor = merge(rew_min_nor, ages)
  rew_min_nor = add_age_group_yrs(rew_min_nor)
  
  print(ggplot(rew_min_nor, aes(PreciseYrs, n2_min_n1, color=model_name)) +
    stat_summary(aes(age_group_)) +
    stat_summary(aes(age_group_), geom="line"))
}

# Empirical p_switch
c_age_pswitch_validation =
  c_age_ACC_validation + aes(y=p_switch)
c_age_pswitch_validation$data = ACCs

b_age_pswitch =
  b_age_ACC + aes(y=p_switch)
b_age_pswitch$data = ACCs

# Save plots
ggsave(file.path(plot_dir, paste0(model_class, "b_age_stayappswitch.svg")), b_age_stayappswitch, width=6, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "b_age_asymptbeh.eps")), b_age_asymptbeh, width=6, height=3)
# if (!data_name == "PCsim") {
#   ggsave(file.path(plot_dir, paste0(model_class, "b_age_logregr.eps")), b_age_logregr, width=5, height=9)
# }
ggsave(file.path(plot_dir, paste0(model_class, "b_age_pswitch.eps")), b_age_pswitch, width=4, height=4)

ggsave(file.path(plot_dir, paste0(model_class, "c_age_stayappswitch_validation.eps")), c_age_stayappswitch_validation, width=5, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "c_age_asymptbeh_validation.eps")), c_age_asymptbeh_validation, width=5, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "c_age_logregr_validation_.eps")), c_age_logregr_validation, width=7.5, height=9)
ggsave(file.path(plot_dir, paste0(model_class, "c_age_pswitch_validation.eps")), c_age_pswitch_validation, width=5, height=4)

ggsave(file.path(plot_dir, paste0(model_class, "s_PDS_stayappswitch_validation.eps")), s_PDS_stayappswitch_validation, width=5, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "s_T_stayappswitch_validation.eps")), s_T_stayappswitch_validation, width=5, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "s_PDS_asymptbeh_validation.eps")), s_PDS_asymptbeh_validation, width=5, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "s_T_asymptbeh_validation.eps")), s_T_asymptbeh_validation, width=5, height=3)

ggplot(pn_regr_dat, aes(Estimate, sig_Estimate, color=predictor)) +
  geom_point() +
  facet_grid(predictor ~ model_name)
```

```{r Same measures - continuous puberty within age bins}

# Stay apparent switch
s_PDSwAge_stayappswitch = s_PDSwAge_ACC +
  aes(y=100 * stay)
s_PDSwAge_stayappswitch$data = subset(reward_subj, outcome_21_back=="reward, no reward" & PreciseYrs < 18 & model_name == "Human")

s_TwAge_stayappswitch = s_TwAge_ACC +
  aes(y=100 * stay)
s_TwAge_stayappswitch$data = subset(reward_subj, outcome_21_back=="reward, no reward" & PreciseYrs < 18 & model_name == "Human")

# Asymptotic behavior (non-switch trials in gg_ACC_blocks)
s_PDSwAge_asymptbeh = s_PDSwAge_stayappswitch +
  aes(y=100 * ACC)
s_PDSwAge_asymptbeh$data = subset(asypmt_dat, model_name == "Human" & PreciseYrs < 18)

s_TwAge_asymptbeh = s_TwAge_stayappswitch +
  aes(y=100 * ACC)
s_TwAge_asymptbeh$data = subset(asypmt_dat, model_name == "Human" & PreciseYrs < 18)

# Save plots
ggsave(file.path(plot_dir, paste0(model_class, "s_PDSwAge_stayappswitch.eps")), s_PDSwAge_stayappswitch, width=8, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "s_TwAge_stayappswitch.eps")), s_TwAge_stayappswitch, width=8, height=3)

ggsave(file.path(plot_dir, paste0(model_class, "s_PDSwAge_asymptbeh.eps")), s_PDSwAge_asymptbeh, width=8, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "s_TwAge_asymptbeh.eps")), s_TwAge_asymptbeh, width=8, height=3)
```

```{r Rolling averages}

# Prep
## How many subsequent participants shold be averaged together in the rolling average?
rolling_window_k = 50

## Subset human data only for the plots
ACC_hum = subset(ACCs, model_name == "Human")
reward_hum = subset(reward_subj, model_name == "Human")
asypmt_dat_dum = subset(asypmt_dat, model_name == "Human")
crit_sum_hum = subset(crit_sum, model_name == "Human")

# Overall accuracy

ACCs_sorted = ACC_hum[order(ACC_hum$PreciseYrs),]
ACCs_sorted$roll_ACC = rollapply(ACCs_sorted$mean_ACC, width=rolling_window_k, FUN=mean, fill=NA, align="c")  # Same: ACCs_sorted$roll_ACC = rollmean(ACCs_sorted$mean_ACC, k=rolling_window_k, fill=NA)
ACCs_sorted$roll_ACC_SD = rollapply(ACCs_sorted$mean_ACC, width=rolling_window_k, FUN=sd, fill=NA, align="c")

# Plot
(g_rollingAverage_ACC = ggplot(ACCs_sorted, aes(x=PreciseYrs)) + 
    geom_point(aes(y=mean_ACC, color=Gender), size=0.3) + 
    geom_line(aes(y=roll_ACC)) +
    geom_ribbon(aes(ymin=roll_ACC - 0.5 * roll_ACC_SD, ymax=roll_ACC + 0.5 * roll_ACC_SD), fill="grey", alpha=0.5) +
    theme(legend.position="none") +
    facet_wrap(~ model_name)
)

# Response times

# ACCs_sorted = ACC_hum[order(ACC_hum$PreciseYrs),]
ACCs_sorted$roll_RT = NA
ACCs_sorted[ACCs_sorted$Gender=="Female",]$roll_RT = rollapply(subset(ACCs_sorted, Gender=="Female")$median_cor_RT, width=rolling_window_k / 2, FUN=mean, fill=NA, align="c")
ACCs_sorted[ACCs_sorted$Gender=="Male",]$roll_RT = rollapply(subset(ACCs_sorted, Gender=="Male")$median_cor_RT, width=rolling_window_k / 2, FUN=mean, fill=NA, align="c")
ACCs_sorted$roll_RT_SD = rollapply(ACCs_sorted$median_cor_RT, width=rolling_window_k, FUN=sd, fill=NA, align="c")

# Plot
(g_rollingAverage_RT = ggplot(ACCs_sorted, aes(x=PreciseYrs)) + 
    geom_point(aes(y=median_cor_RT, color=Gender), size=0.3) + 
    geom_line(aes(y=roll_RT, color=Gender)) +
    geom_ribbon(aes(ymin=roll_RT - 0.5 * roll_RT_SD, ymax=roll_RT + 0.5 * roll_RT_SD, fill=Gender), alpha=0.2) +
    theme(legend.position="none") +
    facet_wrap(~ model_name)
)

# Points won

ACCs_sorted$roll_reward = rollapply(ACCs_sorted$mean_reward, width=rolling_window_k, FUN=mean, fill=NA, align="c")  # Same: ACCs_sorted$roll_ACC = rollmean(ACCs_sorted$mean_ACC, k=rolling_window_k, fill=NA)
ACCs_sorted$roll_reward_SD = rollapply(ACCs_sorted$mean_reward, width=rolling_window_k, FUN=sd, fill=NA, align="c")

# Plot
(g_rollingAverage_reward = ggplot(ACCs_sorted, aes(x=PreciseYrs)) + 
    geom_point(aes(y=120 * mean_reward, color=Gender), size=0.3) + 
    geom_line(aes(y=120 * roll_reward)) +
    geom_ribbon(aes(ymin=120 * roll_reward - 0.5 * 120 * roll_reward_SD, ymax=120 * roll_reward + 0.5 * 120 * roll_reward_SD), fill="grey", alpha=0.5) +
    theme(legend.position="none") +
    facet_wrap(~ model_name)
)

# N_switches

ACCs_sorted$roll_nswitch = rollapply(ACCs_sorted$n_switches, width=rolling_window_k, FUN=mean, fill=NA, align="c")  # Same: ACCs_sorted$roll_ACC = rollmean(ACCs_sorted$mean_ACC, k=rolling_window_k, fill=NA)
ACCs_sorted$roll_nswitch_SD = rollapply(ACCs_sorted$n_switches, width=rolling_window_k, FUN=sd, fill=NA, align="c")

# Plot
(g_rollingAverage_NSwitch = ggplot(ACCs_sorted, aes(x=PreciseYrs)) + 
    geom_point(aes(y=n_switches, color=Gender), size=0.3) + 
    geom_line(aes(y=roll_nswitch)) +
    geom_ribbon(aes(ymin=roll_nswitch - 0.5 * roll_nswitch_SD, ymax=roll_nswitch + 0.5 * roll_nswitch_SD), fill="grey", alpha=0.5) +
    theme(legend.position="none") +
    facet_wrap(~ model_name)
)

# Stay after apparent switch

app_switch_dat = subset(reward_hum, outcome_21_back=="reward, no reward")
app_switch_dat_sorted = app_switch_dat[order(app_switch_dat$PreciseYrs),]
app_switch_dat_sorted$roll_stay = rollapply(app_switch_dat_sorted$stay, width=rolling_window_k, FUN=mean, fill=NA, align="c")
app_switch_dat_sorted$roll_SD = rollapply(app_switch_dat_sorted$stay, width=rolling_window_k, FUN=sd, fill=NA, align="c")

(g_rollingAverage_stay =
  ggplot(app_switch_dat_sorted, aes(x=PreciseYrs)) +
    geom_point(aes(y=stay, color=Gender), size=0.3) +
    geom_line(aes(y=roll_stay), color="black") +
    geom_ribbon(aes(ymin=roll_stay + 0.5 * roll_SD, ymax=roll_stay - 0.5 * roll_SD), fill="grey", alpha=0.5) +
    theme(legend.position="none") +
    facet_wrap(~ model_name)
)

# Accuracy asympt. trials

asypmt_dat_sorted = asypmt_dat_dum[order(asypmt_dat_dum$PreciseYrs),]
asypmt_dat_sorted$roll_ACC = rollapply(asypmt_dat_sorted$ACC, width=rolling_window_k, FUN=mean, fill=NA, align="c")
asypmt_dat_sorted$roll_SD = rollapply(asypmt_dat_sorted$ACC, width=rolling_window_k, FUN=sd, fill=NA, align="c")

(g_rollingAverage_asympt =
  ggplot(asypmt_dat_sorted, aes(x=PreciseYrs)) +
    geom_point(aes(y=ACC, color=Gender), size=0.3) +
    geom_line(aes(y=roll_ACC), color="black") +
    geom_ribbon(aes(ymin=roll_ACC - 0.5 * roll_SD, ymax=roll_ACC + 0.5 * roll_SD), fill="grey", alpha=0.5) +
    theme(legend.position="none") +
    facet_wrap(~ model_name)
)

# Switch speed

crit_sum_sorted = crit_sum_hum[order(crit_sum_hum$PreciseYrs),]
crit_sum_sorted$roll_speed = rollapply(crit_sum_sorted$criterion_trial, width=rolling_window_k, FUN=mean, fill=NA, align="c")
crit_sum_sorted$roll_speed_SD = rollapply(crit_sum_sorted$criterion_trial, width=rolling_window_k, FUN=sd, fill=NA, align="c")

(g_rollingAverage_speed =
  ggplot(crit_sum_sorted, aes(x=PreciseYrs)) +
    geom_point(aes(y=criterion_trial, color=Gender), size=0.3) +
    geom_line(aes(y=roll_speed), color="black") +
    geom_ribbon(aes(ymin=roll_speed - 0.5 * roll_speed_SD, ymax=roll_speed + 0.5 * roll_speed_SD), fill="grey", alpha=0.5) +
    theme(legend.position="none") +
    facet_wrap(~ model_name)
)

# Regression models

rew_1_dat = subset(nback_regr_dat, predictor %in% c("reward", "noReward") & back == "1" & model_name == "Human")
rew_1_dat_sorted = rew_1_dat[order(rew_1_dat$PreciseYrs),]

for (pred in levels(factor(rew_1_dat$predictor))) {
  rew_1_dat_sorted$roll_estimate[rew_1_dat_sorted$predictor == pred] = rollapply(rew_1_dat_sorted$sig_Estimate[rew_1_dat_sorted$predictor == pred], width=rolling_window_k, FUN=mean, fill=NA, align="c")
  rew_1_dat_sorted$roll_estimate_SD[rew_1_dat_sorted$predictor == pred] = rollapply(rew_1_dat_sorted$sig_Estimate[rew_1_dat_sorted$predictor == pred], width=rolling_window_k, FUN=sd, fill=NA, align="c")
}

(g_rollingAverage_regr = ggplot(rew_1_dat_sorted, aes(PreciseYrs))
  + geom_point(aes(y=sig_Estimate, color=Gender), size=0.3)
  + geom_line(aes(y=roll_estimate))
  + geom_ribbon(aes(ymin=roll_estimate - 0.5 * roll_estimate_SD, ymax=roll_estimate + 0.5 * roll_estimate_SD), alpha=0.3)
  + geom_hline(yintercept = 0, linetype="dotted")
  + theme(legend.position="none")
  + facet_wrap(~ predictor)
)

# Save plots
ggsave(file.path(plot_dir, paste0(model_class, "g_rollingAverage_ACC.png")), g_rollingAverage_ACC, width=3, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "g_rollingAverage_ACC.svg")), g_rollingAverage_ACC, width=3, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "g_rollingAverage_RT.svg")), g_rollingAverage_RT, width=3, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "g_rollingAverage_stay.svg")), g_rollingAverage_stay, width=3, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "g_rollingAverage_asympt.svg")), g_rollingAverage_asympt, width=3, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "g_rollingAverage_reward.svg")), g_rollingAverage_reward, width=3, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "g_rollingAverage_speed.svg")), g_rollingAverage_speed, width=3, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "g_rollingAverage_NSwitch.svg")), g_rollingAverage_NSwitch, width=3, height=3)
ggsave(file.path(plot_dir, paste0(model_class, "g_rollingAverage_regr.svg")), g_rollingAverage_regr, width=5.5, height=3)
```

```{r t-tests 13-to-15-year-olds vs rest}

# # Overall accuracy
# print("ACC")
# t.test(mean_ACC ~ age_group, data=subset(ACCs, age_group %in% c("25%", "75%")))
# t.test(mean_ACC ~ age_group, data=subset(ACCs, age_group %in% c("50%", "75%")))
# t.test(mean_ACC ~ age_group, data=subset(ACCs, age_group %in% c("100%", "75%")))
# t.test(mean_ACC ~ age_group, data=subset(ACCs, age_group %in% c("18-24", "75%")))
# t.test(mean_ACC ~ age_group, data=subset(ACCs, age_group %in% c("25-30", "75%")))
# 
# Points won
print("Total points")
t.test(mean_reward ~ age_group, data=subset(ACCs, age_group %in% c("25%", "75%")))
t.test(mean_reward ~ age_group, data=subset(ACCs, age_group %in% c("50%", "75%")))
t.test(mean_reward ~ age_group, data=subset(ACCs, age_group %in% c("100%", "75%")))
t.test(mean_reward ~ age_group, data=subset(ACCs, age_group %in% c("18-24", "75%")))
t.test(mean_reward ~ age_group, data=subset(ACCs, age_group %in% c("25-30", "75%")))
# 
# # Staying after apparent switch
# print("Stay after app. switch")
# t.test(stay ~ age_group, data=subset(app_switch_dat, age_group %in% c("25%", "75%")))
# t.test(stay ~ age_group, data=subset(app_switch_dat, age_group %in% c("50%", "75%")))
# t.test(stay ~ age_group, data=subset(app_switch_dat, age_group %in% c("100%", "75%")))
# t.test(stay ~ age_group, data=subset(app_switch_dat, age_group %in% c("18-24", "75%")))
# t.test(stay ~ age_group, data=subset(app_switch_dat, age_group %in% c("25-30", "75%")))
# 
# # Accuracy on asymptotic trials
# print("Asympt. ACC")
# t.test(ACC ~ age_group, data=subset(asypmt_dat_sorted, age_group %in% c("25%", "75%")))
# t.test(ACC ~ age_group, data=subset(asypmt_dat_sorted, age_group %in% c("50%", "75%")))
# t.test(ACC ~ age_group, data=subset(asypmt_dat_sorted, age_group %in% c("100%", "75%")))
# t.test(ACC ~ age_group, data=subset(asypmt_dat_sorted, age_group %in% c("18-24", "75%")))
# t.test(ACC ~ age_group, data=subset(asypmt_dat_sorted, age_group %in% c("25-30", "75%")))
```

```{r Debugging logistic regression plots}

# Effect of positive and negative outcomes (rewnorew_regr)
nback_regr_dat$sig_Estimate = NA
for (pred in unique(nback_regr_dat$predictor)) {
  for (ba in unique(nback_regr_dat$back)) {
    sub = subset(nback_regr_dat, predictor==pred & back==ba)
    z = (sub$Estimate - mean(sub$Estimate, na.rm=T)) / sd(sub$Estimate, na.rm=T)

    nback_regr_dat[nback_regr_dat$predictor==pred & nback_regr_dat$back==ba, "sig_Estimate"] = 2 * (1 / (1 + exp(-sub$Estimate))) - 1  # only tanh transform
    nback_regr_dat[nback_regr_dat$predictor==pred & nback_regr_dat$back==ba, "z_sig_Estimate"] = 2 * (1 / (1 + exp(-z))) - 1  # z-score, then tanh transform
  }
}

# Beautify
nback_regr_dat = merge(nback_regr_dat, ages, all.x = T)
nback_regr_dat$predictor = gsub("back.", "", nback_regr_dat$predictor)
nback_regr_dat$predictor = gsub("[0-99]", "", nback_regr_dat$predictor)
nback_regr_dat$sig_Estimate_old = 1 / (1 + exp(-nback_regr_dat$Estimate / 2))  # transform so that I can see all
# z = (nback_regr_dat$Estimate - mean(nback_regr_dat$Estimate, na.rm=T)) / sd(nback_regr_dat$Estimate, na.rm=T)
# nback_regr_dat$sig_Estimate = 2 * (1 / (1 + exp(-z))) - 1  # transform so that I can see all
      
pn_regr_dat = subset(nback_regr_dat, model == "rewardNoReward" & back %in% 1:3 & predictor != "(Intercept)" & !is.na(age_group))
c_age_logregr_validation =
  c_age_ACC_validation + aes(y=sig_Estimate_old) +
  geom_hline(yintercept=0, linetype="dotted") +
  facet_wrap(back ~ predictor, scales="free", nrow=3)
c_age_logregr_validation$data = pn_regr_dat
c_age_logregr_validation


pn_regr_dat = subset(nback_regr_dat, model == "rewardNoReward" & back == 1 & predictor != "(Intercept)" & !is.na(age_group))
(c_age_logregr_validation =
  c_age_ACC_validation + aes(y=Estimate)
  + geom_point()
  + geom_hline(yintercept=0, linetype="dotted")
  + facet_wrap(model_name ~ predictor, scales="free", nrow=3)
)
c_age_logregr_validation$data = pn_regr_dat
c_age_logregr_validation

ggplot(nback_regr_dat, aes(Estimate, `Pr...z..`)) +
  geom_point() +
  geom_hline(yintercept=0.99)

ggplot(ddply(subset(nback_regr_dat, `Pr...z..` > 0.99), .(sID, predictor, back, Estimate, predictor), summarize, x=NA), aes(back, Estimate, color=predictor)) +
  geom_point(position="jitter")

weird_regr_people = subset(nback_regr_dat, (Estimate > 18) | (Estimate < -5))
subset(nback_regr_dat, (sID == 442) & (back == 1))

ggplot(subj_dat, aes(TrialID, back1reward, color=selected_box)) +
  geom_point()

# Debugging the regression results
dat = subset(nback_regr_dat, `Pr...z..` < 0.9)
ggplot(subset(dat, back %in% 1 & predictor != "(Intercept)" & !is.na(age_group)), aes(age_group, sig_Estimate_old, group=model_name, color=model_name)) +  #  & Estimate < 18
  stat_summary() +
  stat_summary(geom="line") +
  geom_point(position="jitter") +
  geom_hline(yintercept = 0, linetype = "dashed") +
  labs(x="", y="Regression beta (trial switch+1)", color="") +
  facet_wrap(~ predictor, scales="free")

hist(subset(nback_regr_dat, Estimate > 18)$`Pr...z..`)
ggplot(nback_regr_dat, aes(Estimate, `Pr...z..`)) +
  geom_point()


rew_1_dat = subset(nback_regr_dat, predictor %in% c("reward", "noReward") & back == "1" & model_name == "Human")
rew_1_dat_sorted = rew_1_dat[order(rew_1_dat$PreciseYrs),]
for (pred in levels(factor(rew_1_dat$predictor))) {
  rew_1_dat_sorted$roll_estimate[rew_1_dat_sorted$predictor == pred] = rollapply(rew_1_dat_sorted$sig_Estimate[rew_1_dat_sorted$predictor == pred], width=rolling_window_k, FUN=mean, fill=NA, align="c")
  rew_1_dat_sorted$roll_estimate_SD[rew_1_dat_sorted$predictor == pred] = rollapply(rew_1_dat_sorted$sig_Estimate[rew_1_dat_sorted$predictor == pred], width=rolling_window_k, FUN=sd, fill=NA, align="c")

}

(ggplot(rew_1_dat_sorted, aes(PreciseYrs))
  + geom_point(aes(y=sig_Estimate, color=Gender))
  + geom_line(aes(y=roll_estimate))
  + geom_ribbon(aes(ymin=roll_estimate - 0.5 * roll_estimate_SD, ymax=roll_estimate + 0.5 * roll_estimate_SD), alpha=0.3)
  + geom_hline(yintercept = 0, linetype="dotted")
  + facet_wrap(~ predictor)
)
```

```{r Read in model parameters}

param_names = c("persev_RL", "beta_RL", "nalpha", "alpha", "persev_BF", "beta_BF", "p_reward", "p_switch")

RL_params = read.csv(file.path(param_file_dir, "params_RLabnp2_age_z_291_pymc3.csv"))
RL_params = RL_params[,c("sID", "alpha", "beta", "nalpha", "persev")]
BF_params = read.csv(file.path(param_file_dir, "params_Bbspr_age_z_291_pymc3.csv"))
BF_params = BF_params[,c("sID", "p_switch", "beta", "p_reward", "persev")]

param_dat = merge(RL_params, BF_params, by=c("sID"), suffixes=c("_RL", "_BF"))
param_dat = merge(param_dat, ages)
param_dat = param_dat[,c("sID", "Gender", "age_group", "PDS_group", "T_group", "meanT", "PDS", "PreciseYrs", param_names)]
param_dat = add_age_group_yrs(param_dat)
param_dat_l = melt(param_dat, id.vars=c("sID", "Gender", "age_group", "age_group_", "PDS_group", "T_group", "meanT", "PDS", "PreciseYrs"), variable.name="param_name", value.name="param_value")
```

```{r Model parameter histograms}
(param_histograms = ggplot(param_dat_l, aes(param_value)) +
  geom_histogram() +
  labs(x="", y="") +
  facet_wrap(~ param_name, scale="free"))

pdf(file=file.path(plot_dir, "f_param_scatter.pdf"))
pairs(subset(param_dat, select=param_names), pch=19, cex=0.1, lower.panel=NULL)
dev.off()

ggsave(file.path(plot_dir, "f_param_histograms.png"), param_histograms, width=5, height=4)
```

```{r Model parameter correlations}
library(corrplot)
library(Hmisc)

# Get data
dat = param_dat[,param_names]
cor_dat = rcorr(as.matrix(dat), type="spearman")
corrs = cor_dat$r
ps = cor_dat$P

# Plot and save
# svg(file=file.path(plot_dir, "param_corrs.svg"))
# png(file=file.path(plot_dir, "param_corrs.png"))
pdf(file=file.path(plot_dir, "f_param_corrs.pdf"))

bonferroni_sig.level = 0.05 / (dim(corrs)[1] * dim(corrs)[2] - dim(corrs)[1])

corrplot(corrs, type = "lower", order = "original", method="number",
         tl.col = "black", tl.srt = 45, diag=F,
         p.mat=ps, sig.level=bonferroni_sig.level, insig="pch")

dev.off()
```

```{r Vizualizing cross-fitting}
cross = data.frame("RL_fit" = c(22765, 22764), "BF_fit" = c(23015, 22666), row.names = c("RL_sim", "BF_sim"))

pdf(file=file.path(plot_dir, "f_cross_fitting.pdf"))
corrplot(data.matrix(cross), is.corr=F, cl.lim = c(min(cross), max(cross)), method="number",
         col=colorRampPalette(c("black", "orange"))(200),
         tl.col="black", tl.srt=0)
dev.off()
```

```{r Model parameters over age}
# param_dat_l = subset(param_dat_l, PreciseYrs < 18)
(f_age_param =
  ggplot(param_dat_l, aes(age_group, param_value, group=1)) +
  # geom_point(aes(x=PreciseYrs, color=Gender)) +
  stat_summary() +
  stat_summary(geom="line") +
  facet_wrap(~ param_name, scales="free"))

s_PDS_param = f_age_param +
  aes(x=PDS_group)
s_PDS_param$data = subset(s_PDS_param$data, !is.na(PDS_group))
s_T_param = f_age_param +
  aes(x=T_group)
s_T_param$data = subset(s_T_param$data, !is.na(T_group))

# (f_age_alpha = ggplot(subset(param_dat_l, param_name=="alpha"), aes(age_group, param_value, group=1)) +
#   stat_summary() +
#   stat_summary(geom="line") +
#   coord_cartesian(ylim=c(0.55, 0.85)))
# f_age_nalpha = f_age_alpha
# f_age_nalpha$data = subset(param_dat_l, param_name=="nalpha")
# 
# f_age_betaRL = f_age_alpha + coord_cartesian(ylim=c(2.5, 4.25))
# f_age_betaRL$data = subset(param_dat_l, param_name=="beta_RL")
# f_age_betaBF = f_age_betaRL
# f_age_betaBF$data = subset(param_dat_l, param_name=="beta_BF")
# 
# f_age_persevRL = f_age_alpha + coord_cartesian(ylim=c(2.5, 4.25))
# f_age_betaRL$data = subset(param_dat_l, param_name=="beta_RL")

# Save plot
ggsave(file.path(plot_dir, "f_age_param.eps"), f_age_param, width=6, height=8)
ggsave(file.path(plot_dir, "s_PDS_param.eps"), s_PDS_param, width=6, height=8)
ggsave(file.path(plot_dir, "s_T_param.eps"), s_T_param, width=6, height=8)
```

```{r Same measures but puberty within age bins}
dat = subset(param_dat_l, PreciseYrs < 18)
# dat$param_value[dat$param_name %in% c("beta_RL", "beta_BF")] = dat$param_value[dat$param_name %in% c("beta_RL", "beta_BF")] / 12

dat$age_group = factor(dat$age_group, levels=c("25%", "50%", "75%", "100%"), labels=c("25%"="8-10", "50%"="10-13", "75%"="13-15", "100%"="15-17"))
dat$param_name = factor(dat$param_name, labels=c("persev_RL"="p(RL)", "beta_RL"="\u03b2(RL)", "nalpha"="\u03b1-", "alpha"="\u03b1+", "persev_BF"="p(BI)", "beta_BF"="\u03b2(BI)", "p_reward"="p_reward", "p_switch"="p_switch"))

# One big plot
(s_PDSwAge_params =
  ggplot(dat, aes(PDS, param_value, color=Gender)) +
  geom_point() +
  geom_smooth(method="lm", formula=y ~ x, size=0.5, alpha=0.3) +
  labs(x="PDS questionnaire (score)", y="", color="") +
  facet_wrap(param_name ~ age_group, scales="free", ncol=4))

s_TwAge_params = s_PDSwAge_params +
  aes(x=meanT) +
  labs(x="Salivary testosterone (pg/ml)")

# Save plot
ggsave(file.path(plot_dir, "s_PDSwAge_params.png"), s_PDSwAge_params, width=10, height=20)
ggsave(file.path(plot_dir, "s_TwAge_params.png"), s_TwAge_params, width=10, height=20)
ggsave(file.path(plot_dir, "s_PDSwAge_params.eps"), s_PDSwAge_params, width=10, height=10)
ggsave(file.path(plot_dir, "s_TwAge_params.eps"), s_TwAge_params, width=10, height=10)

# Subplots for each parameter (to get the axes right - needs to be combined later)
for (param in levels(dat$param_name)) {
  
  s_PDSwAge_params =
    ggplot(subset(dat, param_name==param), aes(PDS, param_value, color=Gender)) +
    geom_point() +
    geom_smooth(method="lm", formula=y ~ x, size=0.5, alpha=0.3) +
    labs(x="PDS questionnaire (score)", y="", color="") +
    facet_wrap(param_name ~ age_group, ncol=4)
  
  s_TwAge_params = s_PDSwAge_params +
    aes(x=meanT) +
    labs(x="Salivary testosterone (pg/ml)")
  
  ggsave(file.path(plot_dir, paste0("s_PDSwAge_", param, ".eps")), s_PDSwAge_params, width=10, height=3)
  ggsave(file.path(plot_dir, paste0("s_TwAge_", param, ".eps")), s_TwAge_params, width=10, height=3)
}
```

```{r Model parameter regression R2}
# Across models
beta_RL_mod = summary(lm(beta_RL ~ (beta_BF + persev_BF + p_switch + p_reward) ^ 2, data=param_dat))  # R^2 = 0.97
persev_RL_mod = summary(lm(persev_RL ~ (beta_BF + persev_BF + p_switch + p_reward) ^ 2, data=param_dat))  # R^2 = 0.97
nalpha_mod = summary(lm(nalpha ~ (beta_BF + persev_BF + p_switch + p_reward) ^ 2, data=param_dat))  # R^2 = 0.93
alpha_mod = summary(lm(alpha ~ (beta_BF + persev_BF + p_switch + p_reward) ^ 2, data=param_dat))  # R^2 = 0.25

beta_BF_mod = summary(lm(beta_BF ~ (beta_RL + persev_RL + alpha + nalpha) ^ 2, data=param_dat))  # R^2 = 0.97
persev_BF_mod = summary(lm(persev_BF ~ (beta_RL + persev_RL + alpha + nalpha) ^ 2, data=param_dat))  # R^2 = 0.97
p_reward_mod = summary(lm(p_reward ~ (beta_RL + persev_RL + alpha + nalpha) ^ 2, data=param_dat))  # R^2 = 0.91
p_switch_mod = summary(lm(p_switch ~ (beta_RL + persev_RL + alpha + nalpha) ^ 2, data=param_dat))  # R^2 = 0.79

# # Within models
# summary(lm(beta_RL ~ (persev_RL + alpha + nalpha) ^ 2, data=param_dat))  # R^2 = 0.26
# summary(lm(persev_RL ~ (beta_RL + alpha + nalpha) ^ 2, data=param_dat))  # R^2 = 0.17
# summary(lm(nalpha ~ (beta_RL + persev_RL + alpha) ^ 2, data=param_dat))  # R^2 = 0.13
# summary(lm(alpha ~ (beta_RL + persev_RL + nalpha) ^ 2, data=param_dat))  # R^2 = 0.14
# 
# summary(lm(beta_BF ~ (persev_BF + p_switch + p_reward) ^ 2, data=param_dat))  # R^2 = 0.71
# summary(lm(persev_BF ~ (beta_BF + p_switch + p_reward) ^ 2, data=param_dat))  # R^2 = 0.40
# summary(lm(p_reward ~ (beta_BF + persev_BF + p_switch) ^ 2, data=param_dat))  # R^2 = 0.56
# summary(lm(p_switch ~ (beta_BF + persev_BF + p_reward) ^ 2, data=param_dat))  # R^2 = 0.69

# Make data pretty
R2_dat = data.frame(
  "model_name" = c(rep("RL", 4), rep("BF", 4)),
  "parameter" = c("beta_RL", "p_RL", "nalpha", "alpha", "beta_BF", "p_BF", "p_reward", "p_switch"),
  "R2" = c(beta_RL_mod$r.squared, persev_RL_mod$r.squared, nalpha_mod$r.squared, alpha_mod$r.squared,
           beta_BF_mod$r.squared, persev_BF_mod$r.squared, p_reward_mod$r.squared, p_switch_mod$r.squared))
R2_dat$parameter = factor(R2_dat$parameter, levels=c("p_RL", "beta_RL", "nalpha", "alpha", "p_BF", "beta_BF", "p_reward", "p_switch"))
R2_dat$uniqueness = 1 - R2_dat$R2

# Plot
(f_parameter_R2 = ggplot(R2_dat, aes(parameter, R2, fill=model_name)) +
  geom_bar(stat="identity") +
  geom_hline(yintercept=1, linetype="dotted") +
  scale_fill_manual(values=c(colors_validation[1], colors_validation[3])) +
  theme(axis.text.x=element_text(angle=30, hjust=1)) +
  coord_cartesian(ylim=c(0, 1)))

# Save plot
ggsave(file.path(plot_dir, "f_parameter_R2.eps"), f_parameter_R2, width=4, height=3)
```

```{r SVM to predict model parameters from other parameters}
library("e1071")

rmse = function(true, predicted) {
  return(sqrt(mean((predicted - true) ^ 2)))
}

rmse_dat = data.frame()
for (param_name in c("beta_RL", "persev_RL", "nalpha", "alpha")) {

  param_svm = svm(as.formula(paste(param_name, "~ beta_BF + persev_BF + p_switch + p_reward")), data=param_dat)
  predicted = fitted(param_svm)
  
  plot(param_dat[, param_name], predicted)
  param_rmse = rmse(param_dat[, param_name], predicted)
  
  rmse_dat = rbind(rmse_dat, data.frame("model" = "RL", "param" = param_name, "rmse" = param_rmse))
}

for (param_name in c("beta_BF", "persev_BF", "p_reward", "p_switch")) {

  param_svm = svm(as.formula(paste(param_name, "~ beta_RL + persev_RL + alpha + nalpha")), data=param_dat)
  predicted = fitted(param_svm)
  
  plot(param_dat[, param_name], predicted)
  param_rmse = rmse(param_dat[, param_name], predicted)
  
  rmse_dat = rbind(rmse_dat, data.frame("model" = "BF", "param" = param_name, "rmse" = param_rmse))
}

rmse_dat$rmse[rmse_dat$param %in% c("beta_RL", "beta_BF")] = rmse_dat$rmse[rmse_dat$param %in% c("beta_RL", "beta_BF")] / 15
(f_parameter_svmrmse = ggplot(rmse_dat, aes(param, 1 - rmse, fill=model)) +
  geom_bar(stat='identity') +
  geom_hline(yintercept=1, linetype="dotted") +
  scale_fill_manual(values=c(colors_validation[3], colors_validation[1])) +
  labs(y="1 - RMSE", x="", fill="") +
  theme(axis.text.x=element_text(angle=30, hjust=1)) +
  coord_cartesian(ylim=c(0.8, 1)))

ggsave(file.path(plot_dir, "f_parameter_svmrmse.png"), f_parameter_svmrmse, width=4, height=3)


# # TODO: Tune the SVM model
# OptModelsvm=tune(svm, Y~X, data=data,ranges=list(elsilon=seq(0,1,0.1), cost=1:100))
# 
# #Print optimum value of parameters
# print(OptModelsvm)
# 
# #Plot the perfrormance of SVM Regression model
# plot(OptModelsvm)
# 
# ## Select the best model out of 1100 trained models and compute RMSE
# 
# #Find out the best model
# BstModel=OptModelsvm$best.model
# 
# #Predict Y using best model
# PredYBst=predict(BstModel,data)
# 
# #Calculate RMSE of the best model 
# RMSEBst=rmse(PredYBst,data$Y)
```

```{r Model parameter PCA}
# Run PCA
param_pca = prcomp(param_dat[param_names], center=T, scale.=T)

# Visualize entire PCA
(g_paramPC1_paramPC2 =
  autoplot(param_pca, data=param_dat, colour="age_group",
           loadings=T, loadings.label=T, loadings.label.size=3) +
  scale_color_manual(values=colors_3and1))

# Visualize explained variance
expl_var = data.frame(summary(param_pca)$importance)
expl_var$index = rownames(expl_var)
expl_var_l = melt(expl_var, id.vars="index")
g_explained_variance =
  ggplot(expl_var_l, aes(variable, value, group=1)) +
  geom_hline(yintercept=1, linetype="dotted") +
  geom_hline(yintercept=0, linetype="dotted") +
  geom_point() +
  geom_line() +
  facet_wrap(~ index)

# Visualize PCs over age
PCs = cbind(data.frame(param_pca$x),  # one valuer per PC per participant
            param_dat)  # one value per parameter per participant, and age etc.
PCs_l = melt(PCs, id.vars=c("sID", "Gender", "PDS", "meanT", "age_group", "PDS_group", "T_group", "PreciseYrs", "age_group_"))
PCs_l$value = as.numeric(as.character(PCs_l$value))
PCs_l[PCs_l$variable %in% c("PC1", "PC4"), "value"] = -PCs_l[PCs_l$variable %in% c("PC1", "PC4"), "value"]  # Flip axis for PC1 and PC4 (for vizualisation purposes)
# PCs_l$value = -PCs_l$value  # Flip all PCs (for vizualisation)

## Continuous age / PDS / T
# PCs_l = subset(PCs_l, PreciseYrs < 18)
g_age_PCs =
  ggplot(subset(PCs_l, variable %in% c("PC1", "PC2", "PC3", "PC4", "PC5")),
       aes(PreciseYrs, value, color=variable)) +
  geom_point(alpha=0.2) +
  stat_summary(aes(age_group_, group=variable), geom="line") +
  stat_summary(aes(age_group_, group=variable), color="black") +
  facet_wrap(~ variable, scales="free")

## Age / PDS / T bins
(g_agegroup_PCs =
  ggplot(subset(PCs_l, variable %in% c("PC1", "PC2", "PC3", "PC4")),
       aes(age_group, value, group=variable)) +
  geom_hline(yintercept=0, linetype="dotted") +
  stat_summary(geom="line") +
  stat_summary() +
  facet_wrap(~ variable, scales="free"))

g_PDS_PCs = g_agegroup_PCs +
  aes(PDS_group)
g_PDS_PCs$data = subset(g_PDS_PCs$data, !is.na(PDS_group))
g_T_PCs = g_agegroup_PCs +
  aes(T_group)
g_T_PCs$data = subset(g_T_PCs$data, !is.na(T_group))
  
# Visualize factor loadings
pca_weights = data.frame(param_pca$rotation)
pca_weights_complete = cbind(pca_weights, "center"=param_pca$center, "scale"=param_pca$scale)
write.csv(pca_weights_complete, file.path(plot_dir, "pca_weights.csv"))

pca_weights$param = factor(rownames(pca_weights), levels=c("beta_BF", "beta_RL", "persev_BF", "persev_RL", "p_reward", "nalpha", "p_switch", "alpha"))
pca_weights$model_name = "BF"
pca_weights$model_name[pca_weights$param %in% c("alpha", "nalpha", "beta_RL", "persev_RL")] = "RL"
pca_weights_l = melt(pca_weights, id.vars=c("param", "model_name"))

(g_pcaweights =
  ggplot(subset(pca_weights_l, variable %in% c("PC1", "PC2", "PC3", "PC4")), aes(param, value, fill=model_name)) +
  stat_summary(geom="bar") +
  scale_fill_manual(values=c(colors_validation[1], colors_validation[3])) +
  theme(axis.text.x=element_text(angle=30, hjust=1)) +
  facet_wrap(variable ~ model_name, scales="free_x", ncol=2))

# Save plots
ggsave(file.path(plot_dir, "g_paramPC1_paramPC2.eps"), g_paramPC1_paramPC2, width=4, height=3)
ggsave(file.path(plot_dir, "g_explained_variance.eps"), g_explained_variance, width=6, height=3)
ggsave(file.path(plot_dir, "g_age_PCs.eps"), g_age_PCs, width=5, height=4)
ggsave(file.path(plot_dir, "g_pcaweights.eps"), g_pcaweights, width=4, height=10)

ggsave(file.path(plot_dir, "g_agegroup_PCs.eps"), g_agegroup_PCs, width=4, height=5)
ggsave(file.path(plot_dir, "g_PDS_PCs.eps"), g_PDS_PCs, width=4, height=5)
ggsave(file.path(plot_dir, "g_T_PCs.eps"), g_T_PCs, width=4, height=5)
```
```{r Same but within age bins}
PCs_l$age_group = factor(PCs_l$age_group, labels=c("8-10", "10-13", "13-15", "15-17", "Stud.", "25-30"))

(s_PDSwAge_PCs =
  ggplot(subset(PCs_l, variable %in% c("PC1", "PC2", "PC3", "PC4") & PreciseYrs < 18),
         aes(PDS, value, color=Gender)) +
    geom_point(alpha=0.2) +
    geom_smooth(method="lm", formula=y ~ x, size=0.5, alpha=0.3) +
    labs(y="") +
    facet_wrap(variable ~ age_group, ncol=4))
s_TwAge_PCs = s_PDSwAge_PCs + aes(x=meanT)

# Save plots
ggsave(file.path(plot_dir, "s_PDSwAge_PCs.png"), s_PDSwAge_PCs, width=8, height=8)
ggsave(file.path(plot_dir, "s_TwAge_PCs.png"), s_TwAge_PCs, width=8, height=8)
```

```{r Model parameter ICA}
library("ica")

normalize = function(data) {
  return((data - mean(data)) / sd(data))
}
param_names = c("beta_RL", "persev_RL", "nalpha", "alpha", "beta_BF", "persev_BF", "p_reward", "p_switch")

# Run ICA
param_ica = icafast(subset(param_dat, select=param_names), nc=4)

# Format mixing component data
mixing = data.frame(param_ica$M)  # mixing matrix
mixing$param_name = factor(param_names, levels=param_names)
for (param_name in param_names) {
  mixing[mixing$param_name == param_name, c("X1", "X2", "X3", "X4")] = normalize(as.double(mixing[mixing$param_name == param_name, c("X1", "X2", "X3", "X4")]))
}
mixing$model_name = c(rep("RL", 4), rep("BF", 4))
mixing_long = melt(mixing, id.vars=c("param_name", "model_name"), variable.name="component")

# Format source signal data
S = data.frame(param_ica$S)
S = cbind(S, subset(param_dat, select=c("sID", "PreciseYrs", "age_group")))
S_long = melt(S, id.vars=c("sID", "PreciseYrs", "age_group"))

# Get variance of each component
cumulative_variance = data.frame("cum_var" = cumsum(param_ica$vafs), "comp" = 1:4)

# Plot
g_explained_variance_ICA = ggplot(cumulative_variance, aes(comp, cum_var)) +
  geom_point() +
  geom_line() +
  geom_hline(yintercept=1, linetype="dotted") +
  coord_cartesian(ylim=c(0, 1))

(g_agegroup_Cs = ggplot(S_long, aes(age_group, value, color=variable, group=variable)) +
  stat_summary() +
  stat_summary(geom="line") +
  labs(x="", color="Component"))

(g_icaweights = ggplot(mixing_long, aes(param_name, value, fill=model_name)) +
  geom_bar(stat="identity") +
  facet_wrap(component ~ model_name, scale="free_x", ncol=2) +
  theme(axis.text.x=element_text(angle=30, hjust=1)) +
  scale_fill_manual(values=c(colors_validation[1], colors_validation[3])))

# Save plots
ggsave(file.path(plot_dir, "g_agegroup_Cs.png"), g_agegroup_Cs, width=5, height=5)
ggsave(file.path(plot_dir, "g_explained_variance_ICA.png"), g_explained_variance_ICA, width=3, height=3)
ggsave(file.path(plot_dir, "g_icaweights.png"), g_icaweights, width=4, height=10)
```

# Run regression models

```{r Prepare data}
# Subset human data only
all_files_all = all_files
all_files = subset(all_files, model_name == "Human")

nback_regr_dat_all = nback_regr_dat
nback_regr_dat = subset(nback_regr_dat, model_name == "Human")

points_dat_all = points_dat
points_dat = subset(points_dat, model_name == "Human")

# Add quadratic age columns and within-sex z-scored T columns
all_files$PreciseYrs_z = (all_files$PreciseYrs - mean(all_files$PreciseYrs, na.rm=T)) / sd(all_files$PreciseYrs, na.rm=T)
all_files$PreciseYrs_z2 = all_files$PreciseYrs_z ^ 2

all_files$PDS_z = (all_files$PDS - mean(all_files$PDS, na.rm=T)) / sd(all_files$PDS, na.rm=T)
all_files$PDS_z2 = all_files$PDS_z ^ 2

all_files$logTz = NA
all_files$logTz[all_files$Gender == "Female"] =
  (all_files$log_T[all_files$Gender == "Female"] - mean(all_files$log_T[all_files$Gender == "Female"], na.rm=T)) / sd(all_files$log_T[all_files$Gender == "Female"], na.rm=T)
all_files$logTz[all_files$Gender == "Male"] =
  (all_files$log_T[all_files$Gender == "Male"] - mean(all_files$log_T[all_files$Gender == "Male"], na.rm=T)) / sd(all_files$log_T[all_files$Gender == "Male"], na.rm=T)
all_files$logTz2 = all_files$logTz ^ 2

nback_regr_dat$PreciseYrs_z = (nback_regr_dat$PreciseYrs - mean(nback_regr_dat$PreciseYrs, na.rm=T)) / sd(nback_regr_dat$PreciseYrs, na.rm=T)
nback_regr_dat$PreciseYrs_z2 = nback_regr_dat$PreciseYrs_z ^ 2

nback_regr_dat$PDS_z = (nback_regr_dat$PDS - mean(nback_regr_dat$PDS, na.rm=T)) / sd(nback_regr_dat$PDS, na.rm=T)
nback_regr_dat$PDS_z2 = nback_regr_dat$PDS_z ^ 2

nback_regr_dat$logTz = NA
nback_regr_dat$logTz[nback_regr_dat$Gender == "Female"] = (nback_regr_dat$log_T[nback_regr_dat$Gender == "Female"] - mean(nback_regr_dat$log_T[nback_regr_dat$Gender == "Female"], na.rm=T)) / sd(nback_regr_dat$log_T[nback_regr_dat$Gender == "Female"], na.rm=T)
nback_regr_dat$logTz[nback_regr_dat$Gender == "Male"] = (nback_regr_dat$log_T[nback_regr_dat$Gender == "Male"] - mean(nback_regr_dat$log_T[nback_regr_dat$Gender == "Male"], na.rm=T)) / sd(nback_regr_dat$log_T[nback_regr_dat$Gender == "Male"], na.rm=T)

# PCs$PreciseYrs2 = PCs$PreciseYrs ^ 2
# PCs

points_dat$PreciseYrs_z = (points_dat$PreciseYrs - mean(points_dat$PreciseYrs, na.rm=T)) / sd(points_dat$PreciseYrs, na.rm=T)
points_dat$PreciseYrs_z2 = points_dat$PreciseYrs_z ^ 2

points_dat$PDS_z = (points_dat$PDS - mean(points_dat$PDS, na.rm=T)) / sd(points_dat$PDS, na.rm=T)
points_dat$PDS_z2 = points_dat$PDS_z ^ 2
# points_dat$meanT2 = points_dat$meanT ^ 2
```

```{r Effects of age / PDS / T on behavior (regression models)}
# Effect of age on basic behavior (rewards, RTs)
## Median correct response times
summary(lmer(log(RT) ~ PreciseYrs_z + PreciseYrs_z2 + Gender + (1 | sID), subset(all_files, ACC==T)))
summary(lmer(log(RT) ~ PDS + Gender + (1 | sID), subset(all_files, ACC==T & PreciseYrs < 18)))
summary(lmer(log(RT) ~ meanT + Gender + (1 | sID), subset(all_files, ACC==T & PreciseYrs < 18)))

## Overall accuracy
summary(glmer(ACC ~ PreciseYrs_z + PreciseYrs_z2 + Gender + (1 | sID), all_files, binomial))
summary(glmer(ACC ~ PDS + Gender + (1 | sID), subset(all_files, PreciseYrs < 18), binomial))
summary(glmer(ACC ~ meanT + Gender + (1 | sID), subset(all_files, PreciseYrs < 18), binomial))

## Asymptotic performance
summary(glmer(ACC ~ PreciseYrs_z + PreciseYrs_z2 + Gender + (1 | sID), subset(all_files, trialsinceswitch %in% c(-3, -2, 3:7)), binomial))
summary(glmer(ACC ~ PDS + Gender + (1 | sID), subset(all_files, trialsinceswitch %in% c(-3, -2, 3:7) & PreciseYrs < 18), binomial))
summary(glmer(ACC ~ meanT + Gender + (1 | sID), subset(all_files, trialsinceswitch %in% c(-3, -2, 3:7) & PreciseYrs < 18), binomial))

## (Apparent) switch trials
summary(glmer(same_choice_01_back ~ PreciseYrs_z + PreciseYrs_z2 + Gender + (1 | sID), subset(all_files, same_choice_12_back & (outcome_21_back == "reward, no reward")), binomial))
summary(glmer(same_choice_01_back ~ PDS + Gender + (1 | sID), subset(all_files, same_choice_12_back & (outcome_21_back == "reward, no reward") & PreciseYrs < 18), binomial))
summary(glmer(same_choice_01_back ~ meanT + Gender + (1 | sID), subset(all_files, same_choice_12_back & (outcome_21_back == "reward, no reward") & PreciseYrs < 18), binomial))

## Total points won
summary(lm(total_points ~ PreciseYrs_z + PreciseYrs_z2 + Gender, points_dat))
summary(lm(total_points ~ PDS + PDS2 + Gender, points_dat))
summary(lm(total_points ~ meanT + meanT2 + Gender, points_dat))

## Overall stay
summary(glmer(same_choice_01_back ~ PreciseYrs + PreciseYrs2 + Gender + (1 | sID), all_files, binomial))

# ## Rewards
# summary(glmer(reward ~ PreciseYrs + PreciseYrs2 + Gender + (1 | sID), all_files, binomial))

# # Effect of age / PDS / T on switch speed
# ddply(ddply(subset(all_files, trialsinceswitch==1), .(sID, age_group), summarize, ACC=mean(ACC)), .(age_group), summarize, ACC=mean(ACC))
# 
# summary(glmer(ACC ~ PreciseYrs + PreciseYrs2 + Gender + (1 | sID), subset(all_files, trialsinceswitch==1), binomial))
# summary(glmer(ACC ~ PDS + Gender + (1 | sID), subset(all_files, trialsinceswitch==1 & PreciseYrs < 18), binomial))
# summary(glmer(ACC ~ logTz + Gender + (1 | sID), subset(all_files, trialsinceswitch==1 & PreciseYrs < 18), binomial))

# # Younger participants switched faster than older participants, as revealed by the effect of age on staying in the 'reward, no reward' condition in a mixed-effects regression model in non-adult participants (females: $\beta=3.79\%$, $p<0.001$, males: $\beta=3.61\%$, $p<0.001$
# summary(lmer(same_choice_01_back ~ PreciseYrs + PreciseYrs2 + Gender + (1 | sID), subset(all_files, outcome_21_back=='reward, no reward')))  # Todo: Figure out if I'm using the right subset of data (only trials in which both previous trials were the same choice?)
# summary(lmer(same_choice_01_back ~ PDS + Gender + (1 | sID), subset(all_files, outcome_21_back=='reward, no reward' & PreciseYrs < 18)))
# summary(lmer(same_choice_01_back ~ logTz + Gender + (1 | sID), subset(all_files, outcome_21_back=='reward, no reward' & PreciseYrs < 18)))

# # At the same time, younger participants reached lower long-term performance, as revealed in the significant effect of age on accuracy in a logistic regression in trials 3-7 post-switch (females: all $\beta's > 0.088$, all $p's < 0.43$, males: all $\beta's > 0.099$, all $p's< 0.032$; Fig. \ref{figure:BehaviorHuman}A)
# since_dat = subset(all_files, trialsinceswitch %in% c(-3, -2, 3:7))
# print(summary(glmer(ACC ~ PreciseYrs + PreciseYrs2 + Gender + trialsinceswitch + (1 | sID), since_dat, binomial)))
# print(summary(glmer(ACC ~ PDS + Gender + (1 | sID), subset(since_dat, PreciseYrs < 18), binomial)))
# print(summary(glmer(ACC ~ logTz + Gender + (1 | sID), subset(since_dat, PreciseYrs < 18), binomial)))
```

```{r Effects of age / PDS / T on behavior (t-tests)}
# post-hoc t-tests between selected groups
## Overall accuracy
t.test(mean_ACC ~ age_group, subset(ACCs, model_name == "Human" & age_group %in% c("75%", "25%")))
t.test(mean_ACC ~ PDS_group, subset(ACCs, model_name == "Human" & PDS_group %in% c("100%", "33%")))
t.test(mean_ACC ~ T_group, subset(ACCs, model_name == "Human" & T_group %in% c("100%", "25%")))

t.test(mean_ACC ~ age_group, subset(ACCs, model_name == "Human" & age_group %in% c("75%", "25-30")))
t.test(mean_ACC ~ PDS_group, subset(ACCs, model_name == "Human" & PDS_group %in% c("100%", "25-30")))
t.test(mean_ACC ~ T_group, subset(ACCs, model_name == "Human" & T_group %in% c("100%", "25-30")))

## Median correct response times
t.test(median_cor_RT ~ age_group, subset(ACCs, model_name == "Human" & age_group %in% c("75%", "25%")))
t.test(median_cor_RT ~ PDS_group, subset(ACCs, model_name == "Human" & PDS_group %in% c("100%", "33%")))
t.test(median_cor_RT ~ T_group, subset(ACCs, model_name == "Human" & T_group %in% c("100%", "25%")))

t.test(median_cor_RT ~ age_group, subset(ACCs, model_name == "Human" & age_group %in% c("75%", "25-30")))
t.test(median_cor_RT ~ PDS_group, subset(ACCs, model_name == "Human" & PDS_group %in% c("100%", "25-30")))
t.test(median_cor_RT ~ T_group, subset(ACCs, model_name == "Human" & T_group %in% c("100%", "25-30")))

## (Apparent) switch trials
t.test(stay ~ age_group, subset(reward_subj, model_name == "Human" & outcome_21_back=="reward, no reward" & age_group %in% c("75%", "25%")))
t.test(stay ~ PDS_group, subset(reward_subj, model_name == "Human" & outcome_21_back=="reward, no reward" & PDS_group %in% c("100%", "33%")))
t.test(stay ~ T_group, subset(reward_subj, model_name == "Human" & outcome_21_back=="reward, no reward" & T_group %in% c("100%", "25%")))

t.test(stay ~ age_group, subset(reward_subj, model_name == "Human" & outcome_21_back=="reward, no reward" & age_group %in% c("75%", "25-30")))
t.test(stay ~ PDS_group, subset(reward_subj, model_name == "Human" & outcome_21_back=="reward, no reward" & PDS_group %in% c("100%", "25-30")))
t.test(stay ~ T_group, subset(reward_subj, model_name == "Human" & outcome_21_back=="reward, no reward" & T_group %in% c("100%", "25-30")))

## Asymptotic performance
t.test(ACC ~ age_group, subset(asypmt_dat, model_name == "Human" & age_group %in% c("75%", "25%")))
t.test(ACC ~ PDS_group, subset(asypmt_dat, model_name == "Human" & PDS_group %in% c("100%", "33%")))
t.test(ACC ~ T_group, subset(asypmt_dat, model_name == "Human" & T_group %in% c("100%", "25%")))

t.test(ACC ~ age_group, subset(asypmt_dat, model_name == "Human" & age_group %in% c("75%", "25-30")))
t.test(ACC ~ PDS_group, subset(asypmt_dat, model_name == "Human" & PDS_group %in% c("100%", "25-30")))
t.test(ACC ~ T_group, subset(asypmt_dat, model_name == "Human" & T_group %in% c("100%", "25-30")))
```

```{r Effects of age on PCs (regression)}
# Age changes in PCs
PCs$PreciseYrs2 = PCs$PreciseYrs ^ 2
summary(lm(PC1 ~ PreciseYrs + PreciseYrs2 + Gender, PCs))
summary(lm(PC2 ~ PreciseYrs + PreciseYrs2 + Gender, PCs))
summary(lm(PC3 ~ PreciseYrs + PreciseYrs2 + Gender, PCs))
summary(lm(PC4 ~ PreciseYrs + PreciseYrs2 + Gender, PCs))
summary(lm(PC5 ~ PreciseYrs + PreciseYrs2 + Gender, PCs))
summary(lm(PC6 ~ PreciseYrs + PreciseYrs2 + Gender, PCs))
summary(lm(PC7 ~ PreciseYrs + PreciseYrs2 + Gender, PCs))
summary(lm(PC8 ~ PreciseYrs + PreciseYrs2 + Gender, PCs))
```

```{r Effects of age on PCs (t-tests)}
PCs$PC2_group = "high"
PCs$PC2_group[PCs$age_group %in% c("25%", "50%", "75%")] = "low"
t.test(PC2 ~ PC2_group, data=PCs)

PCs$PC4_group = "high"
PCs$PC4_group[PCs$age_group %in% c("25%", "50%")] = "low"
PCs$PC4_group[PCs$age_group %in% c("75%", "100%")] = "med"
(t_pc4_1 = t.test(PC4 ~ PC4_group, data=subset(PCs, PC4_group %in% c("low", "med"))))
(t_pc4_2 = t.test(PC4 ~ PC4_group, data=subset(PCs, PC4_group %in% c("med", "high"))))

p.adjust(c(t_pc4_1$p.value, t_pc4_2$p.value), method="bonferroni")

summary(subset(ages, sID >= 400 & sID < 1000))
summary(ddply(subset(all_files, sID >= 400 & sID < 1000), .(sID, PreciseYrs), summarize, x=NA))
```
```{r Effects of puberty on parameters within age bins (regression)}
age_gr = "75%"
regression_data = data.frame()

for (param_na in unique(param_dat_l$param_name)) {
  
  sub_dat = subset(param_dat_l, age_group==age_gr & param_name==param_na)
  
  ggplot(sub_dat, aes(meanT, param_value, color=Gender)) +
    geom_point() +
    geom_smooth(method="lm", formula=y ~ x, size=0.5, alpha=0.3)
  
  # # Which predictors should be included? -> puberty * sex gets us the largest r.squared
  # print(summary(lm(param_value ~ meanT, data=sub_dat))$r.squared)
  # print(summary(lm(param_value ~ meanT + Gender, data=sub_dat))$r.squared)
  # print(summary(lm(param_value ~ meanT * Gender, data=sub_dat))$r.squared)

  # Running the models
  PDS_mod = summary(lm(param_value ~ PDS * Gender, data=sub_dat))
  T_mod = summary(lm(param_value ~ meanT * Gender, data=sub_dat))
  
  T_coefs = as.data.frame(T_mod$coefficients)
  T_coefs$outcome = param_na
  PDS_coefs = as.data.frame(PDS_mod$coefficients)
  PDS_coefs$outcome = param_na
  regression_data = rbind(regression_data, T_coefs, PDS_coefs)
}
write.csv(regression_data, paste0(human_data_dir, "/PDS_T_regression.csv"))
```

```{r Run big hierarchical logistic outcome regression model}

# Run regression models for each subject, for each n in n-back
predictors = ""
for (n in 1:3) {
  for (cond in c("reward", "noReward")) {
    predictors = paste(c(predictors, paste0("back", n, cond)), collapse = " + ")
  }
}

# reward_formula = paste("selected_box ~ age_z + age2_z + (1 | Gender) + (1 | sID)", predictors)
# reward_formula = paste0("selected_box ~ Gender + (1 | sID) + (age_z + age2_z) * (", substring(predictors, 4), ")")
reward_formula = paste0("selected_box ~ (1 | Gender) + (1 | sID) + (age_z + age2_z) * (", substring(predictors, 4), ")")
reward_mod = glmer(as.formula(reward_formula),
          family = "binomial",
          data = subset(all_files_regr, model_name == "Human"))
summary(reward_mod)

predictors = ""
for (n in 1:4) {
  for (cond in c("reward", "noReward")) {
    predictors = paste(c(predictors, paste0("back", n, cond)), collapse = " + ")
  }
}

# reward_formula = paste("selected_box ~ age_z + age2_z + (1 | Gender) + (1 | sID)", predictors)
# reward_formula = paste0("selected_box ~ Gender + (1 | sID) + (age_z + age2_z) * (", substring(predictors, 4), ")")
reward_formula = paste0("selected_box ~ (1 | Gender) + (1 | sID) + (age_z + age2_z) * (", substring(predictors, 4), ")")
reward_mod = glmer(as.formula(reward_formula),
          family = "binomial",
          data = subset(all_files_regr, model_name == "Human"))
summary(reward_mod)

predictors = ""
for (n in 1:5) {
  for (cond in c("reward", "noReward")) {
    predictors = paste(c(predictors, paste0("back", n, cond)), collapse = " + ")
  }
}

# reward_formula = paste("selected_box ~ age_z + age2_z + (1 | Gender) + (1 | sID)", predictors)
# reward_formula = paste0("selected_box ~ Gender + (1 | sID) + (age_z + age2_z) * (", substring(predictors, 4), ")")
reward_formula = paste0("selected_box ~ (1 | Gender) + (1 | sID) + (age_z + age2_z) * (", substring(predictors, 4), ")")
reward_mod = glmer(as.formula(reward_formula),
          family = "binomial",
          data = subset(all_files_regr, model_name == "Human"))
summary(reward_mod)

predictors = ""
for (n in 1:6) {
  for (cond in c("reward", "noReward")) {
    predictors = paste(c(predictors, paste0("back", n, cond)), collapse = " + ")
  }
}

# reward_formula = paste("selected_box ~ age_z + age2_z + (1 | Gender) + (1 | sID)", predictors)
# reward_formula = paste0("selected_box ~ Gender + (1 | sID) + (age_z + age2_z) * (", substring(predictors, 4), ")")
reward_formula = paste0("selected_box ~ (1 | Gender) + (1 | sID) + (age_z + age2_z) * (", substring(predictors, 4), ")")
reward_mod = glmer(as.formula(reward_formula),
          family = "binomial",
          data = subset(all_files_regr, model_name == "Human"))
summary(reward_mod)

predictors = ""
for (n in 1:7) {
  for (cond in c("reward", "noReward")) {
    predictors = paste(c(predictors, paste0("back", n, cond)), collapse = " + ")
  }
}

# reward_formula = paste("selected_box ~ age_z + age2_z + (1 | Gender) + (1 | sID)", predictors)
# reward_formula = paste0("selected_box ~ Gender + (1 | sID) + (age_z + age2_z) * (", substring(predictors, 4), ")")
reward_formula = paste0("selected_box ~ (1 | Gender) + (1 | sID) + (age_z + age2_z) * (", substring(predictors, 4), ")")
reward_mod = glmer(as.formula(reward_formula),
          family = "binomial",
          data = subset(all_files_regr, model_name == "Human"))
summary(reward_mod)

predictors = ""
for (n in 1:8) {
  for (cond in c("reward", "noReward")) {
    predictors = paste(c(predictors, paste0("back", n, cond)), collapse = " + ")
  }
}

# reward_formula = paste("selected_box ~ age_z + age2_z + (1 | Gender) + (1 | sID)", predictors)
# reward_formula = paste0("selected_box ~ Gender + (1 | sID) + (age_z + age2_z) * (", substring(predictors, 4), ")")
reward_formula = paste0("selected_box ~ (1 | Gender) + (1 | sID) + (age_z + age2_z) * (", substring(predictors, 4), ")")
reward_mod = glmer(as.formula(reward_formula),
          family = "binomial",
          data = subset(all_files_regr, model_name == "Human"))
summary(reward_mod)

predictors = ""
for (n in 1:9) {
  for (cond in c("reward", "noReward")) {
    predictors = paste(c(predictors, paste0("back", n, cond)), collapse = " + ")
  }
}

# reward_formula = paste("selected_box ~ age_z + age2_z + (1 | Gender) + (1 | sID)", predictors)
# reward_formula = paste0("selected_box ~ Gender + (1 | sID) + (age_z + age2_z) * (", substring(predictors, 4), ")")
reward_formula = paste0("selected_box ~ (1 | Gender) + (1 | sID) + (age_z + age2_z) * (", substring(predictors, 4), ")")
reward_mod = glmer(as.formula(reward_formula),
          family = "binomial",
          data = subset(all_files_regr, model_name == "Human"))
summary(reward_mod)

predictors = ""
for (n in 1:10) {
  for (cond in c("reward", "noReward")) {
    predictors = paste(c(predictors, paste0("back", n, cond)), collapse = " + ")
  }
}

# reward_formula = paste("selected_box ~ age_z + age2_z + (1 | Gender) + (1 | sID)", predictors)
# reward_formula = paste0("selected_box ~ Gender + (1 | sID) + (age_z + age2_z) * (", substring(predictors, 4), ")")
reward_formula = paste0("selected_box ~ (1 | Gender) + (1 | sID) + (age_z + age2_z) * (", substring(predictors, 4), ")")
reward_mod = glmer(as.formula(reward_formula),
          family = "binomial",
          data = subset(all_files_regr, model_name == "Human"))
summary(reward_mod)

# T_formula = paste0("selected_box ~ (1 | Gender) + (1 | sID) + T_z * (", substring(predictors, 4), ")")
# PDS_formula = paste0("selected_box ~ (1 | Gender) + (1 | sID) + PDS_z * (", substring(predictors, 4), ")")
# PDS_mod = glmer(as.formula(PDS_formula),
#           family = "binomial",
#           data = subset(all_files_regr, PreciseYrs < 18))
# summary(PDS_mod)
# reward_coefs = as.data.frame(summary(reward_mod)$coef)
# reward_coefss = cbind(predictor=rownames(reward_coefs), back=n, data.frame(reward_coefs, row.names=NULL))
#   
# nback_regr_dat = rbind(nback_regr_dat, reward_coefss)

# 1:7 -> AIC 34683.3
# 1:6 -> AIC 34681.5
# 1:5 -> AIC 34680.2!!!
# 1:4 -> AIC 34682.5
```

```{r Same model but for individual participants}

predictors = ""
for (n in 1:8) {
  for (cond in c("reward", "noReward")) {
    predictors = paste(c(predictors, paste0("back", n, cond)), collapse = " + ")
  }
}

reward_formula_subj = paste0("selected_box ~ ", substring(predictors, 4))
# reward_formula_subj = "selected_box ~ back1reward + back1noReward"# + back2reward + back2noReward"
all_coefs = data.frame()

# Fit model for each subject
for (modeli in unique(all_files_regr$model_name)) {
  
  for (sIDi in unique(subset(all_files_regr, model_name == modeli)$sID)) {
    
    subj_dat = subset(all_files_regr, sID == sIDi & model_name == modeli)

    subj_mod = glm(as.formula(reward_formula_subj), data=subj_dat, family="binomial", control=glm.control(maxit=1000))
    coefs = data.frame(beta = subj_mod$coefficients)
    coefs$p = coef(summary(subj_mod))[,4]  # p-values
    coefs$predictor = rownames(coefs)
    coefs$sID = sIDi
    coefs$Gender = subj_dat$Gender[1]
    coefs$model_name = subj_dat$model_name[1]
    coefs$PreciseYrs = subj_dat$PreciseYrs[1]
    coefs$age_group = subj_dat$age_group[1]
    rownames(coefs) = NULL
    all_coefs = rbind(all_coefs, coefs)
  }
}

# Transform beta to avoid large values
for (modeli in unique(all_files_regr$model_name)) {
  for (n in 1:8) {
    for (cond in c("reward", "noReward")) {

      predictori = paste0("back", n, cond)

      sub_dat = subset(all_coefs, model_name == modeli & predictor == predictori)

      sig_beta = 2 * (1 / (1 + exp(-sub_dat$beta))) - 1

      all_coefs[all_coefs$model_name == modeli & all_coefs$predictor == predictori, "sig_beta"] = sig_beta
    }
  }
}

# Plot
(c_predictor_beta = ggplot(subset(all_coefs), aes(predictor, sig_beta, color=sID, fill=model_name)) +
  # geom_point(position="jitter") +
  stat_summary(geom="bar") +
  stat_summary() +
  scale_fill_manual(values=colors_validation) +
  theme(axis.text.x = element_text(angle = 30, hjust = 1)) +
  labs(x="") +
  facet_grid(age_group ~ model_name))

sub_dat = subset(all_coefs, predictor %in% c("back1reward", "back1noReward", "back2reward", "back2noReward"))

b_age_logregr = b_age_ACC + aes(y=sig_beta) + facet_grid( ~ predictor) + geom_hline(yintercept=0, linetype="dotted")
b_age_logregr$data = subset(sub_dat, model_name == "Human")
print(b_age_logregr)

c_age_logregr_validation = c_age_ACC_validation + aes(y=sig_beta) + facet_wrap( ~ predictor, scales="free") + labs(x="")
c_age_logregr_validation$data = sub_dat
print(c_age_logregr_validation)

# (c_age_logregr_validation = ggplot(sub_dat, aes(age_group, sig_beta, color=model_name, group=model_name, linetype=model_name!="Human")) +
#     # geom_point(position="jitter", alpha=0.2) +
#     stat_summary() +
#     stat_summary(geom="line") +
#     scale_color_manual(values=colors_validation) +
#     geom_hline(yintercept=0, linetype="dotted") +
#     labs(x="") +
#     facet_wrap( ~ predictor, scales="free"))

# Save plots
ggsave(file.path(plot_dir, "c_predictor_beta.png"), c_predictor_beta, width=10, height=10)
ggsave(file.path(plot_dir, "b_age_logregr.png"), b_age_logregr, width=8, height=3)
ggsave(file.path(plot_dir, "c_age_logregr_validation.png"), c_age_logregr_validation, width=7, height=5)

ggsave(file.path(plot_dir, "c_predictor_beta.eps"), c_predictor_beta, width=10, height=10)
ggsave(file.path(plot_dir, "b_age_logregr.svg"), b_age_logregr, width=8, height=3)
ggsave(file.path(plot_dir, "c_age_logregr_validation.eps"), c_age_logregr_validation, width=7, height=5)
```

```{r Compare RL and BF parameters}
# ML fitting
# RL_ML_dir = "C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/map_indiv/new_ML_models/params_RLabcnpx_age_z_271_pymc3.csv"
# BF_ML_dir = "C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/map_indiv/new_ML_models/params_Bbpr_age_z_271_pymc3.csv"
RL_ML_dir = "C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/map_indiv/new_ML_models/params_RLabnp2_age_z_271_pymc3.csv"
BF_ML_dir = "C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/map_indiv/new_ML_models/params_Bbspr_age_z_271_pymc3.csv"

# Bayesian fitting
# RL_ML_dir = "C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/map_indiv/new_ML_models/MCMC/clustermodels/params_RLabcnpx_age_z_271_pymc3.csv"
# BF_ML_dir = "C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/map_indiv/new_ML_models/MCMC/clustermodels/params_Bbpr_age_z_271_pymc3.csv"
RL_ML_dir = "C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/new_ML_models/MCMC/clustermodels/params_RLabnp2_age_z_291_pymc3.csv"
BF_ML_dir = "C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/new_ML_models/MCMC/clustermodels/params_Bbspr_age_z_291_pymc3.csv"

params_RL = subset(read.csv(RL_ML_dir), select=c("beta", "persev", "alpha", "nalpha", "sID"))
params_BF = subset(read.csv(BF_ML_dir), select=c("beta", "persev", "p_switch", "p_reward", "sID"))

params = merge(params_RL, params_BF, by="sID", suffixes=c("_RL", "_BF"))
params$sID = NULL

gg_beta_RL_BF =
  ggplot(params, aes(beta_RL, beta_BF)) +
    geom_point(alpha=0.2, size=1) +
    geom_smooth(method="lm", color="black") +
    coord_cartesian(xlim=c(0, 15), ylim=c(0, 15))
gg_persev_RL_BF = gg_beta_RL_BF +
  aes(persev_RL, persev_BF) +
  coord_cartesian(xlim=c(-1, 1), ylim=c(-1, 1))

ggsave(file.path(plot_dir, "gg_beta_RL_BF.eps"), gg_beta_RL_BF, width=2, height=2)
ggsave(file.path(plot_dir, "gg_persev_RL_BF.eps"), gg_persev_RL_BF, width=2, height=2)

library("corrplot")
cor_matrix = cor(params, use="complete.obs")
p_values = cor.mtest(params, conf.level = .95)

corrplot(cor_matrix, method="color", #col=col(200),
     number.cex = 0.8, type = "upper", 
     addCoef.col="black", # Add coefficient of correlation
     tl.col="black", tl.srt=30, cl.pos="b", # Text label, color, and rotation
     # Combine with significance
     p.mat = p_values$p, sig.level=0.05, insig="blank",
     )

cor.test(params$beta_BF, params$beta_RL, method="pearson")
cor.test(params$persev_BF, params$persev_RL, method="pearson")
cor.test(params$nalpha, params$p_reward, method="pearson")
cor.test(params$beta_RL, params$p_switch, method="pearson")
```
```{r GenRec}
# ML fitting
simBF_params = read.csv("C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/map_indiv/new_ML_models/simulate/params_Bbspr_age_z_271_pymc3.csv")
recBF_params = read.csv("C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/map_indiv/new_ML_models/gen_rec/params_simBbsprrecBsbpr_age_z_271_pymc3.csv")
simRL_params = read.csv("C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/map_indiv/new_ML_models/simulate/params_RLabnp2_age_z_271_pymc3.csv")
recRL_params = read.csv("C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/map_indiv/new_ML_models/gen_rec/params_simRLabnp2recRLabnp2_age_z_271_pymc3.csv")
# simBF_params = read.csv("C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/map_indiv/new_ML_models/simulate/params_Bbpr_age_z_271_pymc3.csv")
# recBF_params = read.csv("C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/map_indiv/new_ML_models/gen_rec/params_simBbprrecBbpr_age_z_271_pymc3.csv")
# simRL_params = read.csv("C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/map_indiv/new_ML_models/simulate/params_RLabcnpx_age_z_271_pymc3.csv")
# recRL_params = read.csv("C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/map_indiv/new_ML_models/gen_rec/params_simRLabcnpxrecRLabcnpx_age_z_271_pymc3.csv")

# Bayesian fitting
simBF_params = read.csv("C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/map_indiv/new_ML_models/MCMC/clustermodels/params_Bbspr_age_z_271_pymc3.csv")
recBF_params = read.csv("C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/map_indiv/new_ML_models/MCMC/clustermodels/genrec/simBbspr/params_Bbspr_age_z_271_pymc3.csv")
simRL_params = read.csv("C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/map_indiv/new_ML_models/MCMC/clustermodels/params_RLabnp2_age_z_271_pymc3.csv")
recRL_params = read.csv("C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/map_indiv/new_ML_models/MCMC/clustermodels/genrec/simRLabnp2/params_RLabnp2_age_z_271_pymc3.csv")
# simBF_params = read.csv("C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/map_indiv/new_ML_models/MCMC/clustermodels/params_Bbpr_age_z_271_pymc3.csv")
# recBF_params = read.csv("C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/map_indiv/new_ML_models/MCMC/clustermodels/genrec/simBbpr/params_Bbpr_age_z_271_pymc3.csv")
# simRL_params = read.csv("C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/map_indiv/new_ML_models/MCMC/clustermodels/params_RLabcnpx_age_z_271_pymc3.csv")
# recRL_params = read.csv("C:/Users/maria/MEGAsync/SLCN/PShumanData/fitting/map_indiv/new_ML_models/MCMC/clustermodels/genrec/simRLabcnpx/params_RLabcnpx_age_z_271_pymc3.csv")

# Plots
BF_params =
  merge(melt(subset(simBF_params, select=c("beta", "persev", "p_switch", "p_reward", "sID")), id.var="sID", variable.name="param"),
        melt(subset(recBF_params, select=c("beta", "persev", "p_switch", "p_reward", "sID")), id.var="sID", variable.name="param"),
        by=c("sID", "param"), suffixes=c("_sim", "_rec"))
gg_genrec_BF =
  ggplot(BF_params, aes(value_sim, value_rec)) +
    geom_point(alpha=0.2, size=1) +
    geom_smooth(method="lm", color="black") +
    facet_wrap(~ param, scales="free")

RL_params =
  merge(melt(subset(simRL_params, select=c("beta", "persev", "alpha", "nalpha", "sID")), id.var="sID", variable.name="param"),
        melt(subset(recRL_params, select=c("beta", "persev", "alpha", "nalpha", "sID")), id.var="sID", variable.name="param"),
        by=c("sID", "param"), suffixes=c("_sim", "_rec"))
gg_genrec_RL = gg_genrec_BF
gg_genrec_RL$data = RL_params

ggsave(file.path(plot_dir, "gg_genrec_BF.eps"), gg_genrec_BF, width=3.5, height=3.5)
ggsave(file.path(plot_dir, "gg_genrec_RL.eps"), gg_genrec_RL, width=3.5, height=3.5)
```

```{r Fit exponential model to regression weights}
# Visualize one example
dat = subset(nback_regr_dat, sID == unique(nback_regr_dat$sID)[1] & predictor == "reward")
# exp_mod = nls(Estimate ~ k * exp(-lambda * back), data = dat, start = list(k = .1, lambda = .1))
exp_mod = nls(Estimate ~ k * exp(-back), data = dat, start = list(k = .1))
plot(dat$back, dat$Estimate)
lines(dat$back, predict(exp_mod, list(x = dat$back)))

# Run on all participants
exp_coefs = data.frame()
for (subj in unique(nback_regr_dat$sID)) {
  for (pred in unique(nback_regr_dat$predictor[nback_regr_dat$predictor != "(Intercept)"])) {
    subj_dat = subset(nback_regr_dat, sID == subj & predictor == pred)
    exp_mod =
      try(nls(Estimate ~ k * exp(-back), data = subj_dat, start = list(k = .1)), silent = T)
    if (class(exp_mod) != "try-error") {
      subj_coefs = summary(exp_mod)$coef
      # subj_coefs = cbind(sID = subj, regr_predictor = pred, exp_predictor = rownames(subj_coefs), as.data.frame(subj_coefs, row.names = F))
      subj_coefs = cbind(sID = subj, regr_predictor = pred, exp_predictor = rownames(subj_coefs), as.data.frame(subj_coefs, row.names = '1'))
      exp_coefs = rbind(exp_coefs, subj_coefs)
    }
  }
}
exp_coefs = merge(exp_coefs, ages, all.x = T)
exp_coefs$sig_Estimate = NA
exp_coefs$sig_Estimate[exp_coefs$exp_predictor == "k"] = 1 / (1 + exp(-exp_coefs$Estimate[exp_coefs$exp_predictor == "k"] / 5))
exp_coefs$sig_Estimate[exp_coefs$exp_predictor == "lambda"] = 1 / (1 + exp(-exp_coefs$Estimate[exp_coefs$exp_predictor == "lambda"] / .5))
```
```{r Plot parameters of the exponential model}
gg_exp_coefs_age = ggplot(exp_coefs, aes(PreciseYrs, Estimate, color = regr_predictor)) +
  geom_point() +
  geom_smooth() +
  labs(y = "Regr beta ~ k * exp(-lambda * back)") +
  facet_wrap(~ exp_predictor, scale = "free")
gg_exp_coefs_age_sig = gg_exp_coefs_age + aes(y = sig_Estimate)

gg_exp_coefs_agecat =
  ggplot(subset(exp_coefs), aes(age_group, Estimate, color = regr_predictor, group = regr_predictor)) +
  geom_point(position = "jitter", alpha = 0.2) +
  stat_summary(fun.data = mean_se) +
  labs(y = "Regr beta ~ k * exp(-lambda * back)") +
  stat_summary(fun.data = mean_se, geom = "line") +
  facet_wrap(~ exp_predictor, scale = "free")
gg_exp_coefs_agecat_sig = gg_exp_coefs_agecat + aes(y = sig_Estimate)

ggsave(file.path(plot_dir, "gg_exp_coefs_age_sig.eps"), gg_exp_coefs_age_sig)
ggsave(file.path(plot_dir, "gg_exp_coefs_agecat_sig.eps"), gg_exp_coefs_agecat_sig)
ggsave(file.path(plot_dir, "gg_exp_coefs_age.eps"), gg_exp_coefs_age)
ggsave(file.path(plot_dir, "gg_exp_coefs_agecat.eps"), gg_exp_coefs_agecat)
```
```{r Relationship with age and puberty: Other measures}
# Overall ACC
sum_dat_pre = ddply(all_files, .(sID, block, version, PreciseYrs, Gender, Category, PDS), summarize,
                ACC = mean(ACC, na.rm = T),
                RT = median(RT, na.rm = T),
                stay = mean(stay, na.rm = T))
sum_dat = ddply(sum_dat_pre, .(sID, PreciseYrs, Gender, Category, PDS), summarize,
                mean_ACC = mean(ACC, na.rm = T),
                median_RT = median(RT, na.rm = T),
                n_blocks = max(block, na.rm = T),
                stay = mean(stay, na.rm = T))

gg_age_ACC =
  ggplot(sum_dat, aes(PreciseYrs, mean_ACC)) +
  geom_point() +
  geom_smooth()
gg_age_RT = gg_age_ACC + aes(y = median_RT)
gg_PDS_ACC = gg_age_ACC + aes(x = PDS)
gg_PDS_RT = gg_PDS_ACC + aes(y = median_RT)
gg_age_n_blocks = gg_age_ACC + aes(y = n_blocks)
gg_PDS_n_blocks = gg_age_n_blocks + aes(x = PDS)
gg_age_overall_stay = gg_age_ACC + aes(y = stay)
gg_PDS_overall_stay = gg_age_overall_stay + aes(x = PDS)

# Trials to reach criterion
all_files$roll_ACC = rollmean(all_files$ACC, 3, fill = NA, align = "right")
all_files$roll_ACC[all_files$trialsinceswitch >= 0 & all_files$trialsinceswitch < 2] = NA
all_files$criterion_2of3 = all_files$roll_ACC >= 0.6
criterion_dat = ddply(subset(all_files, criterion_2of3 == T & trialsinceswitch > 0), .(sID, PreciseYrs, Gender, Category, PDS, block), summarize,
      trials_to_criterion = min(trialsinceswitch))

gg_age_criterion = ggplot(criterion_dat, aes(PreciseYrs, trials_to_criterion)) +
  geom_point() +
  geom_smooth()
gg_PDS_criterion = gg_age_criterion + aes(x = PDS)

# Prominence of WSLS
wsls_wide = reshape(subset(wsls, select = -age_group), direction = "wide", timevar = "reward", idvar = "sID")
wsls_wide$wsls = with(wsls_wide, stay.1 + (1 - stay.0))
wsls_wide = merge(wsls_wide, ages, all.x = T)
wsls = merge(wsls, ages, all.x = T)

gg_age_wsls = ggplot(wsls, aes(PreciseYrs, stay, color = reward)) +
  geom_point() +
  geom_smooth()
gg_PDS_wsls = gg_age_wsls + aes(x = PDS)
```
```{r}
# Effect of reward history
rewhist_dat_pre = ddply(all_files, .(sID, version, outcome_21_back), summarize,
                    stay = mean(same_choice_01_back, na.rm = T))
rewhist_dat = ddply(rewhist_dat_pre, .(sID, outcome_21_back), summarize,
                    stay = mean(stay))
rewhist_dat = merge(rewhist_dat, ages, all.x = T)
gg_age_rewhist =
  ggplot(subset(rewhist_dat, !is.na(outcome_21_back)), aes(PreciseYrs, stay, color = outcome_21_back)) +
  geom_point() +
    geom_smooth()
gg_PDS_rewhist = gg_age_rewhist + aes(x = PDS)

# RT variability || age
RT_sd_dat = ddply(all_files, .(sID, PreciseYrs, PDS), summarize,
      RT_sd = sd(RT, na.rm = T))
gg_age_RT_sd = ggplot(RT_sd_dat, aes(PreciseYrs, RT_sd)) +
  geom_point() +
  geom_smooth()
gg_PDS_RT_sd = gg_age_RT_sd + aes(x = PDS)

# Save plots
if (gg_save) {
  ggsave(file.path(plot_dir, "gg_age_criterion.eps"), gg_age_criterion)
  ggsave(file.path(plot_dir, "gg_PDS_criterion.eps"), gg_PDS_criterion)
  ggsave(file.path(plot_dir, "gg_PDS_ACC.eps"), gg_PDS_ACC)
  ggsave(file.path(plot_dir, "gg_age_ACC.eps"), gg_age_ACC)
  ggsave(file.path(plot_dir, "gg_age_wsls.eps"), gg_age_wsls)
  ggsave(file.path(plot_dir, "gg_PDS_wsls.eps"), gg_PDS_wsls)
  ggsave(file.path(plot_dir, "gg_age_rewhist.eps"), gg_age_rewhist)
  ggsave(file.path(plot_dir, "gg_PDS_rewhist.eps"), gg_PDS_rewhist)
  ggsave(file.path(plot_dir, "gg_age_n_blocks.eps"), gg_age_n_blocks)
  ggsave(file.path(plot_dir, "gg_PDS_n_blocks.eps"), gg_PDS_n_blocks)
  ggsave(file.path(plot_dir, "gg_age_overall_stay.eps"), gg_age_overall_stay)
  ggsave(file.path(plot_dir, "gg_PDS_overall_stay.eps"), gg_PDS_overall_stay)
}

if (data_name != "simulated_human") {
  # RT ~ trialID || age
  RT_slope_dat = data.frame()
  for (subj in unique(all_files$sID)) {
    subj_dat = subset(all_files, sID == subj)
    RT_mod = lm(RT ~ TrialID, data = subj_dat)
    coefs = as.data.frame(summary(RT_mod)$coefficients)
    coefss = cbind(sID = subj, predictor = rownames(coefs), data.frame(coefs, row.names = NULL))
    RT_slope_dat = rbind(RT_slope_dat, rbind(coefss))
  }
  RT_slope_dat = merge(RT_slope_dat, ages, all.x = T)
  
  gg_age_RT_slope = ggplot(subset(RT_slope_dat, predictor == "TrialID"), aes(PreciseYrs, Estimate)) +# & `Pr...t..` < 0.05
    geom_point() +
    geom_smooth()
  gg_PDS_RT_slope = gg_age_RT_slope + aes(x = PDS)

  # Save plots
  if (gg_save) {
    ggsave(file.path(plot_dir, "gg_age_RT.eps"), gg_age_RT)
    ggsave(file.path(plot_dir, "gg_PDS_RT.eps"), gg_PDS_RT)
    ggsave(file.path(plot_dir, "gg_age_RT_sd.eps"), gg_age_RT_sd)
    ggsave(file.path(plot_dir, "gg_PDS_RT_sd.eps"), gg_PDS_RT_sd)
    ggsave(file.path(plot_dir, "gg_age_RT_slope.eps"), gg_age_RT_slope)
  }
}
```