Source code for dowhy.utils.dgp

import numpy as np
import pandas as pd
[docs]class DataGeneratingProcess():

    DEFAULT_PERCENTILE = 0.9
    def __init__(self, **kwargs):
        '''
        Base class for implementation of data generating process. 

        Subclasses implement functions that create various data generating processes. All data generating processes are in the package "dowhy.utils.dgps". 
        '''
        self.treatment = kwargs['treatment']
        self.outcome = kwargs['outcome']
        self.confounder = kwargs['confounder']
        self.effect_modifier = kwargs['effect_modifier']
        self.weights = kwargs.pop('weights',{})
        self.bias = kwargs.pop('bias',{})
        self.seed = kwargs.pop('seed',None)
        self.treatment_is_binary = kwargs.pop('treatment_is_binary', False)
        if self.treatment_is_binary:
            self.percentile = kwargs.pop('percentile', DataGeneratingProcess.DEFAULT_PERCENTILE)
        elif kwargs.pop('percentile', None) is not None:
            raise ValueError('Cannot use percentile, if the input is non-binary')
        else:
            self.percentile = "NA"
        self.true_value = None
        if self.seed is not None:
            np.random.seed(self.seed)


[docs]    def generate_data(self):
        raise NotImplementedError()

[docs]    def generation_process(self):
        raise NotImplementedError()

[docs]    def convert_to_binary(self, data, deterministic=False):
        if deterministic:
            precentile = np.percentile(data, self.percentile, axis=0)
            binary_treat_value = data <= precentile
        else:
            temp = data.argsort(axis=0)
            ranks = np.empty_like(temp)
            ranks[temp[:,0],0] = np.arange(data.shape[0])
            prob_t = ranks/data.shape[0]
            # Generating data with equal 0 and 1 (since ranks are uniformly distributed)
            binary_treat_value = np.random.binomial(1, prob_t[:,0], data.shape[0])

            # Flipping some values
            if self.percentile >=0.5:
                mask = np.random.binomial(1, (1-self.percentile)*2, len(binary_treat_value[binary_treat_value==1]))
                binary_treat_value[binary_treat_value==1] = mask * binary_treat_value[binary_treat_value==1]
            else:
                mask = np.random.binomial(1, 1- self.percentile*2, len(binary_treat_value[binary_treat_value==0]))
                binary_treat_value[binary_treat_value==0] = mask + binary_treat_value[binary_treat_value==0]
            binary_treat_value = binary_treat_value[:,np.newaxis]
            
        return binary_treat_value.astype(float)

    def __str__(self):
        rep = """
        treatment:{}
        outcome:{}
        confounder: {}
        effect_modifier: {}
        weights: {}
        bias: {}
        seed: {}
        treatment_is_binary: {}
        percentile: {}
        """.format(self.treatment, self.outcome, self.confounder, self.effect_modifier, self.weights, self.bias, self.seed, self.treatment_is_binary, self.percentile)

        return rep