📘 A/B Testing: Statistical Analysis

🎯 Introduction

Welcome to this exciting tutorial on A/B Testing and Statistical Analysis! 🎉 Have you ever wondered how companies decide whether a new feature or design change actually improves user experience? That’s where A/B testing comes in!

You’ll discover how A/B testing can transform your data-driven decision making. Whether you’re optimizing website conversions 🌐, improving app features 📱, or testing marketing campaigns 📊, understanding A/B testing is essential for making confident business decisions backed by data.

By the end of this tutorial, you’ll feel confident running your own A/B tests and interpreting the results like a pro! Let’s dive in! 🏊‍♂️

📚 Understanding A/B Testing

🤔 What is A/B Testing?

A/B testing is like being a scientist in the business world 🧪. Think of it as running controlled experiments where you show different versions of something to different groups and measure which performs better.

In Python terms, A/B testing involves statistical analysis to determine if differences between two groups are meaningful or just random chance. This means you can:

✨ Make data-driven decisions with confidence
🚀 Optimize user experiences based on evidence
🛡️ Avoid costly mistakes by testing first

💡 Why Use A/B Testing?

Here’s why data scientists and businesses love A/B testing:

Statistical Rigor 🔒: Make decisions based on math, not gut feelings
Risk Reduction 💻: Test changes on small groups before full rollout
Clear Insights 📖: Know exactly what works and what doesn’t
Continuous Improvement 🔧: Keep optimizing based on user behavior

Real-world example: Imagine testing two checkout button colors on an e-commerce site 🛒. With A/B testing, you can prove which color actually increases sales!

🔧 Basic Syntax and Usage

📝 Simple Example

Let’s start with a friendly example:

# 👋 Hello, A/B Testing!
import numpy as np
import pandas as pd
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

# 🎨 Creating sample A/B test data
np.random.seed(42)  # For reproducibility

# 🎯 Group A (Control) - Original design
group_a_conversions = np.random.binomial(n=1, p=0.10, size=1000)  # 10% conversion rate
group_a_df = pd.DataFrame({
    'group': 'A',
    'converted': group_a_conversions
})

# 🚀 Group B (Treatment) - New design
group_b_conversions = np.random.binomial(n=1, p=0.12, size=1000)  # 12% conversion rate
group_b_df = pd.DataFrame({
    'group': 'B', 
    'converted': group_b_conversions
})

# 📊 Combine the data
ab_test_data = pd.concat([group_a_df, group_b_df])
print("A/B Test Data Ready! 🎉")

💡 Explanation: Notice how we simulate two groups with slightly different conversion rates. This is the foundation of A/B testing!

🎯 Common Patterns

Here are patterns you’ll use daily:

# 🏗️ Pattern 1: Calculate conversion rates
def calculate_conversion_rate(data, group):
    """Calculate conversion rate for a specific group 📈"""
    group_data = data[data['group'] == group]
    conversion_rate = group_data['converted'].mean()
    return conversion_rate

# 🎨 Pattern 2: Perform statistical test
def perform_ab_test(data):
    """Run statistical significance test 🧪"""
    group_a = data[data['group'] == 'A']['converted']
    group_b = data[data['group'] == 'B']['converted']
    
    # Chi-square test for proportions
    stat, p_value = stats.chi2_contingency([
        [group_a.sum(), len(group_a) - group_a.sum()],
        [group_b.sum(), len(group_b) - group_b.sum()]
    ])[:2]
    
    return p_value

# 🔄 Pattern 3: Visualize results
def plot_ab_results(data):
    """Create beautiful visualizations 🎨"""
    conversion_rates = data.groupby('group')['converted'].agg(['mean', 'count'])
    
    plt.figure(figsize=(10, 6))
    bars = plt.bar(conversion_rates.index, conversion_rates['mean'])
    bars[0].set_color('lightblue')  # Control
    bars[1].set_color('lightgreen')  # Treatment
    
    plt.title('A/B Test Results 🚀', fontsize=16)
    plt.ylabel('Conversion Rate 📊')
    plt.ylim(0, 0.15)
    
    # Add percentage labels
    for i, bar in enumerate(bars):
        height = bar.get_height()
        plt.text(bar.get_x() + bar.get_width()/2., height,
                f'{height:.1%}', ha='center', va='bottom')
    
    plt.show()

💡 Practical Examples

🛒 Example 1: E-commerce Button Test

Let’s build something real:

# 🛍️ E-commerce A/B test scenario
class EcommerceABTest:
    def __init__(self, name):
        self.name = name
        self.results = {'A': [], 'B': []}
        
    # 📊 Simulate user interactions
    def run_experiment(self, days=30, daily_visitors=1000):
        """Simulate a 30-day A/B test 📅"""
        print(f"🚀 Starting {self.name} experiment!")
        
        for day in range(days):
            # Split traffic 50/50
            visitors_per_group = daily_visitors // 2
            
            # Group A: Blue "Buy Now" button (baseline 10% CTR)
            daily_conversions_a = np.random.binomial(
                n=visitors_per_group, 
                p=0.10 + np.random.normal(0, 0.01)  # Add daily variance
            )
            
            # Group B: Green "Buy Now" button (testing 12% CTR)
            daily_conversions_b = np.random.binomial(
                n=visitors_per_group,
                p=0.12 + np.random.normal(0, 0.01)
            )
            
            self.results['A'].append({
                'day': day + 1,
                'visitors': visitors_per_group,
                'conversions': daily_conversions_a
            })
            
            self.results['B'].append({
                'day': day + 1,
                'visitors': visitors_per_group,
                'conversions': daily_conversions_b
            })
            
        print(f"✅ Experiment complete! Ran for {days} days")
    
    # 📈 Analyze results
    def analyze_results(self):
        """Calculate statistics and significance 🧪"""
        # Convert to DataFrames
        df_a = pd.DataFrame(self.results['A'])
        df_b = pd.DataFrame(self.results['B'])
        
        # Calculate overall metrics
        total_visitors_a = df_a['visitors'].sum()
        total_conversions_a = df_a['conversions'].sum()
        conversion_rate_a = total_conversions_a / total_visitors_a
        
        total_visitors_b = df_b['visitors'].sum()
        total_conversions_b = df_b['conversions'].sum()
        conversion_rate_b = total_conversions_b / total_visitors_b
        
        # Statistical significance test
        chi2, p_value = stats.chi2_contingency([
            [total_conversions_a, total_visitors_a - total_conversions_a],
            [total_conversions_b, total_visitors_b - total_conversions_b]
        ])[:2]
        
        # Calculate lift
        lift = (conversion_rate_b - conversion_rate_a) / conversion_rate_a * 100
        
        # Pretty print results
        print("\n📊 A/B Test Results Dashboard")
        print("=" * 50)
        print(f"🔵 Group A (Blue Button):")
        print(f"   Visitors: {total_visitors_a:,}")
        print(f"   Conversions: {total_conversions_a:,}")
        print(f"   Conversion Rate: {conversion_rate_a:.2%}")
        print(f"\n🟢 Group B (Green Button):")
        print(f"   Visitors: {total_visitors_b:,}")
        print(f"   Conversions: {total_conversions_b:,}")
        print(f"   Conversion Rate: {conversion_rate_b:.2%}")
        print(f"\n📈 Lift: {lift:+.1f}%")
        print(f"📊 P-value: {p_value:.4f}")
        
        if p_value < 0.05:
            print(f"✅ Result is statistically significant! 🎉")
            if lift > 0:
                print(f"🚀 Group B performs better!")
            else:
                print(f"🔵 Group A performs better!")
        else:
            print(f"⚠️ No significant difference detected")
        
        return {
            'conversion_rate_a': conversion_rate_a,
            'conversion_rate_b': conversion_rate_b,
            'lift': lift,
            'p_value': p_value,
            'significant': p_value < 0.05
        }

# 🎮 Let's run it!
button_test = EcommerceABTest("Button Color Test")
button_test.run_experiment(days=30, daily_visitors=2000)
results = button_test.analyze_results()

🎯 Try it yourself: Add a confidence interval calculation and sample size calculator!

🎮 Example 2: App Feature Testing

Let’s make it fun with mobile app testing:

# 🏆 Mobile app feature A/B test
class MobileAppABTest:
    def __init__(self):
        self.metrics = {
            'retention': {'A': [], 'B': []},
            'engagement': {'A': [], 'B': []},
            'revenue': {'A': [], 'B': []}
        }
    
    # 🎮 Simulate user behavior
    def simulate_users(self, n_users=5000):
        """Generate realistic user data 👥"""
        print("🎮 Simulating user behavior...")
        
        # Split users into groups
        users_per_group = n_users // 2
        
        # Group A: Original app experience
        for i in range(users_per_group):
            # 7-day retention (60% baseline)
            retained = np.random.random() < 0.60
            self.metrics['retention']['A'].append(retained)
            
            # Daily sessions (mean=3)
            sessions = np.random.poisson(3)
            self.metrics['engagement']['A'].append(sessions)
            
            # Revenue per user ($0-10, 20% paying users)
            if np.random.random() < 0.20:
                revenue = np.random.exponential(5)
            else:
                revenue = 0
            self.metrics['revenue']['A'].append(revenue)
        
        # Group B: New gamification features
        for i in range(users_per_group):
            # 7-day retention (68% with gamification)
            retained = np.random.random() < 0.68
            self.metrics['retention']['B'].append(retained)
            
            # Daily sessions (mean=4 with gamification)
            sessions = np.random.poisson(4)
            self.metrics['engagement']['B'].append(sessions)
            
            # Revenue per user (25% paying users with gamification)
            if np.random.random() < 0.25:
                revenue = np.random.exponential(6)
            else:
                revenue = 0
            self.metrics['revenue']['B'].append(revenue)
        
        print("✅ User simulation complete!")
    
    # 📊 Multi-metric analysis
    def analyze_all_metrics(self):
        """Analyze multiple metrics simultaneously 📈"""
        results = {}
        
        print("\n🎯 Multi-Metric A/B Test Analysis")
        print("=" * 60)
        
        for metric_name, metric_data in self.metrics.items():
            group_a = np.array(metric_data['A'])
            group_b = np.array(metric_data['B'])
            
            if metric_name == 'retention':
                # Binary metric (proportion test)
                stat, p_value = stats.chi2_contingency([
                    [group_a.sum(), len(group_a) - group_a.sum()],
                    [group_b.sum(), len(group_b) - group_b.sum()]
                ])[:2]
                mean_a = group_a.mean()
                mean_b = group_b.mean()
            else:
                # Continuous metric (t-test)
                stat, p_value = stats.ttest_ind(group_a, group_b)
                mean_a = group_a.mean()
                mean_b = group_b.mean()
            
            lift = (mean_b - mean_a) / mean_a * 100 if mean_a > 0 else 0
            
            results[metric_name] = {
                'mean_a': mean_a,
                'mean_b': mean_b,
                'lift': lift,
                'p_value': p_value,
                'significant': p_value < 0.05
            }
            
            # Pretty print
            emoji_map = {
                'retention': '🔄',
                'engagement': '💫', 
                'revenue': '💰'
            }
            
            print(f"\n{emoji_map.get(metric_name, '📊')} {metric_name.upper()}")
            print(f"   Group A: {mean_a:.3f}")
            print(f"   Group B: {mean_b:.3f}")
            print(f"   Lift: {lift:+.1f}%")
            print(f"   P-value: {p_value:.4f}")
            print(f"   Significant: {'✅ Yes' if p_value < 0.05 else '❌ No'}")
        
        return results
    
    # 🎨 Visualize all metrics
    def plot_results(self):
        """Create comprehensive visualization 📊"""
        fig, axes = plt.subplots(1, 3, figsize=(15, 5))
        
        metrics_info = [
            ('retention', '7-Day Retention Rate', '🔄'),
            ('engagement', 'Avg Daily Sessions', '💫'),
            ('revenue', 'Revenue per User ($)', '💰')
        ]
        
        for idx, (metric, title, emoji) in enumerate(metrics_info):
            ax = axes[idx]
            
            # Calculate means
            mean_a = np.mean(self.metrics[metric]['A'])
            mean_b = np.mean(self.metrics[metric]['B'])
            
            # Create bar plot
            bars = ax.bar(['Group A', 'Group B'], [mean_a, mean_b])
            bars[0].set_color('skyblue')
            bars[1].set_color('lightcoral')
            
            # Add value labels
            for bar in bars:
                height = bar.get_height()
                if metric == 'retention':
                    label = f'{height:.1%}'
                elif metric == 'revenue':
                    label = f'${height:.2f}'
                else:
                    label = f'{height:.1f}'
                ax.text(bar.get_x() + bar.get_width()/2., height,
                       label, ha='center', va='bottom')
            
            ax.set_title(f'{emoji} {title}')
            ax.set_ylim(0, max(mean_a, mean_b) * 1.2)
        
        plt.suptitle('Mobile App A/B Test Results 🚀', fontsize=16)
        plt.tight_layout()
        plt.show()

# 🎮 Run the mobile app test!
app_test = MobileAppABTest()
app_test.simulate_users(n_users=10000)
app_results = app_test.analyze_all_metrics()
app_test.plot_results()

🚀 Advanced Concepts

🧙‍♂️ Advanced Topic 1: Bayesian A/B Testing

When you’re ready to level up, try Bayesian methods:

# 🎯 Bayesian A/B testing approach
from scipy.stats import beta

class BayesianABTest:
    def __init__(self, alpha_prior=1, beta_prior=1):
        """Initialize with prior beliefs 🧠"""
        self.alpha_prior = alpha_prior
        self.beta_prior = beta_prior
        
    def analyze_bayesian(self, successes_a, trials_a, successes_b, trials_b):
        """Perform Bayesian analysis 🔮"""
        # Update posteriors
        alpha_a = self.alpha_prior + successes_a
        beta_a = self.beta_prior + trials_a - successes_a
        
        alpha_b = self.alpha_prior + successes_b
        beta_b = self.beta_prior + trials_b - successes_b
        
        # Sample from posteriors
        samples_a = beta.rvs(alpha_a, beta_a, size=10000)
        samples_b = beta.rvs(alpha_b, beta_b, size=10000)
        
        # Calculate probability B > A
        prob_b_better = (samples_b > samples_a).mean()
        
        # Expected lift
        expected_lift = (samples_b.mean() - samples_a.mean()) / samples_a.mean() * 100
        
        print(f"🔮 Bayesian Results:")
        print(f"   P(B > A): {prob_b_better:.1%}")
        print(f"   Expected lift: {expected_lift:+.1f}%")
        
        return prob_b_better, expected_lift

# 🪄 Try it out!
bayesian_test = BayesianABTest()
prob, lift = bayesian_test.analyze_bayesian(
    successes_a=120, trials_a=1000,
    successes_b=150, trials_b=1000
)

🏗️ Advanced Topic 2: Sequential Testing

For the brave data scientists:

# 🚀 Sequential testing for early stopping
class SequentialABTest:
    def __init__(self, alpha=0.05, power=0.80):
        """Initialize sequential test parameters 📊"""
        self.alpha = alpha
        self.power = power
        self.results = []
        
    def check_stopping_condition(self, conversions_a, visitors_a, 
                               conversions_b, visitors_b):
        """Check if we can stop the test early 🛑"""
        # Calculate current statistics
        rate_a = conversions_a / visitors_a
        rate_b = conversions_b / visitors_b
        
        # Pooled proportion
        p_pool = (conversions_a + conversions_b) / (visitors_a + visitors_b)
        
        # Standard error
        se = np.sqrt(p_pool * (1 - p_pool) * (1/visitors_a + 1/visitors_b))
        
        # Z-score
        z_score = (rate_b - rate_a) / se if se > 0 else 0
        
        # Sequential bounds (simplified O'Brien-Fleming)
        information_fraction = min(visitors_a + visitors_b, 10000) / 10000
        z_bound = stats.norm.ppf(1 - self.alpha/2) / np.sqrt(information_fraction)
        
        # Decision
        if abs(z_score) > z_bound:
            return True, "Significant difference detected! 🎉"
        elif information_fraction >= 1:
            return True, "Maximum sample size reached 📊"
        else:
            return False, f"Continue testing... ({information_fraction:.0%} complete)"

# Test sequential stopping
seq_test = SequentialABTest()
stop, message = seq_test.check_stopping_condition(50, 500, 70, 500)
print(f"🚦 {message}")

⚠️ Common Pitfalls and Solutions

😱 Pitfall 1: Peeking at Results Too Early

# ❌ Wrong way - checking results every day!
def bad_ab_test():
    for day in range(30):
        # Running test on partial data
        p_value = calculate_p_value(data[:day])
        if p_value < 0.05:
            print(f"Significant on day {day}! Stopping test! 😰")
            break  # 💥 This inflates false positive rate!

# ✅ Correct way - wait for predetermined sample size!
def good_ab_test():
    # Calculate required sample size upfront
    required_n = calculate_sample_size(
        baseline_rate=0.10,
        minimum_detectable_effect=0.02,
        power=0.80,
        alpha=0.05
    )
    
    # Collect full sample
    data = collect_data(n=required_n)
    
    # Analyze once at the end
    p_value = calculate_p_value(data)
    print(f"✅ Test complete with {required_n} samples per group!")

🤯 Pitfall 2: Ignoring Multiple Comparisons

# ❌ Dangerous - testing many metrics without correction!
def multiple_metrics_wrong(data):
    metrics = ['clicks', 'conversions', 'revenue', 'retention', 'engagement']
    
    for metric in metrics:
        p_value = test_metric(data, metric)
        if p_value < 0.05:
            print(f"{metric} is significant! 💥")  # False discoveries likely!

# ✅ Safe - apply Bonferroni correction!
def multiple_metrics_correct(data):
    metrics = ['clicks', 'conversions', 'revenue', 'retention', 'engagement']
    alpha = 0.05
    corrected_alpha = alpha / len(metrics)  # Bonferroni correction
    
    significant_metrics = []
    for metric in metrics:
        p_value = test_metric(data, metric)
        if p_value < corrected_alpha:
            significant_metrics.append(metric)
            print(f"✅ {metric} is significant (p={p_value:.4f} < {corrected_alpha:.4f})")
    
    print(f"🛡️ Found {len(significant_metrics)} truly significant metrics")

🛠️ Best Practices

🎯 Define Success Metrics Upfront: Decide what you’re measuring before starting
📝 Calculate Sample Size: Use power analysis to determine how long to run
🛡️ Randomize Properly: Ensure truly random assignment to groups
🎨 Run Full Duration: Don’t stop early unless using sequential testing
✨ Consider Practical Significance: Statistical significance ≠ business impact

🧪 Hands-On Exercise

🎯 Challenge: Build a Complete A/B Testing Framework

Create a comprehensive A/B testing system:

📋 Requirements:

✅ Sample size calculator with power analysis
🏷️ Support for different metric types (binary, continuous)
👤 Confidence interval calculations
📅 Time-based analysis with daily tracking
🎨 Automated reporting with visualizations!

🚀 Bonus Points:

Add multi-armed bandit algorithms
Implement Bayesian analysis option
Create a web dashboard for results

💡 Solution

🔍 Click to see solution

# 🎯 Complete A/B Testing Framework!
import numpy as np
import pandas as pd
from scipy import stats
import matplotlib.pyplot as plt
from datetime import datetime, timedelta

class ABTestingFramework:
    def __init__(self, test_name):
        self.test_name = test_name
        self.data = []
        self.start_date = None
        self.metadata = {}
        
    # 📊 Sample size calculation
    def calculate_sample_size(self, baseline_rate, mde, alpha=0.05, power=0.80):
        """Calculate required sample size per group 🧮"""
        effect_size = mde / baseline_rate
        
        # Using statsmodels approximation
        z_alpha = stats.norm.ppf(1 - alpha/2)
        z_beta = stats.norm.ppf(power)
        
        p1 = baseline_rate
        p2 = baseline_rate + mde
        p_avg = (p1 + p2) / 2
        
        n = (2 * p_avg * (1 - p_avg) * (z_alpha + z_beta)**2) / (p1 - p2)**2
        
        print(f"📊 Sample Size Calculation:")
        print(f"   Baseline rate: {baseline_rate:.1%}")
        print(f"   Minimum detectable effect: {mde:.1%}")
        print(f"   Required n per group: {int(np.ceil(n)):,}")
        
        return int(np.ceil(n))
    
    # 🎲 Run experiment
    def run_experiment(self, group_a_rate, group_b_rate, n_per_group, days=None):
        """Simulate or track real experiment 🚀"""
        self.start_date = datetime.now()
        
        if days:
            daily_n = n_per_group // days
            
            for day in range(days):
                date = self.start_date + timedelta(days=day)
                
                # Group A
                conversions_a = np.random.binomial(daily_n, group_a_rate)
                self.data.append({
                    'date': date,
                    'group': 'A',
                    'visitors': daily_n,
                    'conversions': conversions_a
                })
                
                # Group B  
                conversions_b = np.random.binomial(daily_n, group_b_rate)
                self.data.append({
                    'date': date,
                    'group': 'B',
                    'visitors': daily_n,
                    'conversions': conversions_b
                })
        
        print(f"✅ Experiment '{self.test_name}' data collected!")
        
    # 📈 Analyze results
    def analyze(self):
        """Comprehensive statistical analysis 🧪"""
        df = pd.DataFrame(self.data)
        
        results = {}
        for group in ['A', 'B']:
            group_data = df[df['group'] == group]
            total_visitors = group_data['visitors'].sum()
            total_conversions = group_data['conversions'].sum()
            conversion_rate = total_conversions / total_visitors
            
            # Confidence interval
            se = np.sqrt(conversion_rate * (1 - conversion_rate) / total_visitors)
            ci_lower = conversion_rate - 1.96 * se
            ci_upper = conversion_rate + 1.96 * se
            
            results[group] = {
                'visitors': total_visitors,
                'conversions': total_conversions,
                'rate': conversion_rate,
                'ci_lower': ci_lower,
                'ci_upper': ci_upper
            }
        
        # Statistical test
        chi2, p_value = stats.chi2_contingency([
            [results['A']['conversions'], 
             results['A']['visitors'] - results['A']['conversions']],
            [results['B']['conversions'], 
             results['B']['visitors'] - results['B']['conversions']]
        ])[:2]
        
        # Calculate lift
        lift = (results['B']['rate'] - results['A']['rate']) / results['A']['rate'] * 100
        
        # Generate report
        print(f"\n📊 A/B Test Report: {self.test_name}")
        print("=" * 60)
        print(f"🔵 Control (A):")
        print(f"   Rate: {results['A']['rate']:.2%} "
              f"[{results['A']['ci_lower']:.2%}, {results['A']['ci_upper']:.2%}]")
        print(f"🟢 Treatment (B):")  
        print(f"   Rate: {results['B']['rate']:.2%} "
              f"[{results['B']['ci_lower']:.2%}, {results['B']['ci_upper']:.2%}]")
        print(f"\n📈 Lift: {lift:+.1f}%")
        print(f"📊 P-value: {p_value:.4f}")
        print(f"🎯 Result: {'✅ Significant!' if p_value < 0.05 else '❌ Not significant'}")
        
        return results, p_value, lift
    
    # 🎨 Visualize results
    def plot_results(self):
        """Create beautiful visualization dashboard 📊"""
        df = pd.DataFrame(self.data)
        
        fig, axes = plt.subplots(2, 2, figsize=(15, 10))
        
        # 1. Daily conversion rates
        ax1 = axes[0, 0]
        daily_rates = df.groupby(['date', 'group']).apply(
            lambda x: x['conversions'].sum() / x['visitors'].sum()
        ).unstack()
        daily_rates.plot(ax=ax1, marker='o')
        ax1.set_title('Daily Conversion Rates 📈')
        ax1.set_ylabel('Conversion Rate')
        ax1.legend(['Group A', 'Group B'])
        
        # 2. Cumulative conversions
        ax2 = axes[0, 1]
        for group in ['A', 'B']:
            group_data = df[df['group'] == group].sort_values('date')
            cumulative = group_data['conversions'].cumsum()
            ax2.plot(group_data['date'], cumulative, 
                    label=f'Group {group}', marker='o')
        ax2.set_title('Cumulative Conversions 🚀')
        ax2.set_ylabel('Total Conversions')
        ax2.legend()
        
        # 3. Confidence intervals
        ax3 = axes[1, 0]
        results, _, _ = self.analyze()
        groups = ['A', 'B']
        rates = [results[g]['rate'] for g in groups]
        ci_lower = [results[g]['ci_lower'] for g in groups]
        ci_upper = [results[g]['ci_upper'] for g in groups]
        
        x = np.arange(len(groups))
        ax3.bar(x, rates, yerr=[np.array(rates) - np.array(ci_lower),
                                np.array(ci_upper) - np.array(rates)],
               capsize=10, color=['skyblue', 'lightcoral'])
        ax3.set_xticks(x)
        ax3.set_xticklabels(groups)
        ax3.set_title('Conversion Rates with 95% CI 🎯')
        ax3.set_ylabel('Conversion Rate')
        
        # 4. Sample size over time
        ax4 = axes[1, 1]
        cumulative_visitors = df.groupby(['date', 'group'])['visitors'].sum().groupby('group').cumsum()
        for group in ['A', 'B']:
            group_cum = cumulative_visitors[group]
            ax4.plot(group_cum.index.get_level_values(0), 
                    group_cum.values, label=f'Group {group}')
        ax4.set_title('Sample Size Over Time 📊')
        ax4.set_ylabel('Cumulative Visitors')
        ax4.legend()
        
        plt.suptitle(f'A/B Test Dashboard: {self.test_name} 🎨', fontsize=16)
        plt.tight_layout()
        plt.show()

# 🎮 Test the framework!
framework = ABTestingFramework("Homepage Redesign Test")

# Calculate sample size
n_required = framework.calculate_sample_size(
    baseline_rate=0.10,
    mde=0.02,  # 2% absolute increase
    power=0.80
)

# Run experiment
framework.run_experiment(
    group_a_rate=0.10,
    group_b_rate=0.12,
    n_per_group=n_required,
    days=14
)

# Analyze and visualize
results, p_value, lift = framework.analyze()
framework.plot_results()

🎓 Key Takeaways

You’ve learned so much! Here’s what you can now do:

✅ Design A/B tests with proper statistical rigor 💪
✅ Calculate sample sizes to ensure meaningful results 🛡️
✅ Analyze results using appropriate statistical tests 🎯
✅ Avoid common pitfalls like peeking and multiple comparisons 🐛
✅ Build testing frameworks for data-driven decisions! 🚀

Remember: A/B testing is your scientific approach to business decisions. Test, learn, and iterate! 🤝

🤝 Next Steps

Congratulations! 🎉 You’ve mastered A/B testing and statistical analysis!

Here’s what to do next:

💻 Practice with the framework above on your own data
🏗️ Build an A/B test for a real business problem
📚 Move on to our next tutorial: Time Series Analysis
🌟 Share your testing insights with your team!

Remember: Every data scientist started with their first A/B test. Keep experimenting, keep learning, and most importantly, let the data guide you! 🚀

Happy testing! 🎉🚀✨

Prerequisites

What you'll learn