📘 Feature Engineering: Data Preparation

🎯 Introduction

Welcome to the exciting world of feature engineering! 🎉 In this guide, we’ll explore how to prepare your data for machine learning success.

Feature engineering is the secret sauce that transforms raw data into powerful predictive features. Whether you’re building recommendation systems 🎬, fraud detection models 🔍, or customer churn predictors 📊, mastering data preparation is essential for creating accurate machine learning models.

By the end of this tutorial, you’ll feel confident preparing data like a pro! Let’s dive in! 🏊‍♂️

📚 Understanding Feature Engineering

🤔 What is Feature Engineering?

Feature engineering is like being a chef 👨‍🍳 preparing ingredients for a perfect dish. Think of it as transforming raw vegetables (data) into a beautifully prepped mise en place that’s ready for cooking (modeling).

In Python terms, feature engineering involves transforming raw data into meaningful features that machine learning algorithms can understand and use effectively. This means you can:

✨ Transform messy data into clean, usable features
🚀 Create new features that capture hidden patterns
🛡️ Handle missing values and outliers gracefully

💡 Why Use Feature Engineering?

Here’s why data scientists love feature engineering:

Better Model Performance 🎯: Quality features = better predictions
Domain Knowledge Integration 💡: Incorporate business insights
Reduced Overfitting 🛡️: Smart features generalize better
Faster Training ⚡: Good features help models learn quickly

Real-world example: Imagine building a house price predictor 🏠. With feature engineering, you can transform “3 bed, 2 bath” into powerful features like “rooms per square foot” or “bathroom-to-bedroom ratio”.

🔧 Basic Syntax and Usage

📝 Simple Example

Let’s start with a friendly example using pandas and numpy:

import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, LabelEncoder

# 👋 Hello, Feature Engineering!
data = pd.DataFrame({
    'age': [25, 32, 47, 19, None],  # 🎂 Age with missing value
    'income': [30000, 45000, 75000, 20000, 55000],  # 💰 Annual income
    'category': ['A', 'B', 'A', 'C', 'B']  # 🏷️ Categories
})

# 🎨 Handle missing values
data['age'].fillna(data['age'].mean(), inplace=True)
print("After handling missing values:")
print(data)

# ✨ Create new features
data['income_per_age'] = data['income'] / data['age']  # 📊 Income efficiency!
data['age_group'] = pd.cut(data['age'], bins=[0, 25, 40, 100], 
                           labels=['Young', 'Adult', 'Senior'])  # 👥 Age categories

💡 Explanation: Notice how we handle missing values and create meaningful new features! The income_per_age captures earning efficiency.

🎯 Common Patterns

Here are patterns you’ll use daily:

# 🏗️ Pattern 1: Scaling numerical features
scaler = StandardScaler()
data[['age_scaled', 'income_scaled']] = scaler.fit_transform(data[['age', 'income']])

# 🎨 Pattern 2: Encoding categorical variables
le = LabelEncoder()
data['category_encoded'] = le.fit_transform(data['category'])  # 🔢 Convert to numbers

# 🔄 Pattern 3: One-hot encoding
data_encoded = pd.get_dummies(data, columns=['category'], prefix='cat')  # 🎯 Binary features
print("\nOne-hot encoded data:")
print(data_encoded.head())

💡 Practical Examples

🛒 Example 1: E-commerce Customer Analysis

Let’s build something real:

# 🛍️ E-commerce customer data
customers = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5],
    'total_spent': [250.50, 1200.75, 75.00, 450.25, 3000.00],  # 💰
    'num_orders': [5, 15, 2, 8, 25],  # 📦
    'days_since_signup': [180, 365, 30, 200, 500],  # 📅
    'preferred_category': ['Electronics', 'Fashion', 'Books', 'Electronics', 'Fashion']  # 🏷️
})

# 🎯 Feature engineering magic!
class CustomerFeatureEngineer:
    def __init__(self, data):
        self.data = data.copy()
    
    def create_features(self):
        # 💸 Average order value
        self.data['avg_order_value'] = self.data['total_spent'] / self.data['num_orders']
        
        # 📊 Order frequency (orders per month)
        self.data['order_frequency'] = (self.data['num_orders'] / 
                                       (self.data['days_since_signup'] / 30))
        
        # 🏆 Customer segment
        self.data['customer_segment'] = pd.cut(
            self.data['total_spent'],
            bins=[0, 100, 500, 1000, float('inf')],
            labels=['Budget', 'Regular', 'Premium', 'VIP']
        )
        
        # 🎨 One-hot encode categories
        category_dummies = pd.get_dummies(self.data['preferred_category'], 
                                        prefix='prefers')
        self.data = pd.concat([self.data, category_dummies], axis=1)
        
        print("✨ Feature engineering complete!")
        return self.data
    
    def get_feature_summary(self):
        print("\n📊 Feature Summary:")
        print(f"Original features: 5")
        print(f"New features: {len(self.data.columns) - 5}")
        print(f"Total features: {len(self.data.columns)}")

# 🎮 Let's use it!
engineer = CustomerFeatureEngineer(customers)
enhanced_data = engineer.create_features()
engineer.get_feature_summary()
print("\n🔍 Enhanced customer data:")
print(enhanced_data.head())

🎯 Try it yourself: Add a recency_score feature based on days since last order!

🎮 Example 2: Game Player Analytics

Let’s make it fun with gaming data:

# 🏆 Game player statistics
players = pd.DataFrame({
    'player_id': range(1, 6),
    'play_time_hours': [120, 450, 35, 200, 800],  # ⏰
    'matches_played': [150, 600, 50, 250, 1000],  # 🎮
    'wins': [75, 350, 15, 140, 650],  # 🏆
    'level': [25, 60, 10, 35, 80],  # 📈
    'premium_player': [False, True, False, True, True],  # 💎
    'last_login_days_ago': [1, 0, 15, 3, 2]  # 📅
})

class GameFeatureEngineer:
    def __init__(self, player_data):
        self.data = player_data.copy()
        
    def engineer_features(self):
        # 🎯 Win rate percentage
        self.data['win_rate'] = (self.data['wins'] / self.data['matches_played'] * 100).round(2)
        
        # ⚡ Average match duration
        self.data['avg_match_minutes'] = (self.data['play_time_hours'] * 60 / 
                                         self.data['matches_played']).round(2)
        
        # 📊 Player efficiency (level per hour)
        self.data['leveling_speed'] = (self.data['level'] / 
                                      self.data['play_time_hours']).round(3)
        
        # 🔥 Activity score (recent + frequent)
        self.data['activity_score'] = self._calculate_activity_score()
        
        # 🎨 Player type classification
        self.data['player_type'] = self._classify_players()
        
        # 🏅 Achievement score
        self.data['achievement_score'] = (
            self.data['win_rate'] * 0.4 +  # 40% weight on win rate
            self.data['leveling_speed'] * 100 * 0.3 +  # 30% on leveling
            (100 - self.data['last_login_days_ago']) * 0.3  # 30% on recency
        ).round(2)
        
        return self.data
    
    def _calculate_activity_score(self):
        # 🎮 Combine recency and frequency
        recency_score = 100 / (self.data['last_login_days_ago'] + 1)
        frequency_score = self.data['matches_played'] / self.data['play_time_hours']
        return (recency_score * frequency_score).round(2)
    
    def _classify_players(self):
        conditions = [
            (self.data['win_rate'] > 60) & (self.data['matches_played'] > 500),
            (self.data['win_rate'] > 50) & (self.data['matches_played'] > 200),
            (self.data['matches_played'] < 100),
            (self.data['win_rate'] < 40)
        ]
        choices = ['Pro 🏆', 'Veteran 💪', 'Newbie 🌟', 'Struggling 😅']
        return np.select(conditions, choices, default='Regular 🎮')

# 🚀 Transform the data!
game_engineer = GameFeatureEngineer(players)
enhanced_players = game_engineer.engineer_features()

print("🎮 Enhanced player features:")
print(enhanced_players[['player_id', 'win_rate', 'player_type', 'achievement_score']])

🚀 Advanced Concepts

🧙‍♂️ Advanced Topic 1: Time-Based Features

When you’re ready to level up, try time-based feature engineering:

# 🎯 Advanced time series features
import pandas as pd
from datetime import datetime, timedelta

# 📅 Generate sample time series data
dates = pd.date_range(start='2024-01-01', periods=100, freq='D')
sales_data = pd.DataFrame({
    'date': dates,
    'sales': np.random.randint(100, 1000, 100),  # 💰
    'temperature': np.random.uniform(15, 35, 100),  # 🌡️
    'is_weekend': [d.weekday() >= 5 for d in dates]  # 📆
})

class TimeFeatureEngineer:
    def __init__(self, df, date_col='date'):
        self.df = df.copy()
        self.date_col = date_col
        
    def create_time_features(self):
        # 📊 Extract basic time components
        self.df['year'] = self.df[self.date_col].dt.year
        self.df['month'] = self.df[self.date_col].dt.month
        self.df['day'] = self.df[self.date_col].dt.day
        self.df['dayofweek'] = self.df[self.date_col].dt.dayofweek
        self.df['quarter'] = self.df[self.date_col].dt.quarter
        
        # 🌟 Cyclical features (for seasonality)
        self.df['month_sin'] = np.sin(2 * np.pi * self.df['month'] / 12)
        self.df['month_cos'] = np.cos(2 * np.pi * self.df['month'] / 12)
        
        # 📈 Rolling statistics
        self.df['sales_ma7'] = self.df['sales'].rolling(window=7).mean()  # 7-day moving avg
        self.df['sales_ma30'] = self.df['sales'].rolling(window=30).mean()  # 30-day moving avg
        
        # 🎯 Lag features
        for lag in [1, 7, 30]:
            self.df[f'sales_lag_{lag}'] = self.df['sales'].shift(lag)
        
        # ✨ Special events
        self.df['is_month_start'] = self.df['day'] == 1
        self.df['is_month_end'] = self.df[self.date_col].dt.is_month_end
        
        return self.df

# 🪄 Apply time feature engineering
time_engineer = TimeFeatureEngineer(sales_data)
enhanced_sales = time_engineer.create_time_features()

print("✨ Time-based features created!")
print(enhanced_sales[['date', 'sales', 'sales_ma7', 'month_sin']].head(10))

🏗️ Advanced Topic 2: Interaction Features

For the brave developers, create feature interactions:

# 🚀 Feature interactions and polynomial features
from sklearn.preprocessing import PolynomialFeatures

# 🎲 Sample dataset
interaction_data = pd.DataFrame({
    'feature_a': [1, 2, 3, 4, 5],  # 🅰️
    'feature_b': [2, 4, 6, 8, 10],  # 🅱️
    'feature_c': [1, 1, 2, 2, 3]   # 🌟
})

class InteractionEngineer:
    def __init__(self, df):
        self.df = df.copy()
        
    def create_interactions(self):
        # 📊 Manual interactions
        self.df['a_times_b'] = self.df['feature_a'] * self.df['feature_b']
        self.df['a_plus_b'] = self.df['feature_a'] + self.df['feature_b']
        self.df['a_div_b'] = self.df['feature_a'] / self.df['feature_b']
        
        # 🎯 Polynomial features
        poly = PolynomialFeatures(degree=2, include_bias=False)
        poly_features = poly.fit_transform(self.df[['feature_a', 'feature_b']])
        
        # 🏷️ Get feature names
        feature_names = poly.get_feature_names_out(['feature_a', 'feature_b'])
        
        # 🎨 Add polynomial features to dataframe
        for i, name in enumerate(feature_names):
            self.df[f'poly_{name}'] = poly_features[:, i]
        
        return self.df
    
    def create_binned_interactions(self):
        # 🎪 Create bins and interact
        self.df['a_binned'] = pd.cut(self.df['feature_a'], 
                                     bins=3, 
                                     labels=['Low', 'Med', 'High'])
        
        # 🔀 Combine categorical with numerical
        for cat in self.df['a_binned'].unique():
            mask = self.df['a_binned'] == cat
            self.df[f'b_when_a_{cat}'] = self.df.loc[mask, 'feature_b']
            self.df[f'b_when_a_{cat}'].fillna(0, inplace=True)
        
        return self.df

# 💫 Create interaction features
interaction_eng = InteractionEngineer(interaction_data)
with_interactions = interaction_eng.create_interactions()
with_bins = interaction_eng.create_binned_interactions()

print("🎨 Interaction features created!")
print(with_interactions.columns.tolist())

⚠️ Common Pitfalls and Solutions

😱 Pitfall 1: Data Leakage

# ❌ Wrong way - using future information!
df['next_day_sales'] = df['sales'].shift(-1)  # 😰 Looking into the future!
df['sales_prediction_feature'] = df['next_day_sales'] * 0.9  # 💥 Data leakage!

# ✅ Correct way - only use past information!
df['previous_day_sales'] = df['sales'].shift(1)  # 👍 Using past data
df['sales_trend'] = df['sales'].rolling(window=7).mean()  # ✅ Historical average

🤯 Pitfall 2: Not Handling Missing Values

# ❌ Dangerous - ignoring missing values!
def calculate_ratio(df):
    return df['clicks'] / df['impressions']  # 💥 Division by zero or NaN!

# ✅ Safe - handle missing values properly!
def calculate_ratio_safe(df):
    # 🛡️ Handle zeros and missing values
    df['ctr'] = np.where(
        (df['impressions'].notna()) & (df['impressions'] > 0),
        df['clicks'] / df['impressions'],
        0  # Default value for missing or zero impressions
    )
    return df

🛠️ Best Practices

🎯 Domain Knowledge: Use business understanding to create meaningful features
📝 Document Features: Keep track of what each feature represents
🛡️ Validate Features: Check for data leakage and validity
🎨 Start Simple: Begin with basic features, then add complexity
✨ Monitor Impact: Measure how each feature affects model performance

🧪 Hands-On Exercise

🎯 Challenge: Build a Customer Churn Feature Set

Create a comprehensive feature engineering pipeline for predicting customer churn:

📋 Requirements:

✅ Handle missing values in customer data
🏷️ Create recency, frequency, and monetary (RFM) features
👤 Engineer customer behavior patterns
📅 Add time-based features
🎨 Each feature should tell a story!

🚀 Bonus Points:

Add customer lifetime value features
Create customer segment indicators
Build interaction features between usage and demographics

💡 Solution

🔍 Click to see solution

# 🎯 Comprehensive churn prediction feature engineering!
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# 📊 Sample customer data
np.random.seed(42)
n_customers = 1000

customers = pd.DataFrame({
    'customer_id': range(1, n_customers + 1),
    'signup_date': pd.date_range(end='2024-01-01', periods=n_customers, freq='D'),
    'last_purchase_date': pd.date_range(end='2024-06-01', periods=n_customers, freq='D'),
    'total_purchases': np.random.randint(1, 50, n_customers),
    'total_spent': np.random.uniform(10, 5000, n_customers),
    'support_tickets': np.random.randint(0, 10, n_customers),
    'email_opens': np.random.randint(0, 100, n_customers),
    'email_sent': np.random.randint(50, 200, n_customers),
    'product_views': np.random.randint(0, 500, n_customers),
    'subscription_type': np.random.choice(['Basic', 'Premium', 'Enterprise'], n_customers),
    'payment_method': np.random.choice(['Credit', 'PayPal', 'Bank'], n_customers)
})

class ChurnFeatureEngineer:
    def __init__(self, df, reference_date='2024-06-01'):
        self.df = df.copy()
        self.reference_date = pd.to_datetime(reference_date)
        
    def engineer_all_features(self):
        print("🚀 Starting feature engineering pipeline...")
        
        # 📅 Time-based features
        self._create_time_features()
        
        # 💰 RFM features
        self._create_rfm_features()
        
        # 📊 Behavioral features
        self._create_behavioral_features()
        
        # 🎯 Engagement features
        self._create_engagement_features()
        
        # 🏷️ Categorical encoding
        self._encode_categoricals()
        
        print("✨ Feature engineering complete!")
        return self.df
    
    def _create_time_features(self):
        # 📆 Days since signup
        self.df['days_since_signup'] = (self.reference_date - 
                                       self.df['signup_date']).dt.days
        
        # 🕐 Days since last purchase (Recency)
        self.df['days_since_purchase'] = (self.reference_date - 
                                         self.df['last_purchase_date']).dt.days
        
        # 📈 Customer lifetime (in months)
        self.df['customer_months'] = self.df['days_since_signup'] / 30
        
        # 🎯 Purchase recency score (inverse of days)
        self.df['recency_score'] = 1 / (self.df['days_since_purchase'] + 1)
        
    def _create_rfm_features(self):
        # 💰 Monetary value per purchase
        self.df['avg_purchase_value'] = (self.df['total_spent'] / 
                                        self.df['total_purchases'])
        
        # 📊 Purchase frequency (per month)
        self.df['purchase_frequency'] = (self.df['total_purchases'] / 
                                        self.df['customer_months'])
        
        # 🏆 RFM score
        self.df['rfm_score'] = (
            self.df['recency_score'] * 100 +  # Weight recency
            self.df['purchase_frequency'] * 10 +  # Weight frequency
            self.df['avg_purchase_value'] / 100  # Weight monetary
        )
        
    def _create_behavioral_features(self):
        # 🎯 Support intensity
        self.df['support_per_purchase'] = (self.df['support_tickets'] / 
                                          (self.df['total_purchases'] + 1))
        
        # 📧 Email engagement rate
        self.df['email_open_rate'] = (self.df['email_opens'] / 
                                     (self.df['email_sent'] + 1))
        
        # 👀 Product interest score
        self.df['views_per_purchase'] = (self.df['product_views'] / 
                                       (self.df['total_purchases'] + 1))
        
        # 🎨 Customer lifetime value estimate
        self.df['estimated_clv'] = (self.df['avg_purchase_value'] * 
                                   self.df['purchase_frequency'] * 
                                   12)  # Annual estimate
        
    def _create_engagement_features(self):
        # 🌟 Engagement segments
        conditions = [
            (self.df['email_open_rate'] > 0.3) & (self.df['views_per_purchase'] > 10),
            (self.df['email_open_rate'] > 0.1) & (self.df['views_per_purchase'] > 5),
            (self.df['email_open_rate'] < 0.05)
        ]
        choices = ['Highly Engaged 🔥', 'Moderately Engaged 😊', 'Low Engagement 😴']
        self.df['engagement_segment'] = np.select(conditions, choices, 
                                                 default='Regular 🎯')
        
        # 📊 Churn risk score
        self.df['churn_risk_score'] = (
            self.df['days_since_purchase'] * 0.4 +  # Recency weight
            (100 - self.df['email_open_rate'] * 100) * 0.3 +  # Engagement weight
            self.df['support_per_purchase'] * 100 * 0.3  # Support issues weight
        )
        
    def _encode_categoricals(self):
        # 🎨 One-hot encode subscription type
        subscription_dummies = pd.get_dummies(self.df['subscription_type'], 
                                            prefix='is')
        self.df = pd.concat([self.df, subscription_dummies], axis=1)
        
        # 💳 Encode payment method
        payment_dummies = pd.get_dummies(self.df['payment_method'], 
                                       prefix='pays_with')
        self.df = pd.concat([self.df, payment_dummies], axis=1)
    
    def get_feature_importance_hints(self):
        print("\n📊 Feature Importance Hints:")
        print("🔴 High importance: days_since_purchase, rfm_score, churn_risk_score")
        print("🟡 Medium importance: purchase_frequency, email_open_rate, estimated_clv")
        print("🟢 Low importance: categorical features, support_tickets")

# 🎮 Execute the feature engineering!
churn_engineer = ChurnFeatureEngineer(customers)
enhanced_customers = churn_engineer.engineer_all_features()

# 📊 Display results
print("\n🎯 Sample of engineered features:")
feature_cols = ['customer_id', 'days_since_purchase', 'rfm_score', 
                'engagement_segment', 'churn_risk_score']
print(enhanced_customers[feature_cols].head(10))

# 🏆 Feature summary
print(f"\n✨ Total features created: {len(enhanced_customers.columns)}")
print(f"📊 Numerical features: {enhanced_customers.select_dtypes(include=[np.number]).shape[1]}")
print(f"🏷️ Categorical features: {enhanced_customers.select_dtypes(include=['object']).shape[1]}")

churn_engineer.get_feature_importance_hints()

🎓 Key Takeaways

You’ve learned so much! Here’s what you can now do:

✅ Transform raw data into meaningful features 💪
✅ Handle missing values and outliers like a pro 🛡️
✅ Create domain-specific features that capture business logic 🎯
✅ Engineer time-based features for temporal patterns 📅
✅ Build powerful ML pipelines with clean, prepared data! 🚀

Remember: Great features are the foundation of great models. The effort you put into feature engineering directly impacts your model’s success! 🤝

🤝 Next Steps

Congratulations! 🎉 You’ve mastered feature engineering fundamentals!

Here’s what to do next:

💻 Practice with the exercises above
🏗️ Apply these techniques to your own datasets
📚 Move on to our next tutorial: Feature Selection and Dimensionality Reduction
🌟 Share your feature engineering discoveries with the data science community!

Remember: Every data scientist started with messy data. Keep experimenting, keep learning, and most importantly, have fun transforming data! 🚀

Happy feature engineering! 🎉🚀✨

Prerequisites

What you'll learn