2026/4/18 16:22:17
网站建设
项目流程
做便宜的宝贝的网站,上海建设集团有限公司,广州有什么好玩的室内,安义网站建设数据清洗步骤
用户行为数据缺失值处理
user_id、item_id是关联用户和商品的唯一标识#xff0c;缺失后无法建立有效关联behavior_type是核心行为标签#xff0c;缺失无法定义交互类型timestamp是时间序列分析的基础#xff0c;缺失影响序列特征的准确性直接删除比填充更可靠…数据清洗步骤用户行为数据缺失值处理user_id、item_id是关联用户和商品的唯一标识缺失后无法建立有效关联behavior_type是核心行为标签缺失无法定义交互类型timestamp是时间序列分析的基础缺失影响序列特征的准确性直接删除比填充更可靠避免了引入噪声 原始数据示例 user_id | item_id | behavior_type | timestamp ---------|----------|---------------|---------- user_001 | item_001 | click | 2023-10-01 10:00 null | item_002 | cart | 2023-10-01 10:05 user_002 | null | buy | 2023-10-01 10:10 user_003 | item_003 | null | 2023-10-01 10:15 user_004 | item_004 | click | null 清洗后数据 user_id | item_id | behavior_type | timestamp ---------|----------|---------------|---------- user_001 | item_001 | click | 2023-10-01 10:00 异常用户/商品ID过滤统一ID格式便于数据管理和特征工程异常ID可能是测试数据或错误数据会影响模型效果正则表达式匹配确保数据规范性 原始数据 user_id | item_id | behavior_type -------------|-------------|--------------- user_001 | item_001 | click unknown_user | item_002 | cart user_002 | invalid_id | buy test_user | test_item | collect 清洗后数据 user_id | item_id | behavior_type ---------|----------|--------------- user_001 | item_001 | click 低频用户/商品过滤低频用户行为稀疏难以学习有效特征低频商品样本不足难以准确建模过滤后提高数据质量减少噪声干扰阈值根据业务经验设置用户≥3次商品≥5次 原始数据用户行为统计 user_id | 行为次数 ---------|--------- user_001 | 15 user_002 | 8 user_003 | 2 # 低频用户 user_004 | 1 # 低频用户 清洗后保留 user_id | 行为次数 ---------|--------- user_001 | 15 user_002 | 8 商品数据异常价格处理负价格是数据错误需要修正0价格可能是免费商品或数据缺失需要特殊处理极端高价可能是错误数据需要截断价格范围(0.01, 10000)根据实际业务场景设置 原始数据 item_id | price | category ---------|--------|---------- item_001 | 99.99 | Electronics item_002 | -10.0 | Clothing # 异常价格 item_003 | 0.0 | Books # 异常价格 item_004 | 999999 | Home # 异常价格 清洗后数据 item_id | price | category ---------|--------|---------- item_001 | 99.99 | Electronics item_002 | 10.0 | Clothing # 修正为有效范围 item_003 | 0.01 | Books # 设置最小有效价格 item_004 | 10000 | Home # 截断到最大值 特征工程步骤用户基础特征提取静态特征描述用户固有属性是用户画像基础行为统计特征量化用户历史行为反映用户偏好转化率特征衡量用户从浏览到购买的能力时间特征反映用户活跃度和新鲜度编码处理将分类变量转换为数值便于模型处理 原始用户数据 user_id | age | gender | registration_date ---------|-----|--------|------------------ user_001 | 25 | M | 2023-01-15 user_002 | 35 | F | 2023-03-20 用户行为数据 user_id | behavior_type | timestamp ---------|---------------|---------- user_001 | click | 2023-10-01 10:00 user_001 | cart | 2023-10-01 11:00 user_001 | buy | 2023-10-01 12:00 user_002 | click | 2023-10-01 10:05 特征提取后 user_id | age | gender_encoded | registration_days | total_actions | purchase_count | conversion_rate | days_since_last_action | active_days ---------|-----|----------------|-------------------|---------------|----------------|-----------------|------------------------|------------ user_001 | 25 | 0 | 258 | 12 | 2 | 0.167 | 1 | 6 user_002 | 35 | 1 | 207 | 9 | 1 | 0.111 | 1 | 5 商品热度趋势特征多时间窗口统计捕捉商品不同周期的热度变化趋势比率反映商品热度的增长/衰减趋势时效性近期行为比远期行为更具参考价值扛波动性多时间窗口平滑单日波动影响 原始行为数据时间序列 item_id | timestamp | behavior_type ---------|---------------------|-------------- item_001 | 2023-10-01 10:00 | click item_001 | 2023-10-05 14:00 | buy item_001 | 2023-10-07 09:00 | cart item_001 | 2023-10-14 16:00 | click item_002 | 2023-10-01 11:00 | click item_002 | 2023-10-02 10:00 | click 特征提取后当前时间2023-10-15 item_id | total_actions | actions_7d | actions_30d | trend_7d_30d ---------|---------------|------------|-------------|------------- item_001 | 4 | 2 | 4 | 0.5 item_002 | 2 | 0 | 2 | 0.0 行为序列特征序列模式揭示用户行为的内在规律转换概率量化行为间的转换倾向时间模式反映用户的行为节奏个性化表征每个用户的序列特征都是独特的 用户行为序列 用户: user_001 时间序列: [click, click, cart, click, buy, click, cart, buy] 提取的序列特征 - sequence_length: 8 - unique_items: 5 - click_ratio: 0.5 (4/8) - cart_ratio: 0.25 (2/8) - buy_ratio: 0.25 (2/8) - transition_click_to_cart: 0.25 (从click到cart的转换概率) - transition_click_to_buy: 0.125 - avg_time_interval: 平均行为间隔时间 图特征提取结构信息捕捉用户和商品在图中的位置重要性协同信息通过共同邻居发现相似用户/商品流行度传播中心点往往更受欢迎冷启动缓解新用户/商品可以通过图结构获得特征 用户-商品交互图 用户节点: [user_001, user_002, user_003] 商品节点: [item_001, item_002, item_003, item_004] 边: (user_001, item_001), (user_001, item_002), (user_002, item_001), ... 提取的图特征 用户图特征: user_id | graph_degree | weighted_degree | avg_jaccard_similarity ---------|--------------|-----------------|------------------------ user_001 | 2 | 7 | 0.15 user_002 | 1 | 5 | 0.10 商品图特征: item_id | graph_degree | weighted_degree | avg_user_degree ---------|--------------|-----------------|---------------- item_001 | 2 | 12 | 1.5 item_002 | 1 | 5 | 2.0