SQLite 中的数据迁移方案：从 CSV 文件导入与导出 SQLite 数据库的完整流程

一、为什么我们需要数据搬运？

在数据处理的日常工作中，CSV文件和SQLite数据库的"双向奔赴"是最基础的需求场景。想象以下几个典型场景：

业务系统导出的用户信息CSV文件，需要入库做分析
迁移本地开发环境的SQLite数据到测试服务器
临时抓取的网络数据存入CSV，后期要持久化保存
需要将SQL查询结果导出为Excel可读的格式

这些场景的共同特点就是跨格式数据流转。通过本文，你将掌握用Python技术栈实现这两个方向的完整流程，并理解背后的技术原理。

二、环境搭建

（Python 3.8+）

我们选择Python作为技术栈，因其丰富的库支持和跨平台特性：

pip install sqlite3 pandas

sqlite3：Python内置的SQLite操作模块
pandas：数据处理神器，简化CSV读写操作

验证安装是否成功：

import sqlite3
import pandas as pd
print("所有依赖检查通过！")

三、基础操作：从CSV到SQLite的单表迁移

场景模拟：假设我们有一个employees.csv文件，包含以下字段：

id,name,department,salary
1,张三,技术部,15000
2,李四,市场部,12000
...

迁移步骤：

import sqlite3
import pandas as pd

# 创建内存数据库（实际使用时可替换为文件路径）
conn = sqlite3.connect(':memory:')

# 读取CSV文件
df = pd.read_csv('employees.csv')

# 写入数据库
df.to_sql('employees', conn, index=False, if_exists='replace')

# 验证数据是否写入
query_result = pd.read_sql('SELECT * FROM employees LIMIT 2', conn)
print("前两条数据：\n", query_result)

# 关闭连接
conn.close()

代码解析：

if_exists='replace'：如果表已存在则替换
index=False：禁止写入DataFrame的索引列
pd.read_sql：将查询结果直接转为DataFrame

四、高级玩法：批量导入与异常处理

当处理大型CSV文件时（比如超过1GB），直接全量加载可能导致内存溢出。改进方案如下：

import csv
import sqlite3

def batch_import(csv_path, db_path, chunk_size=1000):
    conn = sqlite3.connect(db_path)
    cursor = conn.cursor()
    
    # 创建表
    cursor.execute('''
        CREATE TABLE IF NOT EXISTS big_data (
            id INTEGER PRIMARY KEY,
            timestamp TEXT,
            sensor_value REAL
        )
    ''')
    
    with open(csv_path, 'r', encoding='utf-8') as f:
        reader = csv.reader(f)
        next(reader)  # 跳过标题行
        
        batch = []
        for row in reader:
            try:
                # 数据清洗：转换时间格式和数值类型
                processed_row = (
                    int(row[0]),
                    row[1].replace('/', '-'),  # 统一日期格式
                    float(row[2])
                )
                batch.append(processed_row)
                
                if len(batch) >= chunk_size:
                    cursor.executemany('INSERT INTO big_data VALUES (?,?,?)', batch)
                    batch = []
                    
            except (ValueError, IndexError) as e:
                print(f"数据异常行跳过：{row}，错误信息：{e}")
                
        # 写入剩余数据
        if batch:
            cursor.executemany('INSERT INTO big_data VALUES (?,?,?)', batch)
            
    conn.commit()
    conn.close()

# 用法示例
batch_import('sensor_data.csv', 'iot.db')

技术要点：

分块加载避免内存不足
数据清洗确保类型安全
异常捕获防止单条错误导致整体失败
使用executemany提升批量插入性能

五、反向操作：从SQLite导出为CSV

场景需求：将数据库中的sales_records表导出为带BOM头的UTF-8 CSV，供财务系统使用。

实现代码：

import sqlite3
import pandas as pd

def export_with_bom(db_path, table_name, output_csv):
    conn = sqlite3.connect(db_path)
    
    # 读取数据
    df = pd.read_sql_query(f'SELECT * FROM {table_name}', conn)
    
    # 添加BOM头确保Excel识别编码
    bom = pd.bytes_types(b'\xef\xbb\xbf')
    
    # 导出时保留中文标题
    df.to_csv(output_csv, 
             index=False, 
             encoding='utf-8-sig',  # 自动添加BOM
             float_format='%.2f')   # 金额保留两位小数
    
    conn.close()

# 使用示例
export_with_bom('sales.db', 'orders', '2023_sales_export.csv')

六、关联技术深入：触发器同步方案

当需要保持CSG与数据库实时同步时，可以借助SQLite触发器：

-- 在数据库中创建临时表
CREATE TEMP TABLE csv_import_log (
    operation_time TEXT DEFAULT CURRENT_TIMESTAMP,
    imported_rows INTEGER
);

-- 在目标表上创建触发器
CREATE TRIGGER after_csv_import 
AFTER INSERT ON employees
BEGIN
    UPDATE csv_import_log 
    SET imported_rows = imported_rows + 1
    WHERE rowid = 1;
    
    INSERT OR REPLACE INTO csv_import_log (rowid, imported_rows)
    VALUES (1, COALESCE((SELECT imported_rows FROM csv_import_log), 0) + 1);
END;

此触发器会在每次插入新记录时更新导入统计。

七、技术方案比较：优缺点分析

优势：

轻量级：无需单独部署数据库服务
高效率：Pandas的C引擎处理大数据优势明显
灵活性：支持增量更新和自定义转换逻辑

局限性：

单机限制：不适合分布式场景
并发性能：写入锁机制可能成为瓶颈
无数据类型校验：需要开发者自行保证

八、避坑指南：常见问题及解决方案

中文乱码问题：
- 导出时使用utf-8-sig编码
- 读取时明确指定encoding='utf-8'

日期格式混乱：

df['date_column'] = pd.to_datetime(df['date_column'], format='%Y/%m/%d')

性能优化技巧：

conn.execute('PRAGMA journal_mode = WAL')  # 启用写入日志模式
conn.execute('PRAGMA synchronous = NORMAL')  # 平衡速度与安全性

内存数据库妙用：

# 将CSV完全加载到内存数据库再做复杂查询
conn = sqlite3.connect(':memory:')
pd.read_csv('data.csv').to_sql('temp_table', conn)

九、实战经验总结

经过多个项目的实践验证，以下建议可能对你有所帮助：

预处理优先：在导入前清洗CSV数据，比入库后处理更高效
版本控制：对导出的CSG文件添加版本号和导出时间戳
使用检查点：大文件导入时记录已处理行数，便于断点续传
日志必加：记录成功/失败数据量及错误明细

敲码拾光专注于编程技术，涵盖编程语言、代码实战案例、软件开发技巧、IT前沿技术、编程开发工具，是您提升技术能力的优质网络平台。