分享MSSQL、MySql、Oracle的大数据批量导入方法及编程手法细节-FinClip官网

分享MSSQL、MySql、Oracle的大数据批量导入方法及编程手法细节

网友投稿 682 2022-09-05

分享MSSQL、MySql、Oracle的大数据批量导入方法及编程手法细节

SQL语法篇：

BULK INSERT [ database_name . [ schema_name ] . | schema_name . ] [ table_name | view_name ] FROM 'data_file' [ WITH ( [ [ , ] BATCHSIZE = batch_size ] [ [ , ] CHECK_CONSTRAINTS ] [ [ , ] CODEPAGE = { 'ACP' | 'OEM' | 'RAW' | 'code_page' } ] [ [ , ] DATAFILETYPE = { 'char' | 'native'| 'widechar' | 'widenative' } ] [ [ , ] FIELDTERMINATOR = 'field_terminator' ] [ [ , ] FIRSTROW = first_row ] [ [ , ] FIRE_TRIGGERS ] [ [ , ] FORMATFILE = 'format_file_path' ] [ [ , ] KEEPIDENTITY ] [ [ , ] KEEPNULLS ] [ [ , ] KILOBYTES_PER_BATCH = kilobytes_per_batch ] [ [ , ] LASTROW = last_row ] [ [ , ] MAXERRORS = max_errors ] [ [ , ] ORDER ( { column [ ASC | DESC ] } [ ,...n ] ) ] [ [ , ] ROWS_PER_BATCH = rows_per_batch ] [ [ , ] ROWTERMINATOR = 'row_terminator' ] [ [ , ] TABLOCK ] [ [ , ] ERRORFILE = 'file_name' ] )]

SQL示例：

bulk insert 表名 from 'D:\mydata.txt' with (fieldterminator=',', rowterminator='\n', check_constraints) select * from 表名

由于C#提供了SqlBulkCopy，所以非DBA的我们，更多会通过程序来调用：

C#代码篇：

C#代码调用示例及细节，以下代码摘录自CYQ.Data：

using (SqlBulkCopy sbc = new SqlBulkCopy(con, (keepID ? SqlBulkCopyOptions.KeepIdentity : SqlBulkCopyOptions.Default) | SqlBulkCopyOptions.FireTriggers, sqlTran)) { sbc.BatchSize = 100000; sbc.DestinationTableName = SqlFormat.Keyword(mdt.TableName, DalType.MsSql); sbc.BulkCopyTimeout = AppConfig.DB.CommandTimeout; foreach (MCellStruct column in mdt.Columns) { sbc.ColumnMappings.Add(column.ColumnName, column.ColumnName); } sbc.WriteToServer(mdt); }

有5个细节：

1：事务：

如果只是单个事务，构造函数可以是链接字符串。

如果需要和外部合成一个事务（比如先删除，再插入，这在同一个事务中）

就需要自己构造Connection对象和Transaction，在上下文中传递来处理。

2：插入是否引发触发器

通过SqlBulkCopyOptions.FireTriggers 引入

3：其它：批量数、超时时间、是否写入主键ID。

可能引发的数据库Down机的情况：

在历史的过程中，我遇到过的一个大坑是：

当数据的长度过长，数据的字段过短，产生数据二进制截断时，数据库服务竟然停掉了（也许是特例，也许不是）。

所以小心使用，尽力做好对外部数据做好数据长度验证。

2：MySql

关于MySql的批量，这是一段悲催的往事，有几个坑，直到今天，才发现并解决了。

SQL语法篇：

LOAD DATA [LOW_PRIORITY | CONCURRENT] [LOCAL] INFILE 'data.txt' [REPLACE | IGNORE] INTO TABLE tbl_name [FIELDS [TERMINATED BY 'string'] [[OPTIONALLY] ENCLOSED BY 'char'] [ESCAPED BY 'char' ] ] [LINES [STARTING BY 'string'] [TERMINATED BY 'string'] ] [IGNORE number LINES] [(col_name_or_user_var,...)] [SET col_name = expr,...)]

示例篇：

LOAD DATA LOCAL INFILE 'C:\\Users\\cyq\\AppData\\Local\\Temp\\BulkCopy.csv' INTO TABLE `BulkCopy` CHARACTER SET utf8 FIELDS TERMINATED BY '$,$' LINES TERMINATED BY '' (`ID`,`Name`,`CreateTime`,`Sex`)

虽然MySql.Data.dll 提供了MySqlBulkLoader，但是看源码只是生成了个Load Data 并用ADO.NET执行，

核心大坑的生成*.csv数据文件的竟然没提供，所以自己生成语句并执行就好了，不需要用它。

C#代码篇：

以下代码摘自CYQ.Data，是一段今天才修正好的代码：

private static string MDataTableToFile(MDataTable dt, bool keepID, DalType dalType) { string path = Path.GetTempPath() + dt.TableName + ".csv"; using (StreamWriter sw = new StreamWriter(path, false, new UTF8Encoding(false))) { MCellStruct ms; string value; foreach (MDataRow row in dt.Rows) { for (int i = 0; i < dt.Columns.Count; i++) { #region 设置值 ms = dt.Columns[i]; if (!keepID && ms.IsAutoIncrement) { continue; } else if (dalType == DalType.MySql && row[i].IsNull) { sw.Write("\\N");//Mysql用\N表示null值。 } else { value = row[i].ToString(); if (ms.SqlType == SqlDbType.Bit) { int v = (value.ToLower() == "true" || value == "1") ? 1 : 0; if (dalType == DalType.MySql) { byte[] b = new byte[1]; b[0] = (byte)v; value = System.Text.Encoding.UTF8.GetString(b);//mysql必须用字节存档。 } else { value = v.ToString(); } } else { value = value.Replace("\\", "\\\\");//处理转义符号 } sw.Write(value); } if (i != dt.Columns.Count - 1)//不是最后一个就输出 { sw.Write(AppConst.SplitChar); } #endregion } sw.WriteLine(); } } if (Path.DirectorySeparatorChar == '\\') { path = path.Replace(@"\", @"\\"); } return path; }

以上代码是产生一个csv文件，用于被调用，有两个核心的坑，费了我不少时间：

1：Bit类型数据导不进去？

2：第1行数据自增ID被重置为1？

这两个问题，网上搜不到答案，放纵到今天，觉的应该解决了，然后就把它解决了。

解决的思路是这样的：

A：先用Load Data OutFile导出一个文件，再用Load Data InFile导入文件。

一开始我用记事本打开看了一下，又顺手Ctrl+S了一下，结果发现问题和我的一样，让我怀疑竟然不支持？

直到今天，重新导出，中间不看了，直接导入，发现它竟然又正常的，于是，思维一转：

B：把自己生成的文件和命令产生的文件，进行了十六进制比对，结果发现：

Bit类型自己生成的的数据：是0，1，在十六进制下显示是30、31。

命令产生的数据在十六进制是00、01，查了下资料，发现MySql的Bit存档的Bit是二进制。

于是，把0，1用字节表示，再转字符串，再存档，就好了。

于是这么一段代码产生了（网上的DataTable转CSV代码都是没处理的，都不知道他们是怎么跑的，难道都没有定义Bit类型？）：

if (ms.SqlType == SqlDbType.Bit){ int v = (value.ToLower() == "true" || value == "1") ? 1 : 0; if (dalType == DalType.MySql) { byte[] b = new byte[1]; b[0] = (byte)v; value = System.Text.Encoding.UTF8.GetString(b);//mysql必须用字节存档。 } else { value = v.ToString(); }}

另外关于Null值，用\N表示。

解决完第一个问题，剩下就是第二个问题了，为什么第一个行代码的主键会被置为1？

还是比对十六进制，结果惊人的发现：

是BOM头，让它错识别了第一个主键值，所以被忽略主键，用了第1个自增值1替代了。

这也解释了为什么只要重新保存的数据都有Bug的原因。

于是，解决的方法就是StreaWrite的时候，不生成BOM头，怎么处理呢？

于是就有了以下的代码：

using (StreamWriter sw = new StreamWriter(path, false, new UTF8Encoding(false))){ ...................}

通过New一个Encoding，并指定参数为false，替代我们常规的System.Text.Encoding.UTF8Encoding。

这些细节很隐秘，不说你都猜不道。。。

3：Oracle

SQL语法篇

LOAD[DATA][ { INFILE | INDDN } {file | * }[STREAM | RECORD | FIXED length [BLOCKSIZE size]|VARIABLE [length] ][ { BADFILE | BADDN } file ]{DISCARDS | DISCARDMAX} integr ][ {INDDN | INFILE} . . . ][ APPEND | REPLACE | INSERT ][RECLENT integer][ { CONCATENATE integer |CONTINUEIF { [THIS | NEXT] (start[: end])LAST }Operator { 'string' | X 'hex' } } ]INTO TABLE [user.]table[APPEND | REPLACE|INSERT][WHEN condition [AND condition]...][FIELDS [delimiter] ](column {RECNUM | CONSTANT value |SEQUENCE ( { integer | MAX |COUNT} [, increment] ) |[POSITION ( { start [end] | * [ + integer] }) ]datatype[TERMINATED [ BY ] {WHITESPACE| [X] 'character' } ][ [OPTIONALLY] ENCLOSE[BY] [X]'charcter'][NULLIF condition ][DEFAULTIF condotion]}[ ,...])

以上配置存档成一个CTL文件，再由以下的命令调用：

Sqlldr userid=用户名/密码@数据库 control=文件名.ctl

C#语法篇：

.NET里大概有三种操作Oracle的手法：

1：System.Data.OracleClient （需要安装客户端）没有带批量方法（还区分x86和x64）。

2：Oracle.DataAccess （需要安装客户端）带批量方法（也区分x86和x64）。

3：Oracle.ManagedDataAccess （不需要安装客户端）没带批量方法（不区分x86和x64，但仅支持.NET 4.0或以上）

Oracle.DataAccess 带的批量方法叫：OracleBulkCopy，由于使用方式和SqlBulkCopy几乎一致，就不介绍了。

如果调用程序所在的服务器安装了Oracle客户端，可以进行以下方法的调用：

流程如下：

1：产生*.cvs数据文件，见MySql中的代码，一样用的。

2：产生*.ctl控制文件，把生成的Load Data 语句存档成一个*.ctl文件即可。

3：用sqlidr.exe执行CTL文件，这里悲催的一点是，不能用ADO.NET调用，只能用进程调用，所以，这个批量只能单独使用。

调用进程的相关代码：

bool hasSqlLoader = false; private bool HasSqlLoader() //检测是否安装了客户端。 { hasSqlLoader = false; Process proc = new Process(); proc.StartInfo.FileName = "sqlldr"; proc.StartInfo.CreateNoWindow = true; proc.StartInfo.UseShellExecute = false; proc.StartInfo.RedirectStandardOutput = true; proc.OutputDataReceived += new DataReceivedEventHandler(proc_OutputDataReceived); proc.Start(); proc.BeginOutputReadLine(); proc.WaitForExit(); return hasSqlLoader; } void proc_OutputDataReceived(object sender, DataReceivedEventArgs e) { if (!hasSqlLoader) { hasSqlLoader = e.Data.StartsWith("SQL*Loader:"); } } //已经实现，但没有事务，所以暂时先不引入。 private bool ExeSqlLoader(string arg) { try { Process proc = new Process(); proc.StartInfo.FileName = "sqlldr"; proc.StartInfo.Arguments = arg; proc.Start(); proc.WaitForExit(); return true; } catch { } return false; }

总结：

随着大数据的普及，数据间的批量移动必然越来频繁的被涉及，所以不管是用SQL脚本，还是自己写代码，或是用DBImport工具，都将成必备技能之一了！

鉴于此，分享一下我在这一块费过的力和填过的坑，供大伙参考！

微前端架构如何改变企业的开发模式与效率提升

682 2022-09-05

分享MSSQL、MySql、Oracle的大数据批量导入方法及编程手法细节

微前端架构如何改变企业的开发模式与效率提升

前端开源框架如何提升开发效率与用户体验的关键因素

前端移动端框架如何推动数字化转型与创新发展

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计