MySQL - 正規表現のソースを表示

== 概要 ==
MySQLは、バージョン3.23.6以降で正規表現をサポートしている。<br>
正規表現は、文字列パターンマッチングのための強力な機能を提供する。<br>
<br>
MySQL 5.x系では、Henry Spencer氏の正規表現ライブラリが使用されていた。<br>
MySQL 8.0以降では、ICU (International Components for UNICODE) ライブラリに移行し、完全なUNICODE対応と高度な正規表現機能を実現している。<br>
<br>
基本的な正規表現演算子として、<code>REGEXP</code> および <code>RLIKE</code> が提供されている。<br>
これらの演算子は完全に同義であり、SQLのWHERE句やHAVING句で使用できる。<br>
<br>
MySQL 8.0以降では、正規表現関数が大幅に拡張された。<br>
<code>REGEXP_LIKE</code>、<code>REGEXP_REPLACE</code>、<code>REGEXP_SUBSTR</code>、<code>REGEXP_INSTR</code> の4つの関数が追加され、文字列操作の柔軟性が大幅に向上した。<br>
<br>
バージョン8.0への移行時には、正規表現ライブラリの変更により動作が変わる可能性がある。<br>
特に単語境界メタ文字 (Henry Spencer形式の[[:<:]]および[[:>:]]) は、ICU形式の\bに変更する必要がある。<br>
<br>
MariaDBは独自にPCRE (Perl互換正規表現) ライブラリを採用しているため、MySQLとは正規表現の動作が異なる点に注意が必要である。<br>
<br><br>

== REGEXP / RLIKE演算子 ==
<code>REGEXP</code> 演算子 および <code>RLIKE</code> 演算子は、文字列が正規表現パターンにマッチするかを判定する。<br>
これら2つの演算子は完全に同義であり、どちらを使用しても同じ結果が得られる。<br>
<br>
基本構文を以下に示す。<br>
 expr REGEXP pat
 expr RLIKE pat
<br>
戻り値は以下のとおりである。<br>
* マッチした場合
*: 1を返す
* マッチしなかった場合
*: 0を返す
* exprまたはpatにNULLが含まれる場合
*: NULLを返す
<br>
否定形式として、<code>NOT REGEXP</code>および<code>NOT RLIKE</code>も使用できる。<br>
 expr NOT REGEXP pat
 expr NOT RLIKE pat
<br>
MySQL 8.0では、<code>REGEXP</code> 演算子は内部的に <code>REGEXP_LIKE</code> 関数のシノニムとして実装されている。<br>
<br>
<u>大文字小文字の区別は、照合順序 (collation) に依存する。</u><br>
<u>デフォルトの照合順序 (utf8mb4_0900_ai_ci) では、大文字小文字を区別しない。</u><br>
<u>大文字・小文字を明示的に区別したい場合は、match_typeパラメータで制御する必要がある。</u><br>
<br>
使用例を以下に示す。<br>
<br>
 <syntaxhighlight lang="mysql">
 -- 'a'で始まる文字列
 SELECT * FROM users WHERE name REGEXP '^a';
 
 -- 数字を含む文字列
 SELECT * FROM products WHERE code RLIKE '[0-9]';
 
 -- 'test'を含まない文字列
 SELECT * FROM logs WHERE message NOT REGEXP 'test';
 </syntaxhighlight>
<br><br>

== 正規表現パターン構文 ==
MySQLの正規表現パターンは、複数のメタ文字と構文要素で構成される。<br>
<br>
==== メタ文字一覧 ====
正規表現で特別な意味を持つメタ文字を以下に示す。<br>
<br>
<center>
{| class="wikitable"
|+ メタ文字とその意味
! メタ文字 !! 意味 !! 使用例
|-
| . || 任意の1文字 (デフォルトでは改行以外) || a.c → abc、a1c、a_c
|-
| ^ || 文字列の先頭 (または行頭) || ^abc → abcで始まる
|-
| $ || 文字列の末尾 (または行末) || abc$ → abcで終わる
|-
| * || 0回以上の繰り返し || ab*c → ac、abc、abbc
|-
| + || 1回以上の繰り返し || ab+c → abc、abbc
|-
| ? || 0回または1回 || ab?c → ac、abc
|-
| &#124; || 論理和 (OR) || abc&#124;def → abcまたはdef
|-
| () || グループ化とキャプチャ || (ab)+ → ab、abab、ababab
|-
| [] || 文字クラス || [abc] → a、b、c
|-
| {} || 繰り返し回数指定 || a{2,4} → aa、aaa、aaaa
|-
| \ || エスケープ文字 || \. → ドット文字そのもの
|}
</center>
<br>
<u>メタ文字をリテラル文字として使用する場合は、バックスラッシュでエスケープする必要がある。</u><br>
<u>例えば、ドット文字そのものを検索する場合は、\.と記述する。</u><br>
<br>
==== 文字クラス ====
文字クラスは、複数の文字のうちいずれか1文字にマッチする。<br>
<br>
基本的な文字クラスの構文を以下に示す。<br>
* [abc]
*: a、b、cのいずれか1文字にマッチ
* [a-z]
*: aからzまでの小文字1文字にマッチ
* [A-Za-z]
*: 英大文字または英小文字1文字にマッチ
* [0-9]
*: 数字1文字にマッチ
* [^abc]
*: a、b、c以外の1文字にマッチ (否定文字クラス)
* [^0-9]
*: 数字以外の1文字にマッチ
<br>
文字クラス内では、ほとんどのメタ文字が特別な意味を失う。<br>
ただし、ハイフン (-)、キャレット (^)、バックスラッシュ (\) は特別な意味を持つ。<br>
<br>
==== POSIX文字クラス ====
MySQLは、POSIX準拠の文字クラスをサポートしている。<br>
POSIX文字クラスは、[: 名前 :]の形式で記述する。<br>
<br>
<center>
{| class="wikitable"
|+ POSIX文字クラス一覧
! POSIX文字クラス !! 意味 !! 等価な表現
|-
| [:alpha:] || 英字 || [A-Za-z]
|-
| [:digit:] || 数字 || [0-9]
|-
| [:alnum:] || 英数字 || [A-Za-z0-9]
|-
| [:space:] || 空白文字 || [ \t\r\n\f]
|-
| [:upper:] || 英大文字 || [A-Z]
|-
| [:lower:] || 英小文字 || [a-z]
|-
| [:punct:] || 句読点 || 記号文字
|-
| [:xdigit:] || 16進数字 || [0-9A-Fa-f]
|-
| [:blank:] || スペースとタブ || [ \t]
|-
| [:print:] || 印字可能文字 || 表示可能文字
|-
| [:graph:] || 印字可能文字 (空白除く) || [:alnum:]と[:punct:]
|-
| [:cntrl:] || 制御文字 || ASCIIコード0-31、127
|}
</center>
<br>
POSIX文字クラスは、文字クラス内で使用する。<br>
例: [[:alpha:]]は英字1文字にマッチする。<br>
<br>
==== 量指定子 ====
量指定子は、直前のパターンの繰り返し回数を指定する。<br>
<br>
量指定子の一覧を以下に示す。<br>
* *
*: 0回以上の繰り返し (貪欲)
* +
*: 1回以上の繰り返し (貪欲)
* ?
*: 0回または1回
* {n}
*: 正確にn回
* {n,}
*: n回以上
* {n,m}
*: n回以上、m回以下
<br>
デフォルトでは、量指定子は貪欲 (greedy) に動作する。<br>
貪欲モードでは、可能な限り長くマッチする。<br>
<br>
非貪欲 (non-greedy) モードにするには、量指定子の後ろに?を付ける。<br>
* *?
*: 0回以上の繰り返し (非貪欲)
* +?
*: 1回以上の繰り返し (非貪欲)
* ??
*: 0回または1回 (非貪欲)
* {n,}?
*: n回以上 (非貪欲)
* {n,m}?
*: n回以上、m回以下 (非貪欲)
<br>
==== エスケープシーケンス ====
MySQL 8.0以降では、ICUライブラリによる拡張エスケープシーケンスがサポートされている。<br>
<br>
<center>
{| class="wikitable"
|+ エスケープシーケンス一覧 (MySQL 8.0+)
! エスケープ !! 意味 !! 等価な表現
|-
| \d || 数字 || [0-9]
|-
| \D || 数字以外 || [^0-9]
|-
| \w || 単語文字 (英数字とアンダースコア) || [A-Za-z0-9_]
|-
| \W || 単語文字以外 || [^A-Za-z0-9_]
|-
| \s || 空白文字 || [ \t\r\n\f]
|-
| \S || 空白文字以外 || [^ \t\r\n\f]
|-
| \b || 単語境界 || (単語文字と非単語文字の境界)
|-
| \B || 単語境界以外 || (単語境界でない位置)
|}
</center>
<br>
MySQL 5.xでは、単語境界は[[:<:]]および[[:>:]]で表現されていた。<br>
MySQL 8.0への移行時には、これらを\bに置き換える必要がある。<br>
<br>
その他の一般的なエスケープシーケンスを以下に示す。<br>
* \n
*: 改行 (LF)
* \r
*: 復帰 (CR)
* \t
*: タブ
* \f
*: フォームフィード
* \v
*: 垂直タブ
* \0
*: NULL文字
<br><br>

== REGEXP_LIKE関数 ==
<code>REGEXP_LIKE</code>関数は、MySQL 8.0で導入された正規表現マッチング関数である。<br>
<code>REGEXP</code>演算子との違いは、match_typeパラメータで詳細な動作制御ができる点である。<br>
<br>
構文を以下に示す。<br>
 REGEXP_LIKE(expr, pat [, match_type])
<br>
パラメータの説明を以下に示す。<br>
* expr
*: 検索対象の文字列式
* pat
*: 正規表現パターン
* match_type (省略可能)
*: マッチング動作を制御するフラグ文字列
<br>
戻り値は以下のとおりである。<br>
* マッチした場合
*: 1を返す
* マッチしなかった場合
*: 0を返す
* exprまたはpatにNULLが含まれる場合
*: NULLを返す
<br>
使用例を以下に示す。<br>
<br>
 <syntaxhighlight lang="mysql">
 -- 基本的な使用例
 SELECT REGEXP_LIKE('abc', '^a');
 -- 結果: 1
 
 -- 大文字小文字を区別
 SELECT REGEXP_LIKE('ABC', '^a', 'c');
 -- 結果: 0
 
 -- 大文字小文字を無視
 SELECT REGEXP_LIKE('ABC', '^a', 'i');
 -- 結果: 1
 
 -- 複数行モード
 SELECT REGEXP_LIKE('line1\nline2', '^line2', 'm');
 -- 結果: 1
 </syntaxhighlight>
<br>
match_typeパラメータの詳細は、「match_typeパラメータ」セクションを参照すること。<br>
<br><br>

== REGEXP_REPLACE関数 ==
<code>REGEXP_REPLACE</code>関数は、MySQL 8.0で導入された正規表現置換関数である。<br>
正規表現にマッチした部分を、指定した文字列で置換する。<br>
<br>
構文を以下に示す。<br>
<br>
 REGEXP_REPLACE(expr, pat, repl [, pos [, occurrence [, match_type]]])
<br>
<center>
{| class="wikitable"
|+ パラメータの説明
|-
! パラメータ !! 説明
|-
| expr || 検索対象の文字列式
|-
| pat || 正規表現パターン
|-
| repl || 置換後の文字列
|-
| pos (省略可能、デフォルト: 1) || 検索開始位置 (1から始まる)
|-
| occurrence (省略可能、デフォルト: 0) || 置換対象の出現回数 (0は全て、1は最初、2は2番目...)
|-
| match_type (省略可能) || マッチング動作を制御するフラグ文字列
|}
</center>
<br>
後方参照を使用して、キャプチャグループの内容を置換文字列で参照できる。<br>
<br>
<center>
{| class="wikitable"
|+ 後方参照
|-
! 参照 !! 説明
|-
| $0  || マッチした文字列全体
|-
| $1 || 1番目のキャプチャグループ
|-
| $2 || 2番目のキャプチャグループ
|-
| $n || n番目のキャプチャグループ
|}
</center>
<br>
マッチしなかった場合は、元の文字列がそのまま返される。<br>
<br>
使用例を以下に示す。<br>
<br>
 <syntaxhighlight lang="mysql">
 -- HTMLタグを削除
 SELECT REGEXP_REPLACE('<p>Hello</p>', '<[^>]+>', '');
 -- 結果: 'Hello'
 
 -- 複数スペースを1つに正規化
 SELECT REGEXP_REPLACE('a  b   c', ' {2,}', ' ');
 -- 結果: 'a b c'
 
 -- 日付フォーマットを変換 (YYYY-MM-DD → DD/MM/YYYY)
 SELECT REGEXP_REPLACE('2025-02-15', '(\\d{4})-(\\d{2})-(\\d{2})', '$3/$2/$1');
 -- 結果: '15/02/2025'
 
 -- 最初のマッチのみ置換
 SELECT REGEXP_REPLACE('abc abc abc', 'abc', 'xyz', 1, 1);
 -- 結果: 'xyz abc abc'
 
 -- 2番目のマッチのみ置換
 SELECT REGEXP_REPLACE('abc abc abc', 'abc', 'xyz', 1, 2);
 -- 結果: 'abc xyz abc'
 </syntaxhighlight>
<br>
後方参照を使用する際は、バックスラッシュをエスケープする必要がある。<br>
SQLクエリ内では、\\d{4}のように2重のバックスラッシュを使用する。<br>
<br><br>

== REGEXP_SUBSTR関数 ==
<code>REGEXP_SUBSTR</code> 関数は、MySQL 8.0で導入された正規表現部分文字列抽出関数である。<br>
正規表現にマッチした部分文字列を返す。<br>
<br>
構文を以下に示す。<br>
 REGEXP_SUBSTR(expr, pat [, pos [, occurrence [, match_type]]])
<br>
<center>
{| class="wikitable"
|+ パラメータの説明
|-
! パラメータ !! 説明
|-
| expr || 検索対象の文字列式
|-
| pat || 正規表現パターン
|-
| pos (省略可能、デフォルト: 1) || 検索開始位置 (1から始まる)
|-
| occurrence (省略可能、デフォルト: 1) || 抽出対象の出現回数 (1は最初、2は2番目...)
|-
| match_type (省略可能) || マッチング動作を制御するフラグ文字列
|}
</center>
<br>
<center>
{| class="wikitable"
|+ 戻り値
|-
! 条件 !! 戻り値
|-
| マッチした場合 || マッチした部分文字列を返す
|-
| マッチしなかった場合 || NULLを返す
|}
</center>
<br>
使用例を以下に示す。<br>
<br>
 <syntaxhighlight lang="mysql">
 -- 電話番号を抽出
 SELECT REGEXP_SUBSTR('Call 123-456-7890', '[0-9]{3}-[0-9]{3}-[0-9]{4}');
 -- 結果: '123-456-7890'
 
 -- メールアドレスを抽出
 SELECT REGEXP_SUBSTR('Contact: user@example.com', '[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}');
 -- 結果: 'user@example.com'
 
 -- 最初のURLを抽出
 SELECT REGEXP_SUBSTR('Visit https://example.com or https://test.com', 'https?://[^ ]+', 1, 1);
 -- 結果: 'https://example.com'
 
 -- 2番目のURLを抽出
 SELECT REGEXP_SUBSTR('Visit https://example.com or https://test.com', 'https?://[^ ]+', 1, 2);
 -- 結果: 'https://test.com'
 </syntaxhighlight>
<br><br>

== REGEXP_INSTR関数 ==
<code>REGEXP_INSTR</code>関数は、MySQL 8.0で導入された正規表現位置検索関数である。<br>
正規表現にマッチした位置を返す。<br>
<br>
構文を以下に示す。<br>
 REGEXP_INSTR(expr, pat [, pos [, occurrence [, return_option [, match_type]]]])
<br>
<center>
{| class="wikitable"
|+ パラメータの説明
|-
! パラメータ !! 説明
|-
| expr || 検索対象の文字列式
|-
| pat || 正規表現パターン
|-
| pos (省略可能、デフォルト: 1) || 検索開始位置 (1から始まる)
|-
| occurrence (省略可能、デフォルト: 1) || 検索対象の出現回数 (1は最初、2は2番目...)
|-
| return_option (省略可能、デフォルト: 0) || 0はマッチ開始位置、1はマッチ終了位置+1を返す
|-
| match_type (省略可能) || マッチング動作を制御するフラグ文字列
|}
</center>
<br>
<center>
{| class="wikitable"
|+ 戻り値
|-
! 条件 !! 戻り値
|-
| マッチした場合 || マッチした位置 (1から始まる) を返す
|-
| マッチしなかった場合 || 0を返す
|}
</center>
<br>
使用例を以下に示す。<br>
<br>
 <syntaxhighlight lang="mysql">
 -- 'abc'の開始位置を取得
 SELECT REGEXP_INSTR('xyzabcdef', 'abc');
 -- 結果: 4
 
 -- 'abc'の終了位置+1を取得
 SELECT REGEXP_INSTR('xyzabcdef', 'abc', 1, 1, 1);
 -- 結果: 7
 
 -- 数字の開始位置を取得
 SELECT REGEXP_INSTR('abc123def', '[0-9]+');
 -- 結果: 4
 
 -- 2番目の数字グループの位置を取得
 SELECT REGEXP_INSTR('abc123def456ghi', '[0-9]+', 1, 2);
 -- 結果: 10
 </syntaxhighlight>
<br>
return_optionを1に設定すると、マッチした部分文字列の終了位置の次の位置が返される。<br>
これは、マッチした部分を抽出する際に便利である。<br>
<br><br>

== match_typeパラメータ ==
<code>match_type</code> パラメータは、正規表現関数の動作を制御するフラグ文字列である。<br>
MySQL 8.0の正規表現関数 (<code>REGEXP_LIKE</code>、<code>REGEXP_REPLACE</code>、<code>REGEXP_SUBSTR</code>、<code>REGEXP_INSTR</code>) で使用できる。<br>
<br>
<center>
{| class="wikitable"
|+ match_typeフラグ一覧
! フラグ !! 意味 !! 説明
|-
| c || 大文字小文字を区別 (case-sensitive) || 大文字と小文字を異なる文字として扱う
|-
| i || 大文字小文字を無視 (case-insensitive) || 大文字と小文字を同じ文字として扱う (デフォルト)
|-
| m || 複数行モード (multi-line) || ^と$が各行の先頭と末尾にマッチする
|-
| n || ドットが改行にマッチ (newline) || .メタ文字が改行文字にもマッチする
|-
| u || Unix改行のみ (unix-lines) || \nのみを改行として認識 (\r\nは改行として扱わない)
|}
</center>
<br>
複数のフラグを組み合わせる場合は、フラグ文字を連結する。<br>
例: 'im'は大文字小文字を無視し、かつ複数行モードを有効にする。<br>
<br>
フラグcとiは相互排他的である。<br>
両方を指定した場合は、cフラグが優先される。<br>
<br>
使用例を以下に示す。<br>
<br>
 <syntaxhighlight lang="mysql">
 -- 大文字小文字を区別
 SELECT REGEXP_LIKE('ABC', 'abc', 'c');
 -- 結果: 0
 
 -- 大文字小文字を無視
 SELECT REGEXP_LIKE('ABC', 'abc', 'i');
 -- 結果: 1
 
 -- 複数行モード
 SELECT REGEXP_LIKE('line1\nline2\nline3', '^line2', 'm');
 -- 結果: 1
 
 -- ドットが改行にマッチ
 SELECT REGEXP_LIKE('line1\nline2', 'line1.line2', 'n');
 -- 結果: 1
 
 -- 複数フラグの組み合わせ
 SELECT REGEXP_LIKE('Line1\nLINE2', '^line2', 'im');
 -- 結果: 1
 </syntaxhighlight>
<br>
デフォルトでは、iフラグが有効である。<br>
ただし、照合順序がバイナリ (binary) の場合は、cフラグが暗黙的に有効になる。<br>
<br><br>

== UNICODE対応 ==
MySQL 8.0以降では、ICUライブラリにより完全なUNICODE対応が実現されている。<br>
<br>
==== ICUライブラリへの移行 ====
MySQL 5.x系では、Henry Spencer氏の正規表現ライブラリが使用されていた。<br>
MySQL 8.0.4以降では、ICU (International Components for UNICODE) ライブラリに移行した。<br>
<br>
ICUライブラリの主なメリットを以下に示す。<br>
* 完全なUNICODE対応
*: UNICODE文字プロパティの使用
* 正規表現機能の拡張
*: より高度な正規表現構文のサポート
* マルチバイト文字の正確な処理
*: 文字単位での処理 (バイト単位ではない)
<br>
==== UNICODE文字クラス ====
MySQL 8.0では、UNICODE文字プロパティを使用した文字クラスがサポートされている。<br>
<u>\p{プロパティ名}</u> の形式で記述する。<br>
<br>
<center>
{| class="wikitable"
|+ UNICODE文字プロパティ一覧
! プロパティ !! 意味 !! 例
|-
| \p{L} || 文字 (Letter) || 全ての文字 (アルファベット、漢字等)
|-
| \p{N} || 数字 (Number) || 全ての数字 (0-9、全角数字等)
|-
| \p{Z} || セパレータ (Separator) || 空白、改行等
|-
| \p{P} || 句読点 (Punctuation) || .,;:!?等
|-
| \p{S} || シンボル (Symbol) || 記号文字 (+, =, $等)
|-
| \p{M} || マーク (Mark) || 結合文字 (アクセント記号等)
|-
| \p{C} || その他 (Other) || 制御文字等
|}
</center>
<br>
否定形式として、<u>\P{プロパティ名}</u> も使用できる。<br>
例: \P{L}は文字以外にマッチする。<br>
<br>
使用例を以下に示す。<br>
<br>
 <syntaxhighlight lang="mysql">
 -- 文字のみを抽出
 SELECT REGEXP_REPLACE('Hello123世界', '\\P{L}', '');
 -- 結果: 'Hello世界'
 
 -- 数字のみを抽出
 SELECT REGEXP_SUBSTR('Price: 1234 yen', '\\p{N}+');
 -- 結果: '1234'
 
 -- 句読点を削除
 SELECT REGEXP_REPLACE('Hello, World!', '\\p{P}', '');
 -- 結果: 'Hello World'
 </syntaxhighlight>
<br>
==== 照合順序との関係 ====
正規表現の大文字小文字の区別は、照合順序 (collation) に依存する。<br>
<br>
MySQL 8.0のデフォルト照合順序は、<u>utf8mb4_0900_ai_ci</u> である。<br>
<br>
<center>
{| class="wikitable"
|+ utf8mb4_0900_ai_ci の構成要素
|-
! 要素 !! 説明
|-
| utf8mb4 || 4バイトUNICODE文字セット (絵文字対応)
|-
| 0900 || UNICODE 9.0.0準拠
|-
| ai || accent insensitive (アクセント記号を無視)
|-
| ci || case insensitive (大文字小文字を無視)
|}
</center>
<br>
大文字小文字を明示的に区別する場合は、match_typeパラメータでcフラグを指定する。<br>
<br>
==== 4バイト文字の扱い ====
MySQL 8.0では、絵文字等の4バイトUNICODE文字 (Supplementary Multilingual Plane) が正しく処理される。<br>
<br>
ただし、文字列関数の位置指定では、4バイト文字が16ビット単位 (サロゲートペア) でカウントされる場合がある。<br>
これは、MySQLの内部表現がUTF-16ベースであるためである。<br>
<br>
使用例を以下に示す。<br>
 <syntaxhighlight lang="mysql">
 -- 絵文字を含む文字列
 SELECT REGEXP_LIKE('Hello 😀 World', '😀');
 -- 結果: 1
 
 -- 絵文字を削除
 SELECT REGEXP_REPLACE('Test 🚀 Message 🎉', '[\\x{1F300}-\\x{1F9FF}]', '');
 -- 結果: 'Test  Message '
 </syntaxhighlight>
<br><br>

== パフォーマンスと制限事項 ==
==== インデックスの非使用 ====
<u>正規表現演算子および関数は、インデックスを使用しない。</u><br>
<u>そのため、大量の行に対して正規表現検索を行うと、フルテーブルスキャンが発生する。</u><br>
<br>
パフォーマンスへの影響を以下に示す。<br>
* フルテーブルスキャン
*: 全行を走査するため、テーブルサイズに比例して処理時間が増加
* CPU負荷
*: 正規表現のマッチング処理はCPU集約的
<br>
代替手段として、以下を検討する。<br>
* LIKE演算子
*: プレフィックスマッチ (LIKE 'abc%') はインデックスを使用可能
* FULLTEXT INDEX
*: 全文検索インデックスを使用した高速な文字列検索
<br>
==== 正規表現のコンパイルコスト ====
正規表現パターンは、マッチング前にコンパイルされる。<br>
複雑な正規表現パターンは、コンパイルに時間がかかる。<br>
<br>
プリペアドステートメントを使用することで、正規表現のコンパイルを1回だけに抑えることができる。<br>
<br>
 <syntaxhighlight lang="mysql">
 PREPARE stmt FROM 'SELECT * FROM users WHERE name REGEXP ?';
 SET @pattern = '^[A-Z]';
 EXECUTE stmt USING @pattern;
 </syntaxhighlight>
<br>
==== regexp_stack_limit ====
正規表現エンジンのスタックメモリ制限を設定するシステム変数である。<br>
<br>
デフォルト値は8[MB] (8388608バイト) である。<br>
複雑な正規表現や長い文字列を処理する際に、スタックオーバーフローを防ぐために使用される。<br>
<br>
設定例を以下に示す。<br>
<br>
 <syntaxhighlight lang="mysql">
 -- セッションレベルで設定
 SET SESSION regexp_stack_limit = 16777216;
 
 -- グローバルレベルで設定
 SET GLOBAL regexp_stack_limit = 16777216;
 </syntaxhighlight>
<br>
==== regexp_time_limit ====
正規表現エンジンの実行ステップ制限を設定するシステム変数である。<br>
<br>
デフォルト値は32ステップである。<br>
複雑な正規表現や長い文字列を処理する際に、無限ループや過度な処理時間を防ぐために使用される。<br>
<br>
設定例を以下に示す。<br>
<br>
 <syntaxhighlight lang="mysql">
 -- セッションレベルで設定
 SET SESSION regexp_time_limit = 64;
 
 -- グローバルレベルで設定
 SET GLOBAL regexp_time_limit = 64;
 </syntaxhighlight>
<br>
時間制限を超過すると、以下のエラーが発生する。<br>
 ERROR 3699 (HY000): Timeout exceeded in regular expression match.
<br>
==== 代替手段の検討 ====
正規表現のパフォーマンスが問題になる場合は、以下に示す代替手段を検討する。<br>
<br>
<center>
{| class="wikitable"
|+ 正規表現の代替手段
|-
! 代替手段 !! 説明
|-
| LIKE演算子 || プレフィックスマッチや単純なパターンにはLIKEを使用<br>プレフィックスマッチ (LIKE 'abc%') はインデックスを使用可能
|-
| FULLTEXT INDEX || 全文検索が必要な場合はFULLTEXT INDEXを使用<br>自然言語検索やブーリアンモード検索が可能
|-
| アプリケーション側での処理 || 複雑な文字列処理はアプリケーション側で実装<br>プログラミング言語の正規表現ライブラリを使用
|}
</center>
<br><br>

== バージョン互換性 ==
MySQL 5.x系からMySQL 8.0への移行時には、正規表現の動作変更に注意が必要である。<br>
<br>
==== MySQL 5.x → 8.0移行時の注意点 ====
MySQL 8.0では、正規表現ライブラリがHenry Spencer氏のライブラリからICUライブラリに変更された。<br>
この変更により、一部の正規表現パターンが動作しなくなる可能性がある。<br>
<br>
主な変更点を以下に示す。<br>
<br>
<center>
{| class="wikitable"
|+ MySQL 8.0における正規表現ライブラリの主な変更点
|-
! 変更点 !! 説明
|-
| 単語境界メタ文字 || <nowiki>[[:<:]]</nowiki> および <nowiki>[[:>:]]</nowiki> は非サポート<br>\bに変更する必要がある。
|-
| メタ文字のエスケープ要件 || 一部のメタ文字のエスケープ要件が変更された。
|-
| ドットと改行の動作 || デフォルトではドット (.) は改行にマッチしない。<br>MySQL 5.xでは一部の状況でマッチした。
|-
| マルチバイト文字処理 || バイト単位から文字単位の処理に変更
|}
</center>
<br>
==== 単語境界の移行 ====
MySQL 5.xでは、単語境界を [[:<:]] および [[:>:]] で表現していた。<br>
MySQL 8.0では、これらは非サポートとなり、\bに変更する必要がある。<br>
<br>
移行例を以下に示す。<br>
<br>
 <syntaxhighlight lang="mysql">
 -- MySQL 5.x
 SELECT * FROM words WHERE word REGEXP '[[:<:]]test[[:>:]]';
 
 -- MySQL 8.0
 SELECT * FROM words WHERE word REGEXP '\\btest\\b';
 </syntaxhighlight>
<br>
SQLクエリ内では、バックスラッシュをエスケープするため、\\bと記述する。<br>
<br>
==== 動作変更の確認 ====
移行前に、既存の正規表現パターンが正しく動作するかを確認する必要がある。<br>
<br>
確認手順を以下に示す。<br>
# 既存のSQLクエリから、正規表現を使用している箇所を抽出する。
# テスト環境でMySQL 8.0を構築する。
# 抽出した正規表現パターンをテストする。
# エラーが発生した場合は、パターンを修正する。
<br>
特に、[[:<:]]、[[:>:]]、エスケープシーケンス、ドットの動作を重点的に確認する。<br>
<br>
==== MariaDBとの違い ====
MariaDBは、PCRE (Perl Compatible Regular Expressions) ライブラリを採用している。<br>
MySQLのICUライブラリとは異なるため、正規表現の動作が異なる場合がある。<br>
<br>
主な違いを以下に示す。<br>
<br>
<center>
{| class="wikitable"
|+ MySQLとMariaDBの正規表現の違い
|-
! 項目 !! MySQL 8.0 !! MariaDB
|-
| 使用ライブラリ || ICU || PCRE
|-
| 正規表現構文 || ICU構文をサポート || Perl互換構文をサポート
|-
| 後方参照 || $1、$2等 || \1、\2等
|}
</center>
<br>
MySQLからMariaDBへの移行、またはその逆の移行時には、正規表現パターンの互換性を確認する必要がある。<br>
<br><br>

== サンプルクエリ ==
==== メールアドレスのバリデーション ====
メールアドレスの形式をチェックする例を示す。<br>
<br>
 <syntaxhighlight lang="mysql">
 -- 基本的なメールアドレスバリデーション
 SELECT
    email,
    REGEXP_LIKE(email, '^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}$') AS is_valid
 FROM users;
 
 -- 不正なメールアドレスを検出
 SELECT email
 FROM users
 WHERE NOT REGEXP_LIKE(email, '^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}$');
 </syntaxhighlight>
<br>
==== 電話番号の抽出 ====
テキストから電話番号を抽出する例を示す。<br>
<br>
 <syntaxhighlight lang="mysql">
 -- XXX-XXX-XXXX形式の電話番号を抽出
 SELECT
    message,
    REGEXP_SUBSTR(message, '[0-9]{3}-[0-9]{3}-[0-9]{4}') AS phone_number
 FROM messages;
 
 -- 複数の電話番号形式に対応
 SELECT
    message,
    REGEXP_SUBSTR(message, '[0-9]{3}-[0-9]{3}-[0-9]{4}|\\([0-9]{3}\\) [0-9]{3}-[0-9]{4}') AS phone_number
 FROM messages;
 </syntaxhighlight>
<br>
==== HTMLタグの削除 ====
HTMLタグを削除してプレーンテキストを抽出する例を示す。<br>
<br>
 <syntaxhighlight lang="mysql">
 -- HTMLタグを削除
 SELECT
    html_content,
    REGEXP_REPLACE(html_content, '<[^>]+>', '') AS plain_text
 FROM articles;
 
 -- HTMLエンティティも削除
 SELECT
    REGEXP_REPLACE(
       REGEXP_REPLACE(html_content, '<[^>]+>', ''),
       '&[a-zA-Z]+;',
       ''
    ) AS plain_text
 FROM articles;
 </syntaxhighlight>
<br>
==== 日付フォーマットの変換 ====
日付形式を変換する例を示す。<br>
<br>
 <syntaxhighlight lang="mysql">
 -- YYYY-MM-DD → DD/MM/YYYY
 SELECT
    date_str,
    REGEXP_REPLACE(date_str, '(\\d{4})-(\\d{2})-(\\d{2})', '$3/$2/$1') AS formatted_date
 FROM events;
 
 -- MM/DD/YYYY → YYYY-MM-DD
 SELECT
    date_str,
    REGEXP_REPLACE(date_str, '(\\d{2})/(\\d{2})/(\\d{4})', '$3-$1-$2') AS iso_date
 FROM events;
 </syntaxhighlight>
<br>
==== 複数スペースの正規化 ====
複数の連続するスペースを1つのスペースに置換する例を示す。<br>
<br>
 <syntaxhighlight lang="mysql">
 -- 複数スペースを1つに正規化
 SELECT
    text,
    REGEXP_REPLACE(text, ' {2,}', ' ') AS normalized_text
 FROM documents;
 
 -- 行頭・行末のスペースも削除
 SELECT
    REGEXP_REPLACE(
       REGEXP_REPLACE(text, '^ +| +$', ''),
       ' {2,}',
       ' '
    ) AS trimmed_text
 FROM documents;
 </syntaxhighlight>
<br>
==== URLの抽出 ====
テキストからURLを抽出する例を示す。<br>
<br>
 <syntaxhighlight lang="mysql">
 -- HTTPまたはHTTPSのURLを抽出
 SELECT
    comment,
    REGEXP_SUBSTR(comment, 'https?://[^ ]+') AS url
 FROM comments;
 
 -- 全てのURLを抽出 (複数URLがある場合は最初のもの)
 SELECT
    comment,
    REGEXP_SUBSTR(comment, 'https?://[a-zA-Z0-9./?=_-]+') AS first_url
 FROM comments;
 </syntaxhighlight>
<br>
==== 郵便番号のバリデーション ====
郵便番号の形式をチェックする例を示す。<br>
<br>
 <syntaxhighlight lang="mysql">
 -- 日本の郵便番号 (XXX-XXXX形式)
 SELECT
    postal_code,
    REGEXP_LIKE(postal_code, '^[0-9]{3}-[0-9]{4}$') AS is_valid
 FROM addresses;
 
 -- 米国の郵便番号 (XXXXX形式またはXXXXX-XXXX形式)
 SELECT
    zip_code,
    REGEXP_LIKE(zip_code, '^[0-9]{5}(-[0-9]{4})?$') AS is_valid
 FROM us_addresses;
 </syntaxhighlight>
<br>
==== IPアドレスの検証 ====
IPv4アドレスの形式をチェックする例を示す。<br>
<br>
 <syntaxhighlight lang="mysql">
 -- IPv4アドレスの基本的な形式チェック
 SELECT
    ip_address,
    REGEXP_LIKE(ip_address, '^([0-9]{1,3}\\.){3}[0-9]{1,3}$') AS is_valid_format
 FROM server_logs;
 
 -- より厳密なIPv4アドレスチェック (0-255の範囲)
 SELECT
    ip_address,
    REGEXP_LIKE(
       ip_address,
       '^(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\.(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\.(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\.(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$'
    ) AS is_valid_ipv4
 FROM server_logs;
 </syntaxhighlight>
<br>
==== パスワード強度のチェック ====
パスワードの強度をチェックする例を示す。<br>
<br>
 <syntaxhighlight lang="mysql">
 -- 最低8文字、英大文字・小文字・数字を含む
 SELECT
    password,
    REGEXP_LIKE(password, '^(?=.*[a-z])(?=.*[A-Z])(?=.*[0-9]).{8,}$') AS is_strong
 FROM user_passwords;
 
 -- 英大文字・小文字・数字・記号を含む
 SELECT
    password,
    REGEXP_LIKE(password, '^(?=.*[a-z])(?=.*[A-Z])(?=.*[0-9])(?=.*[^a-zA-Z0-9]).{8,}$') AS is_very_strong
 FROM user_passwords;
 </syntaxhighlight>
<br>
==== カンマ区切り文字列の分割 ====
カンマ区切り文字列から要素を抽出する例を示す。<br>
<br>
 <syntaxhighlight lang="mysql">
 -- 最初の要素を抽出
 SELECT
    csv_data,
    REGEXP_SUBSTR(csv_data, '[^,]+', 1, 1) AS first_element
 FROM data_table;
 
 -- 2番目の要素を抽出
 SELECT
    csv_data,
    REGEXP_SUBSTR(csv_data, '[^,]+', 1, 2) AS second_element
 FROM data_table;
 
 -- 3番目の要素を抽出
 SELECT
    csv_data,
    REGEXP_SUBSTR(csv_data, '[^,]+', 1, 3) AS third_element
 FROM data_table;
 </syntaxhighlight>
<br><br>


{{#seo:
|title={{PAGENAME}} : Exploring Electronics and SUSE Linux | MochiuWiki
|keywords=MochiuWiki,Mochiu,Wiki,Mochiu Wiki,Electric Circuit,Electric,pcb,Mathematics,AVR,TI,STMicro,AVR,ATmega,MSP430,STM,Arduino,Xilinx,FPGA,Verilog,HDL,PinePhone,Pine Phone,Raspberry,Raspberry Pi,C,C++,C#,Qt,Qml,MFC,Shell,Bash,Zsh,Fish,SUSE,SLE,Suse Enterprise,Suse Linux,openSUSE,open SUSE,Leap,Linux,uCLnux,MySQL,SQL,正規表現,REGEXP,RLIKE,REGEXP_LIKE,REGEXP_REPLACE,REGEXP_SUBSTR,REGEXP_INSTR,ICU,UNICODE,電気回路,電子回路,基板,プリント基板
|description={{PAGENAME}} - MySQL正規表現の完全ガイド (REGEXP、REGEXP_LIKE、REGEXP_REPLACE、UNICODE対応) | This page is {{PAGENAME}} in our wiki about electronic circuits and SUSE Linux
|image=/resources/assets/MochiuLogo_Single_Blue.png
}}

__FORCETOC__
[[カテゴリ:MySQL]]