【備忘録】正規表現とreモジュール

あくまで備忘録なんで雑に記録します

参考：図解！Python 正規表現の徹底解説！(文字列の抽出と置換など)
図解！Python 正規表現の徹底解説！(文字列の抽出と置換など)

re（Regular Expression：正規表現）モジュール
1. 正規表現
2. メタ文字
reの使い方①特定文字列の有無（search）
reの使い方②特定部分を抜き出したい（findall）
reの使い方③長い文章から特定の文字列を別の物に置換(sub)
reの使い方④正しい形になっているかバリデーションしたい

re（Regular Expression：正規表現）モジュール

基本形：res = re.関数（正規表現,検索値）

ある文字列チェックを正規表現で該当するかどうかチェック

例：abcdefghijk に、efgはある、gheはない

※最長一致（デフォルトの貪欲マッチ：非貪欲にしたかったら[？]をつける）

abcabcの文字列を、ｓ「a .* b 」という正規表現でチェックした時に、該当するのは

abcabc←ではなく、

abcabc←こっち

正規表現

メタ文字を組み合わせた系式

メタ文字

文頭・・・^（ハット）
文尾・・・$
１文字・・・ . （ドット）
直前文字の０回以上の繰り返し・・・*
直前文字の１回以上の繰り返し・・・+
0文字以上の文字列・・・.*
1文字以上の文字列・・・.+
直前の文字のn回の繰り返し・・・{n}

文字選択肢・・・[ab@]（a、もしくはb、もしくは@）／[0-9]（0～9のいずれか）
文字選択肢複数・・・[a-c]+（a〜cの1文字以上）例：aca
not文字選択肢・・・[^abc]集合にハット（a、もしくはb、もしくはc以外）：例z
文字列選択肢・・・a|b（a、もしくはb）／a(b|c)（aとb、もしくはc）：例ac

エスケープ文字・・・「＋」や「.（ドット）」を文字列として使いたい場合は「\」（エスケープ文字：Macはoption+¥）を前に入れる

その他、エスケープ文字があることで逆にメタ文字化してしまうもの
\d・・・数字 1 文字
\D・・・数字以外の 1 文字
\w・・・英数字または_ のうち 1 文字
\W・・・\w 以外の 1 文字
\n・・・改行文字
\t・・・タブ文字
\s・・・空白文字全般

reの使い方①特定文字列の有無（search）

# 「dog」という文字列を含むかどうか

import re

S1 = "bulldog"
S2 = "shibainu"
S3 = "hotdog"

reg = "dog"

print("Yes" if re.search(reg, S1) else "No")
>>>Yes
print("Yes" if re.search(reg, S2) else "No")
>>>No
print("Yes" if re.search(reg, S3) else "No")
>>>Yes

reの使い方②特定部分を抜き出したい（findall）

#!/usr/bin/python
# -*- coding: Shift-JIS -*-
#なんか「SyntaxError: Non-UTF-8 code starting with '\x8d'」というエラー吐くから

import re
text = '<h2 class="mainpage-heading"><span id=".E4.BB.8A.E6.97.A5.E3.81.AF.E4.BD.95.E3.81.AE.E6.97.A5_10.E6.9C.8829.E6.97.A5"></span><span class="mw-headline" id="今日は何の日_10月29日"><span class="mainpage-heading-image"><a href="/wiki/Wikipedia:%E4%BB%8A%E6%97%A5%E3%81%AF%E4%BD%95%E3%81%AE%E6%97%A5_10%E6%9C%88" title="Wikipedia:今日は何の日 10月"><img alt="""" src="//upload.wikimedia.org/wikipedia/commons/thumb/3/39/HSDagensdatum.svg/38px-HSDagensdatum.svg.png" decoding="async" width="38" height="38" style="vertical-align: middle" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/3/39/HSDagensdatum.svg/57px-HSDagensdatum.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/3/39/HSDagensdatum.svg/76px-HSDagensdatum.svg.png 2x" data-file-width="156" data-file-height="156"></a></span><span class="mainpage-heading-title"><a href="/wiki/Wikipedia:%E4%BB%8A%E6%97%A5%E3%81%AF%E4%BD%95%E3%81%AE%E6%97%A5_10%E6%9C%88" title="Wikipedia:今日は何の日 10月">今日は何の日</a> <a href="/wiki/10%E6%9C%8829%E6%97%A5" title="10月29日">10月29日</a></span></span></h2>'

tag = '<.*?>'  # 単品のタグを全部だしてみる
res = re.findall(tag, text)
for i in res:
    print(i)  # リストを直列出力

>>>
<h2 class="mainpage-heading">
<span id=".E4.BB.8A.E6.97.A5.E3.81.AF.E4.BD.95.E3.81.AE.E6.97.A5_10.E6.9C.8829.E6.97.A5">
</span>
<span class="mw-headline" id="今日は何の日_10月29日">
<span class="mainpage-heading-image">
<a href="/wiki/Wikipedia:%E4%BB%8A%E6%97%A5%E3%81%AF%E4%BD%95%E3%81%AE%E6%97%A5_10%E6%9C%88" title="Wikipedia:今日は何の日 10月">
<img alt="""" src="//upload.wikimedia.org/wikipedia/commons/thumb/3/39/HSDagensdatum.svg/38px-HSDagensdatum.svg.png" decoding="async" width="38" height="38" style="vertical-align: middle" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/3/39/HSDagensdatum.svg/57px-HSDagensdatum.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/3/39/HSDagensdatum.svg/76px-HSDagensdatum.svg.png 2x" data-file-width="156" data-file-height="156">
</a>
</span>
<span class="mainpage-heading-title">
<a href="/wiki/Wikipedia:%E4%BB%8A%E6%97%A5%E3%81%AF%E4%BD%95%E3%81%AE%E6%97%A5_10%E6%9C%88" title="Wikipedia:今日は何の日 10月">
</a>
<a href="/wiki/10%E6%9C%8829%E6%97%A5" title="10月29日">
</a>
</span>
</span>
</h2>

reの使い方③長い文章から特定の文字列を別の物に置換(sub)

#!/usr/bin/python
# -*- coding: Shift-JIS -*-

import re
text = 'キョウトへ行ったけど、思ったよりもキョウトっぽくなかった。トウキョウトはどうなんやろか？'
reg = 'キョウト'
after = '京都'
res = re.sub(reg, after, text)
print(res)

>>>
京都へ行ったけど、思ったよりも京都っぽくなかった。トウ京都はどうなんやろか？

reの使い方④正しい形になっているかバリデーションしたい

（validate:検証）

import re

def validate_url(url):
    reg = "^(http|https)://"
    res = re.match(reg, url)
    if res:
        print(url)
    else:
        print("これってurlじゃないよ")


text1 = "https://ja.wikipedia.org"
text2 = "ftp://192.168.0.1"

validate_url(text1)
>>>https://ja.wikipedia.org

validate_url(text2)
>>>これってurlじゃないよ