【備忘録】正規表現とreモジュール

スクレイピング
あくまで備忘録なんで雑に記録します

参考:図解!Python 正規表現の徹底解説!(文字列の抽出と置換など)

図解!Python 正規表現の徹底解説!(文字列の抽出と置換など)

re(Regular Expression:正規表現)モジュール

基本形:res = re.関数(正規表現,検索値)

ある文字列チェックを正規表現で該当するかどうかチェック

例:abcdefghijk に、efgはある、gheはない

※最長一致(デフォルトの貪欲マッチ:非貪欲にしたかったら[?]をつける

abcabcの文字列を、s「a .* b 」という正規表現でチェックした時に、該当するのは

abcabc←ではなく、

abcabc←こっち

正規表現

メタ文字を組み合わせた系式

メタ文字

文頭・・・^(ハット)
文尾・・・$
1文字・・・ . (ドット)
直前文字の0回以上の繰り返し・・・*
直前文字の1回以上の繰り返し・・・+
0文字以上の文字列・・・.*
1文字以上の文字列・・・.+

直前の文字のn回の繰り返し・・・{n}

文字選択肢・・・[ab@](a、もしくはb、もしくは@)/[0-9](0~9のいずれか)
文字選択肢複数・・・[a-c]+(a〜cの1文字以上)例:aca
not文字選択肢・・・[^abc]集合にハット(a、もしくはb、もしくはc以外):例z
文字列選択肢・・・a|b(a、もしくはb)/a(b|c)(aとb、もしくはc):例ac

エスケープ文字・・・「+」や「.(ドット)」を文字列として使いたい場合は「\」(エスケープ文字:Macはoption+¥)を前に入れる

その他、エスケープ文字があることで逆にメタ文字化してしまうもの
\d・・・数字 1 文字
\D・・・数字以外の 1 文字
\w・・・英数字または_ のうち 1 文字
\W・・・\w 以外の 1 文字
\n・・・改行文字
\t・・・タブ文字
\s・・・空白文字全般

reの使い方①特定文字列の有無(search)

# 「dog」という文字列を含むかどうか

import re

S1 = "bulldog"
S2 = "shibainu"
S3 = "hotdog"

reg = "dog"

print("Yes" if re.search(reg, S1) else "No")
>>>Yes
print("Yes" if re.search(reg, S2) else "No")
>>>No
print("Yes" if re.search(reg, S3) else "No")
>>>Yes

reの使い方②特定部分を抜き出したい(findall)

#!/usr/bin/python
# -*- coding: Shift-JIS -*-
#なんか「SyntaxError: Non-UTF-8 code starting with '\x8d'」というエラー吐くから

import re
text = '<h2 class="mainpage-heading"><span id=".E4.BB.8A.E6.97.A5.E3.81.AF.E4.BD.95.E3.81.AE.E6.97.A5_10.E6.9C.8829.E6.97.A5"></span><span class="mw-headline" id="今日は何の日_10月29日"><span class="mainpage-heading-image"><a href="/wiki/Wikipedia:%E4%BB%8A%E6%97%A5%E3%81%AF%E4%BD%95%E3%81%AE%E6%97%A5_10%E6%9C%88" title="Wikipedia:今日は何の日 10月"><img alt="""" src="//upload.wikimedia.org/wikipedia/commons/thumb/3/39/HSDagensdatum.svg/38px-HSDagensdatum.svg.png" decoding="async" width="38" height="38" style="vertical-align: middle" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/3/39/HSDagensdatum.svg/57px-HSDagensdatum.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/3/39/HSDagensdatum.svg/76px-HSDagensdatum.svg.png 2x" data-file-width="156" data-file-height="156"></a></span><span class="mainpage-heading-title"><a href="/wiki/Wikipedia:%E4%BB%8A%E6%97%A5%E3%81%AF%E4%BD%95%E3%81%AE%E6%97%A5_10%E6%9C%88" title="Wikipedia:今日は何の日 10月">今日は何の日</a> <a href="/wiki/10%E6%9C%8829%E6%97%A5" title="10月29日">10月29日</a></span></span></h2>'

tag = '<.*?>'  # 単品のタグを全部だしてみる
res = re.findall(tag, text)
for i in res:
    print(i)  # リストを直列出力

>>>
<h2 class="mainpage-heading">
<span id=".E4.BB.8A.E6.97.A5.E3.81.AF.E4.BD.95.E3.81.AE.E6.97.A5_10.E6.9C.8829.E6.97.A5">
</span>
<span class="mw-headline" id="今日は何の日_10月29日">
<span class="mainpage-heading-image">
<a href="/wiki/Wikipedia:%E4%BB%8A%E6%97%A5%E3%81%AF%E4%BD%95%E3%81%AE%E6%97%A5_10%E6%9C%88" title="Wikipedia:今日は何の日 10月">
<img alt="""" src="//upload.wikimedia.org/wikipedia/commons/thumb/3/39/HSDagensdatum.svg/38px-HSDagensdatum.svg.png" decoding="async" width="38" height="38" style="vertical-align: middle" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/3/39/HSDagensdatum.svg/57px-HSDagensdatum.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/3/39/HSDagensdatum.svg/76px-HSDagensdatum.svg.png 2x" data-file-width="156" data-file-height="156">
</a>
</span>
<span class="mainpage-heading-title">
<a href="/wiki/Wikipedia:%E4%BB%8A%E6%97%A5%E3%81%AF%E4%BD%95%E3%81%AE%E6%97%A5_10%E6%9C%88" title="Wikipedia:今日は何の日 10月">
</a>
<a href="/wiki/10%E6%9C%8829%E6%97%A5" title="10月29日">
</a>
</span>
</span>
</h2>

reの使い方③長い文章から特定の文字列を別の物に置換(sub)

#!/usr/bin/python
# -*- coding: Shift-JIS -*-

import re
text = 'キョウトへ行ったけど、思ったよりもキョウトっぽくなかった。トウキョウトはどうなんやろか?'
reg = 'キョウト'
after = '京都'
res = re.sub(reg, after, text)
print(res)

>>>
京都へ行ったけど、思ったよりも京都っぽくなかった。トウ京都はどうなんやろか?

reの使い方④正しい形になっているかバリデーションしたい

(validate:検証)

import re

def validate_url(url):
    reg = "^(http|https)://"
    res = re.match(reg, url)
    if res:
        print(url)
    else:
        print("これってurlじゃないよ")


text1 = "https://ja.wikipedia.org"
text2 = "ftp://192.168.0.1"

validate_url(text1)
>>>https://ja.wikipedia.org

validate_url(text2)
>>>これってurlじゃないよ

コメント

タイトルとURLをコピーしました