Pythonで文字列変換をする際、変換したい文字列を正規表現で指定していた場合の対処の仕方です。
正規表現で指定しているっていうことはですね。
文字列がある程度の規則性はもっているものの、決して一種類ではないから正規表現にしているわけですが、これをまたある規則に則って変換するとなると結構ハードルがありました。
例えば、文章の中にファイルとか画像へのリンクを混ぜておくとかいう場合、下書き段階ではサクサク書きたいのでざっくりとそのファイル名だけ仮置しておく、なんてことがあるわけです。
ファイル名が「test1.jpg」とかだったら、「##test1.jpg##」といった具合に。
一つの文章の中に複数個こういうものが出てきたとして、それぞれ「##test2.jpg##」とか「##test3.jpg##」とかにして文章は書きなぐります、と。
で、それをいざ本番環境に書き写す際にどうしたら楽に変換できるだろうか、というところで頭を使ってみました。
正規表現としては「##.*##」となります。
で、必要な処理としては、前後の「##」を削った上でファイルの格納場所を指定するハイパーリンク相当の何かを付け足す、となります。
で、最初は単純に変換式を書いたんですね。
import re img_fle_s = re.search('##.*##', sentense)[0] img_fle = img_fle_s.replace('#', '') sentense = re.sub(img_fle_s,'<img src="' + url_img + img_fle + '" alt="' + title + '" width="320" />',sentense)
実行してみて気づきましたが、これ、一番最初に出てくる「##.*##」を満たすファイル名で全部変換されちゃうんですね。
最初に一回しかファイル名を特定していないので当たり前なんですが。
それで考えたのが、for文で上から順に正規表現にひっかかるものを処理していく、というやり方。
import re cnts_img_fle = len(re.findall('##.*##', sentense)) for i in range(0, cnts_img_fle): img_fle_s = re.search('##.*##', sentense)[0] img_fle = img_fle_s.replace('#', '') sentense = re.sub(img_fle_s,'<img src="' + url_img + img_fle + '" alt="' + title + '" width="320" />',sentense)
文章中、正規表現に引っかかる箇所の個数を最初に特定してやり、その個数分だけ上から順に変換をかける、と。
これでうまくいきました。