[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

POORUN24の日記

🐶と🐔が好きです

ゼミ12/11

・・体操Pythonテキストマイニング

2ページ目から始めてみたよ(●'◡'●) print("hello") text1="こんにちは" no=3 print("おはよう"+text1+str(no)) おはようこんにちは3

↑おはよう、こんにちは、3がくっついた(strとは?)

if n[1] >= 5: print("nの2つ目の要素は5以上で"+str(n[1])+"です。3個めは"+str(n[2])) else: print("nの2つ目要素は5以下で"+str(n[1])+"です。3個めは"+str(n[2]))

ゼミ11/27

ゼミナール大会が終わったので卒論に向けてやり始めるぽいです。私はこの記事が面白かったのでなんかマネしたいと思っています↓

qiita.com

今日はとほほを落とすことを目標として頑張りたいと思います。 課題スライド80~90近くに取り組みましょーう!

www.tohoho-web.com

追記↓ 78ページのxmllint --html --xpath "//h2" test.htmがエラー起きて進みません。とほほはtohoho.htmとしていつものところにダウンロードしてあります。

体操レベル9 正規表現🍭

.##体操レベル9

体操レベル9を本日から始めました! 以下が問題です↓

  • (1)正規表現「.」の意味を説明してください。
  • (2)正規表現 ドラ.もん にマッチする文字列を例を2つ書いてください。
  • (3)正規表現 「*」の意味を説明してください。
  • (4)正規表現 「すも* 」 にマッチする文字列の例を2つ書いてください
  • (5)正規表現 の組み合わせ 「.*」 の意味となぜそうなるかの理屈を説明してください。
  • (6)正規表現 「 a.*@gmail.com」 にマッチする文字列を3つ書いてください。
  • (7)正規表現「^」 の意味を説明してください。
  • (8)正規表現 「$」の意味を説明してください。
  • (9) grep正規表現を使って、「ドラミちゃん」とのみ書かれた行とその前後5行をtest.txtから抽出するコマンドを書いてください。 ヒント:「ドラミちゃん」とのみ書かれた行→「行頭ドラミちゃん行末」 前後5行はC
  • (10) grep正規表現を使って、「bで始まるgmail.com」のメールアドレスを含む行をaddress.txtから抽出して、gmail.txtに保存するコマンドを書いてください。
  • (11) 正規表現「|」と「[abc]」の意味を理解し、「[abc]|[1-9]tanuki@gmail.com」にマッチする文字列の例を1つ書いてください。

正規表現とはなんぞやですね!

とりあえず授業のスライドに載ってた大事そうなのをいくつか↓

正規表現

  • .と * .は任意の1文字、 * は直前の文字の0回以上の繰り返し.例 c.t cat cut cet ca *は、caaaaaa cat * catttttttt cat など

  • . * . * は任意の文字列 (任意の文字の0回以上繰り返し)例 c. *t cater cefet cegt

  • [0-5]と[abc] [0-9]は0~9の数字にマッチ, [abc]はaかbかcにマッチ

  • ^と$ 行頭^、行末$

  • (abc|efg) abcもしくはefgにマッチ

上を参考にしながら問題に挑みましょう!

回答↓

  • (1).は任意の一文字を表す! catをc.tにdogをdo.にelephantをe.ep.a.tとかにもできるのかな?存在しない単語もできるのかな?gi.sryとか。

  • (2)ドラ.もん→ドラえもん ドラエもん これを見る感じ存在しない単語だと正規表現の意味がないのかな😳

  • (3)  は直前の文字が0個以上あることを表す。直前の文字の繰り返し! ca  tでcaaaaatになる。数はどうやって指定するのかな?

  • (4)すも* →すもも すモモ

  • (5). の意味と理屈→.は任意の文字を表していて、は任意の文字の繰り返し!

-(6)「 a.*@gmail.com」 にマッチする文字列を3つ書いてください。→aaaa@gmail.com abbb@gmail.com arrrrr@gmail.com

-(7)正規表現「^」→行頭を表す。

-(8)正規表現 「$」→行末を表す。

-(9) grep正規表現を使って、「ドラミちゃん」とのみ書かれた行とその前後5行をtest.txtから抽出するコマンドを書いてください。 ヒント:「ドラミちゃん」とのみ書かれた行→「行頭ドラミちゃん行末」 前後5行はC →grep ドラミちゃん test.txt →grep -A5 -B5 ドラミちゃん test.txt

(10) まずnanoでbから始まるアドレスとbから始まらないアドレスを作り、address.txtに保存させる。 grep ^b address.txt でb から始まるメールアドレスを抽出させる。 、、、一つの文章にまとめると、grep ^b address.txt >> gmail.txt でcat gmail.txtでbから始まるgmailが入ってたら成功!👍

(11) 正規表現|は複数の連続する文字のいずれかの文字列が存在した時に、正規表現に合致したことになる。 正規表現[abc]は例文の中でaを使った文字列とbを使った文字列とcを使った文字列のみが合致する。 b2tanuki@gmail.com とか