多重ループを組まない２ファイルの部分一致を集計

質問の内容
ファイル２の文字列がファイル１の２列目の文字列と部分一致している場合、数をカウントし出力する方法について質問です。

resultの３個目の３個目の値は値は1つ目、2つ目の文字列が入っているのをが入っているのを除外したいので除外したいので求めたい求めたい値は値は4です。

result

fail1
1111 AAA_BBB_CCC_DDD_1
2222 AAA_BBB_CCC_DDD_2
3333 AAA_BBB_CCC_DDD_3
4444 AAA_BBB_DDD_EEE_1
5555 AAA_BBB_DDD_EEE_2
6666 AAA_BBB_1
7777 AAA_BBB_2
8888 AAA_BBB_3
9999 AAA_BBB_4

fail2
1AAA_BBB_CCC_DDD
2AAA_BBB_DDD_EEE
3AAA_BBB

result
1AAA_BBB_CCC_DDD 3
2AAA_BBB_DDD_EEE 2
3AAA_BBB 4

perl
1$INF1=$ARGV[0];
2open(INF1,"< $INF1");
3
4while(<INF1>){
5        chomp;
6        @a=split;
7        $i = $a[1];
8        $keyword{$i}++;
9}
10
11$INF2=$ARGV[1];
12open(INF2,"< $INF2");
13
14while(<INF2>){
15        chomp;
16        @b=split;
17        $j = $b[0];
18        if ($i =~ $j) {
19                $keyword{$j}++;
20        }
21        printf ("%s ",$j);
22        printf ("%s\n",$keyword{$j});
23}
24

試したこと
多重ループを組み、正規表現で部分一致させながら集計したが、ファイルの量が膨大なため多重ループを組まない方法を模索中
ループが終了後の変数の保持がうまない

melian

2022/07/06 09:20

AAA_BBB 4 となっていますが、9 ではないでしょうか？

scrap_shop

2022/07/06 11:44

他の2つの文字列を除いて数えたいので4であっています。条件分岐していけばいいだけですが

行動規範の内容に同意します

回答2件

いろいろ突っ込みたいところがありますが、とりあえず気にしないことにして、深刻に変だと思ったところを挙げます。

なぜ2番めのループで@aを参照してる？ この@aには何が入ってる？

投稿2022/07/06 11:08

KojiDoi

総合スコア13671

scrap_shop

2022/07/06 23:22

$j = $b[0];に修正しました。

行動規範の内容に同意します

ベストアンサー

※ 以下、while と for の多重ループです。前提条件に適合していませんので参考までに。。。

perl
1use strict;
2use warnings;
3use feature 'say';
4
5my $text = shift @ARGV or die "missing text file";
6my $search = shift @ARGV or die "missing search words file";
7
8open my $SEARCH, '<', $search or die "$!";
9my @w = <$SEARCH>;
10chomp @w;
11@w = sort { length $b <=> length $a } @w;
12
13open my $TEXT, '<', $text or die "$!";
14my %count;
15$count{$_} = 0 for @w;
16
17while(my $line = <$TEXT>) {
18  $line = (split(/ /, $line))[1];
19  $line =~ /$_/ and $count{$_} += 1 and last for @w;
20
21}
22
23say "$_ $count{$_}" for @w;