編集履歴

質問編集履歴

誤字

2016/05/26 03:57

投稿

abc_z

スコア34

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -11,585 +11,3 @@
 そこで接続詞が来たら、その前の文を見て要約文として抽出されていたら接続詞を取り除かないという処理をしたいです。
 どうかご教授お願いします。
-``#!/usr/bin/perl
-use strict;
-use warnings;
-use Encode qw(decode);
-#変数宣言
-my $mecab_file = $ARGV[0].".mecab";
-my $df_file = $ARGV[0].".df";
-my @line = ();#mecabの行
-my $i = 0;
-my @mecab_data = ();#mecabのデータ
-my @mecab_char = ();#文字
-my @mecab_prot = ();#原型
-my @mecab_hinshi = ();#品詞
-my @df_line = ();#dfの行
-my @df_data = ();
-my @df_char = ();#文字
-my @df_hinshi = ();#品詞
-my @df_tf = ();#tf
-my @df_df = ();#df
-my $a = 0;
-my $b = 0;
-my $j = 0;
-my $k = 0;
-my @tf_idf = ();
-my $N = 34644;
-my $alllength = 0;
-my @length = ();
-my @sentence = ();
-my @sum = ();
-my $max = 0;
-my $number = 0;
-my $count = 0;
-my @all_sentence = ();
-my $percent = $ARGV[1]/100;
-if($ARGV[1]>100){
-    die "要約率を100以下にしてください\n";
-}
-elsif($ARGV[1]<0){
-    die "要約率を0以上にしてください\n";
-}
-open(FP,$mecab_file) || die "can't open $mecab_file\n"; #ファイルをファイルハンドルであるFPへ読み込む
-@line = <FP>; #読み込んだファイルを配列lineにセット
-for($i=0; $i<=$#line; $i++) { #$#lineは配列の最後を表す
-    chomp(@line); #改行コード削除
-    if($line[$i] ne "EOS") {#lineがEOSじゃなかったら
-	@mecab_data = split(/\t/,$line[$i]); #mecabのデータをsplitでタグの部分で文字・原型・品詞に分割し@mecab_dataに順番に格納していく
-	$mecab_char[$i] = $mecab_data[0]; #さっき格納された文字、原型、品詞をそれぞれの配列に移していく。
-	$mecab_prot[$i] = $mecab_data[1];
-	$mecab_hinshi[$i] = $mecab_data[2];
-    }
-	else { #それ以外の時は空の配列になってしまうのでちゃんと埋める
-	    $mecab_char[$i] = "EOS";
-	    $mecab_prot[$i] = 0;
-	    $mecab_hinshi[$i] = 0;
-	}
-}
-close(FP);
-open(DF,$df_file) || die "can't open $df_file\n";#ファイルをファイルハンドルであるDFへ読み込む
-@df_line = <DF>;#読み込んだファイルを配列df_lineにセット
-for($i=0; $i<=$#df_line; $i++) {#df_lineは配列の最後を示す。配列の最後までループ
- chomp(@df_line);#改行コードの削除
-   	@df_data = split(/\t/,$df_line[$i]);#splitで分割しdf_dataへ入れていく
-	$df_char[$i] = $df_data[0];
-	$df_hinshi[$i] = $df_data[1];
-	$df_tf[$i] = $df_data[2];
-	$df_df[$i] = $df_data[3];
-}
-close(DF);
-for($i = 0, $a = 0, $b = 0; $i<=$#mecab_char; $i++)  {
-if($mecab_char[$i] ne "EOS") { #EOSでないときmecabとdfの単語を比較する
-  if($mecab_hinshi[$i]=~"^名詞" || $mecab_hinshi[$i]=~"^動詞" || $mecab_hinshi[$i]=~"^形容詞" || $mecab_hinshi[$i]=~"^形容動詞") {
-               #名詞、動詞、形容詞、形容動詞の時に次の処理へ移行
-		for($j=0; $j <= $#df_char; $j++) {#単語と品詞の比較
-		    if($mecab_prot[$i] eq $df_char[$j] && $mecab_hinshi[$i] eq $df_hinshi[$j]){
-			$tf_idf[$k] = $df_tf[$j]*(log($N/($df_df[$j]+1))+1);#単語の重要度を計算
-			if($mecab_hinshi[$i] =~ "固有名詞"){
-$tf_idf[$k] = 2*$tf_idf[$k];#2倍にしたのはなぜか？なんで2倍にしようと考えたのか。
-		        #固有名詞の重要度を2倍にすることで要約の正確さを高める
-		}
-			$k++;#次へ行くためにkをインクリメント
-		    }
-		}
-	    }
-#接続詞を取り除くときに、前の文が選ばれているなら接続詞を取り除かない#選ばれているかどうかの判定が必要
-	    if($ARGV[1] != 100){
-		if($mecab_char[$i] eq "（"){#()の部分を取り除く
-		    for(; $mecab_char[$i-1] ne "）"; $i++){
-			#;で初期値を与えている。
-$alllength+=length(decode('utf-8',$mecab_char[$i-1]));
-			#decodeでutf-8を使いperlに対して文字列として認識させ、length関数に渡して文字数を返してもらう
-			#除いた分を全体の文字数にカウント
-		    }
-		}
-		if($mecab_hinshi[$i]=~"^接続詞"){#接続詞だった場合それを取り除いてalllengthへ入れていく
-		    $alllength+=length(decode('utf-8',$mecab_char[$i]));
- #decodeでutf-8を使いperlに対して文字列と認識させた #除いた分を全体の文字の長さにカウント
-		    $i++;#インクリメント
-		    if($mecab_hinshi[$i]=~"^記号"){#記号を取り除く #除いた分を全体の文字数にカウント
-			$alllength+=length(decode('utf-8',$mecab_char[$i]));
-			#decodeによりperlに対して文字列と認識させた #除いた分を全体の文字数にカウント
-$i++;#インクリメント
-		    }
-		}
-	    }
-		$length[$b]+=length(decode('utf-8',$mecab_char[$i]));
-		#文の文字数を入れる
-		if(defined($sentence[$b])){ #definedで定義しているかを確認
-$sentence[$b]=$sentence[$b].$mecab_char[$i];#連結
-	}
- else {#未定義のとき最初の単語を入れる
-$sentence[$b]=$mecab_char[$i];
-}
-	}
-	else {#EOSになったら文自体の重要度計算を行う
- for($j = 0; $j < $k; $j++) { #kまでループする
-		$sum[$a]+=$tf_idf[$j];#計算した重要度を随時足していく
-	    }
-	    $alllength+=$length[$b];#文字数を足す
-        $k=0;
-	    $a++;
-	    $b++;
-	}
-}
-for(; $count<=$percent * $alllength; $max = 0) {#パーセントとすべての文字数をかけ算して指定した文字に最大限近くなるまでループ
-    for($i = 0; $i <= $#sum; $i++){
-	if($sum[$i]>$max){
-	    $max=$sum[$i];#重要度が高かった場合上書きする
- $number=$i;
-	}
-    }
-    $sum[$number]=0; #一度一番高い重要度を0にする
-    $all_sentence[$number]=$sentence[$number];
- #重要度の高い文を配列に入れる
- $count+=$length[$number]; #文の文字数を加える
-}
-if($count > $percent * $alllength){#指定した文字数を越えてしまったら
-    undef($all_sentence[$number]);#undefを使って未定義にする
-    $count-=$length[$number];#countからlengthを引いたものをcountへ代入
- #余計な文字数を引く
-}
-for($i = 0, $j = 1; $i <= $#sum; $i++){
-  if(defined($all_sentence[$i])){#definedで未定義部分を判別#真であれば
-printf("%s\n", $all_sentence[$i]);#printfで出力する
- }
-    }
-printf("%s文字\n", $count);#要約した文字数を出力
-コード
-```

コードを見やすくしました

2016/05/26 03:57

投稿

abc_z

スコア34

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -28,6 +28,8 @@
 my $mecab_file = $ARGV[0].".mecab";
 my $df_file = $ARGV[0].".df";
@@ -36,16 +38,26 @@
 my @line = ();#mecabの行
 my $i = 0;
 my @mecab_data = ();#mecabのデータ
 my @mecab_char = ();#文字
 my @mecab_prot = ();#原型
 my @mecab_hinshi = ();#品詞
@@ -54,48 +66,76 @@
 my @df_line = ();#dfの行
 my @df_data = ();
 my @df_char = ();#文字
 my @df_hinshi = ();#品詞
 my @df_tf = ();#tf
 my @df_df = ();#df
 my $a = 0;
 my $b = 0;
 my $j = 0;
 my $k = 0;
 my @tf_idf = ();
 my $N = 34644;
 my $alllength = 0;
 my @length = ();
 my @sentence = ();
 my @sum = ();
 my $max = 0;
 my $number = 0;
 my $count = 0;
@@ -116,30 +156,48 @@
     die "要約率を100以下にしてください\n";
-}
+}
 elsif($ARGV[1]<0){
     die "要約率を0以上にしてください\n";
-}
+}
 open(FP,$mecab_file) || die "can't open $mecab_file\n"; #ファイルをファイルハンドルであるFPへ読み込む
 @line = <FP>; #読み込んだファイルを配列lineにセット
 for($i=0; $i<=$#line; $i++) { #$#lineは配列の最後を表す
     chomp(@line); #改行コード削除
     if($line[$i] ne "EOS") {#lineがEOSじゃなかったら
 	@mecab_data = split(/\t/,$line[$i]); #mecabのデータをsplitでタグの部分で文字・原型・品詞に分割し@mecab_dataに順番に格納していく
@@ -148,8 +206,12 @@
 	$mecab_char[$i] = $mecab_data[0]; #さっき格納された文字、原型、品詞をそれぞれの配列に移していく。
 	$mecab_prot[$i] = $mecab_data[1];
 	$mecab_hinshi[$i] = $mecab_data[2];
@@ -160,10 +222,16 @@
 	else { #それ以外の時は空の配列になってしまうのでちゃんと埋める
 	    $mecab_char[$i] = "EOS";
 	    $mecab_prot[$i] = 0;
 	    $mecab_hinshi[$i] = 0;
@@ -178,13 +246,17 @@
 open(DF,$df_file) || die "can't open $df_file\n";#ファイルをファイルハンドルであるDFへ読み込む
 @df_line = <DF>;#読み込んだファイルを配列df_lineにセット
 for($i=0; $i<=$#df_line; $i++) {#df_lineは配列の最後を示す。配列の最後までループ
-    chomp(@df_line);#改行コードの削除
+ chomp(@df_line);#改行コードの削除
@@ -196,12 +268,20 @@
 	$df_char[$i] = $df_data[0];
 	$df_hinshi[$i] = $df_data[1];
 	$df_tf[$i] = $df_data[2];
 	$df_df[$i] = $df_data[3];
@@ -216,14 +296,22 @@
 for($i = 0, $a = 0, $b = 0; $i<=$#mecab_char; $i++)  {
-	if($mecab_char[$i] ne "EOS") { #EOSでないときmecabとdfの単語を比較する
+if($mecab_char[$i] ne "EOS") { #EOSでないときmecabとdfの単語を比較する
-	    if($mecab_hinshi[$i]=~"^名詞" || $mecab_hinshi[$i]=~"^動詞" || $mecab_hinshi[$i]=~"^形容詞" || $mecab_hinshi[$i]=~"^形容動詞") {
+  if($mecab_hinshi[$i]=~"^名詞" || $mecab_hinshi[$i]=~"^動詞" || $mecab_hinshi[$i]=~"^形容詞" || $mecab_hinshi[$i]=~"^形容動詞") {
                #名詞、動詞、形容詞、形容動詞の時に次の処理へ移行
 		for($j=0; $j <= $#df_char; $j++) {#単語と品詞の比較
 		    if($mecab_prot[$i] eq $df_char[$j] && $mecab_hinshi[$i] eq $df_hinshi[$j]){
@@ -236,7 +324,9 @@
 			if($mecab_hinshi[$i] =~ "固有名詞"){
-			$tf_idf[$k] = 2*$tf_idf[$k];#2倍にしたのはなぜか？なんで2倍にしようと考えたのか。
+$tf_idf[$k] = 2*$tf_idf[$k];#2倍にしたのはなぜか？なんで2倍にしようと考えたのか。
 		        #固有名詞の重要度を2倍にすることで要約の正確さを高める
@@ -270,7 +360,9 @@
 			#;で初期値を与えている。
-			$alllength+=length(decode('utf-8',$mecab_char[$i-1]));
+$alllength+=length(decode('utf-8',$mecab_char[$i-1]));
 			#decodeでutf-8を使いperlに対して文字列として認識させ、length関数に渡して文字数を返してもらう
@@ -290,7 +382,9 @@
 		    $alllength+=length(decode('utf-8',$mecab_char[$i]));
-		    #decodeでutf-8を使いperlに対して文字列と認識させた #除いた分を全体の文字の長さにカウント
+ #decodeでutf-8を使いperlに対して文字列と認識させた #除いた分を全体の文字の長さにカウント
 		    $i++;#インクリメント
@@ -302,9 +396,13 @@
 			$alllength+=length(decode('utf-8',$mecab_char[$i]));
 			#decodeによりperlに対して文字列と認識させた #除いた分を全体の文字数にカウント
-			$i++;#インクリメント
+$i++;#インクリメント
@@ -330,122 +428,158 @@
 		if(defined($sentence[$b])){ #definedで定義しているかを確認
-	    $sentence[$b]=$sentence[$b].$mecab_char[$i];#連結
+$sentence[$b]=$sentence[$b].$mecab_char[$i];#連結
 	}
-	    else {#未定義のとき最初の単語を入れる
+ else {#未定義のとき最初の単語を入れる
-		$sentence[$b]=$mecab_char[$i];
+$sentence[$b]=$mecab_char[$i];
+}
 	}
+	else {#EOSになったら文自体の重要度計算を行う
+ for($j = 0; $j < $k; $j++) { #kまでループする
+		$sum[$a]+=$tf_idf[$j];#計算した重要度を随時足していく
+	    }
+	    $alllength+=$length[$b];#文字数を足す
+        $k=0;
+	    $a++;
+	    $b++;
 	}
+}
+for(; $count<=$percent * $alllength; $max = 0) {#パーセントとすべての文字数をかけ算して指定した文字に最大限近くなるまでループ
+    for($i = 0; $i <= $#sum; $i++){
-	else {#EOSになったら文自体の重要度計算を行う
-	    for($j = 0; $j < $k; $j++) { #kまでループする
+	if($sum[$i]>$max){
-		$sum[$a]+=$tf_idf[$j];#計算した重要度を随時足していく
+	    $max=$sum[$i];#重要度が高かった場合上書きする
-	    }
+ $number=$i;
-	    $alllength+=$length[$b];#文字数を足す
-	    $k=0;
-	    $a++;
-	    $b++;
 	}
-}
+    }
+    $sum[$number]=0; #一度一番高い重要度を0にする
+    $all_sentence[$number]=$sentence[$number];
+ #重要度の高い文を配列に入れる
+ $count+=$length[$number]; #文の文字数を加える
+}
-for(; $count<=$percent * $alllength; $max = 0) {#パーセントとすべての文字数をかけ算して指定した文字に最大限近くなるまでループ
+if($count > $percent * $alllength){#指定した文字数を越えてしまったら
+    undef($all_sentence[$number]);#undefを使って未定義にする
+    $count-=$length[$number];#countからlengthを引いたものをcountへ代入
+ #余計な文字数を引く
+}
-    for($i = 0; $i <= $#sum; $i++){
+for($i = 0, $j = 1; $i <= $#sum; $i++){
+  if(defined($all_sentence[$i])){#definedで未定義部分を判別#真であれば
-	if($sum[$i]>$max){
-	    $max=$sum[$i];#重要度が高かった場合上書きする
+printf("%s\n", $all_sentence[$i]);#printfで出力する
-	    $number=$i;
-	}
+ }
     }
-    $sum[$number]=0; #一度一番高い重要度を0にする
-    $all_sentence[$number]=$sentence[$number]; #重要度の高い文を配列に入れる
-    $count+=$length[$number]; #文の文字数を加える
-}
-if($count > $percent * $alllength){#指定した文字数を越えてしまったら
-    undef($all_sentence[$number]);#undefを使って未定義にする
-    $count-=$length[$number];#countからlengthを引いたものをcountへ代入
-    #余計な文字数を引く
-}
-for($i = 0, $j = 1; $i <= $#sum; $i++){
-  if(defined($all_sentence[$i])){#definedで未定義部分を判別#真であれば
-	printf("%s\n", $all_sentence[$i]);#printfで出力する
-	      }
-    }