Transliteration Scripts

2024-09-19 07:07:24 +03:00 · 2013-12-02 14:49:21 +00:00 · 2013-12-02 14:49:21 +00:00 · c527f0db8d
commit c527f0db8d
parent 1caadce208
5 changed files with 907 additions and 0 deletions
--- a/scripts/Transliteration/clean.pl
+++ b/scripts/Transliteration/clean.pl
@ -0,0 +1,316 @@
 #!/usr/bin/perl
 #input hindi word urdu word, delete all those entries that have number on any side
 use utf8;
 use Getopt::Std;
 use IO::Handle;
 binmode(STDIN,  ':utf8');
 binmode(STDOUT, ':utf8');
 binmode(STDERR, ':utf8');
 use open qw(:std :utf8);
 $srcHash = ();
 $trgHash = ();
 $file = $ARGV[0];
@f0 = split(/\//, $file); # if file name has a path
@f1 = split(/\./, $f0[$#f0]); # last element would be the file name
@f2 = split(/\-/, $f1[1]);
 $srcMark = $f2[0];
 $trgMark = $f2[1];
 $lang = 0;
 $lang1 = 1;
 $lang2 = 1;
 if ($srcMark eq "en" || $srcMark eq "de"  || $srcMark eq "es"  ||  $srcMark eq "fr"  ||  $srcMark eq "it"  ||  $srcMark eq "nl"  ||  $srcMark eq "pt-br"  ||  $srcMark eq "ro"  ||  $srcMark eq "sl"  ||  $srcMark eq "tr" )
 {
 	print STDERR "Source is Latin\n";
 	$lang1 = 0;
 	$lang = $lang + 1;
 }
 if  ( "$trgMark" eq "en" || "$trgMark" eq "de" || "$trgMark" eq "es" || "$trgMark" eq "fr" || "$trgMark" eq "it" || "$trgMark" eq "nl" || "$trgMark" eq "pt-br" || "$trgMark" eq "ro" || "$trgMark" eq "sl" || "$trgMark" eq "tr" )
 {
 	print STDERR "Target is Latin\n";
 	$lang2 = 0;
 	$lang = $lang + 1;
 }
 if ("$lang" == 2)
 {
 	print STDERR "No Transliteration Module Possible\n";
 }
 else
 {	print STDERR "will run Transliteration module\n";
 	print STDERR "Three preprocessing steps to do:\n 1) Delete Symbol \t 2) Delete Latin from non-Latin langauge \t 3) Character Frequency based filtering\n";
 	print STDERR "STARTING 1 and 2 ...\n";
 	open ($IN, $ARGV[0]);
 	while(<$IN>)
 	{
 		chomp;
 		$retur = deleteSymbol($_);
 		if($retur == 1)
 		{
 			#print "$_\n"; 
 			$retur = deleteEnglish($lang1, $lang2, $_);
 			if ($retur == 1)
 			{
 				#print "$_\n";
 				push (@inputArr, $_);
 				charFreqFilterPreprocess($_);
 			}
 		}
 	}
 	close ($IN);
 }
 print STDERR "DONE 1 and 2\nSTARTING 3) Preprocessing for Character filtering...\n";
 charFreqFilterPreprocess2();
 print STDERR "DONE 3\n";
 foreach (@inputArr)
 {
 	charFreqFilter($_);
 }
 ###############################Delete English##################################
 sub deleteEnglish{
 	@list = @_;
 	$backEng = 0;
 	if($list[0] == 1 && $list[1] == 1)
 	{
 #		print "Both are Non-Latin\n";
 		if (m/[A-Za-z]/) {}
 		else {$backEng = 1; return $backEng;}
 	}
 	elsif($list[0] == 0 && $list[1] == 1)
 	{	
 #		print "Target is Non-Latin\n";
 		@F=split("\t");
 		if ($F[1] =~ m/[A-Za-z]/) {}
 		else {$backEng = 1; return $backEng;}
 	}
 	elsif($list[0] == 1 && $list[1] == 0)
 	{
 #		print "Source is Non-Latin\n";
 		@F=split("\t");
 		if ($F[0] =~ m/[A-Za-z]/) {}
 		else {$backEng = 1; return $backEng;}
 	}
 }
 ###############################Delete Symbol##################################
 sub deleteSymbol{
 	$back = 0;
 	if (/\d+/) {}
 	elsif(/\?/) {}
 	elsif(/\!/) {}
 	elsif(/@/) {}
 	elsif(/\./) {}
 	elsif(/\#/) {}
 	elsif(/\%/) {}
 	elsif(/\$/) {}
 	elsif(/-/) {}
 	elsif(/"/) {}
 	elsif(/\(/) {}
 	elsif(/\)/) {}
 	elsif(/\&/) {}
 	elsif(/\;/) {}
 	elsif(/\\/) {}
 	elsif(/\*/) {}
 	elsif(/\+/) {}
 	elsif(/\,/) {}
 	elsif(/\</){}
 	elsif(/\>/){}
 	else 
 	{
 		@wrds = split(/\t/);
 		if($wrds[0] eq $wrds[1])
 		{}
 		elsif(length $wrds[0] < 3 )
 		{}
 		elsif(length $wrds[1] < 3)
 		{}
 		else
 		{
 			$back = 1;
 			return $back;
 #			print "$_\n";
 		}
 	}
 }
 #################################Char Frequency Filter Preprocess########################
 sub charFreqFilterPreprocess{
 	@wrds = split(/\t/);
 	$srcWrd = lc $wrds[0];
 	$trgWrd = lc $wrds[1];
 	if($srcWrd eq $trgWrd)
 	{}
 	else
 	{
 		@src = split('',$srcWrd);
 		foreach (@src)
 		{
 			if(exists $srcHash{$_})
 			{
 				$srcHash{$_}++;
 			}
 			else
 			{
 				$srcHash{$_} = 0;
 			}
 		}
 		@trg = split('',$trgWrd);
 		foreach (@trg)
 		{
 			if(exists $trgHash{$_})
 			{
 				$trgHash{$_}++;
 			}
 			else
 			{
 				$trgHash{$_} = 0;
 			}
 		}
 	}
 }
 ##############################Preprocess Two#############################
 sub charFreqFilterPreprocess2{
 ###################srchash###################################
@keys = sort { $srcHash{$b} <=> $srcHash{$a} } keys %srcHash;
 $bestsrcfreq = $srcHash{$keys[0]};
 $srcOnePer = $bestsrcfreq * 0.005;
 $take = 0; # take top 30 character from hash
 foreach (@keys)
 	{
 #		print "$srcHash{$_}\t$_\n";
 		if($take < 30)
 		{
 			$srcChar{$_} = 1;
 #			print "$srcHash{$_}\t$_\n";
 		}
 		else
 		{ ################# take worst characters that are not 1% of the best character################
 			if($srcHash{$_} < $srcOnePer || $take > 50)
 			{
 				$srcBadChar{$_} = 1;
 			}
 		}
 #		print "$_\t$srcHash{$_}\n";
 		$take++;
 	}
 ################### target hash ###################################
@keys = sort { $trgHash{$b} <=> $trgHash{$a} } keys %trgHash;
 $besttrgfreq = $trgHash{$keys[0]};
 $trgOnePer = $besttrgfreq * 0.005;
 #print "$besttrgfreq\t$trgOnePer\n";
 $take = 0; # take top 30 character from hash
 foreach (@keys)
 	{
 		if($take < 30)
 		{
 			$trgChar{$_} = 1;
 		}
 		else
 		{ ################# take worst characters that are not 1% of the best character################
 			if($trgHash{$_} < $trgOnePer || $take > 50 )
 			{
 				$trgBadChar{$_} = 1;
 			}
 		}
 #		print "$_\t$trgHash{$_}\n";
 		$take++;
 	}
 }
 ###############################CharFreqFiltering###################################
 sub charFreqFilter{
 	@in = @_;
 	@wrds = split(/\t/, $in[0]);
 	$srcWrd = lc $wrds[0];
 	$trgWrd = lc $wrds[1];
 	@srcWrdArr = split("",$srcWrd);
 	@trgWrdArr = split("",$trgWrd);
 	$check = 0;
 	$remove = 0;
 ########################## search if word contain any of the bad characters ####################################
 	foreach (@srcWrdArr)
 	{
 #		print "$srcWrd\n";
 		if (exists $srcBadChar{$_}) # if this character is in the list of worst characters
 		{
 			$remove = 1;
 #			print "#######EXIT src: \t$srcWrd##########\n";
 			last;
 		}
 	}
 	if($remove == 1)
 	{}
 	else
 	{	foreach (@trgWrdArr)
 		{
 			if (exists $trgBadChar{$_}) # if this character is in the list of worst characters
 			{
 				$remove = 1;
 			#	print "EXIT target: \t$trgWrd\n";
 				last;
 			}
 		}
 	}
 ########################## search if word contain any of the good characters ####################################
   if($remove == 1)
   {}
   else
   {
 	foreach (@srcWrdArr)
 	{
 		if(exists ($srcChar{$_}))
 		{
 			$check = 1;
 			last;
 		}
 	}
 	if($check == 1)
 	{
 		foreach (@trgWrdArr)
 		{
 			if(exists ($trgChar{$_}))
 			{
 #				print "$wrds[0]\t$wrds[1]\n";
 				$printSrc = join (" ", split("",$wrds[0]));
 				$printTrg = join (" ", split("",$wrds[1]));
 				print "$printSrc\n$printTrg\n";
 				last;
 			}
 		}
 	}
  }
 }
--- a/scripts/Transliteration/corpusCreator.pl
+++ b/scripts/Transliteration/corpusCreator.pl
@ -0,0 +1,86 @@
 #!/usr/bin/perl -w
 use strict;
 use utf8;
 use Getopt::Std;
 use IO::Handle;
 binmode(STDIN,  ':utf8');
 binmode(STDOUT, ':utf8');
 binmode(STDERR, ':utf8');
 my @source;
 my @target;
 my @words;
 my $tPath = $ARGV[0];
 my $tFile = $ARGV[1];
 my $inp_ext = $ARGV[2];
 my $op_ext = $ARGV[3];
 my $src;
 my $tgt;
 my $t;
 my $s;
 `mkdir $tPath/training`;
 `mkdir $tPath/tuning`;
 open FH,  "<:encoding(UTF-8)", "$tPath/$tFile" or die "Can't open $tPath/$tFile: $!\n";
 open MYSFILE,  ">:encoding(UTF-8)", "$tPath/training/corpus.$inp_ext" or die "Can't open $tPath/training/corpus.$inp_ext: $!\n";
 open MYTFILE,  ">:encoding(UTF-8)", "$tPath/training/corpus.$op_ext" or die "Can't open $tPath/training/corpus.$op_ext: $!\n";
 while (<FH>) 
 {
    chomp;    
    my ($src,$tgt) = split(/\t/);
    $s = join(' ', split('',$src)); 
    $t = join(' ', split('',$tgt)); 
    print MYSFILE "$s\n";
    print MYTFILE "$t\n";	  
    push(@source, $s);
    push(@target, $t);
 }
 close (FH);
 close (MYSFILE);
 close (MYTFILE);
 open MYSFILE,  ">:encoding(UTF-8)", "$tPath/training/corpusA.$inp_ext" or die "Can't open $tPath/training/corpusA.$inp_ext: $!\n";
 open MYTFILE,  ">:encoding(UTF-8)", "$tPath/training/corpusA.$op_ext" or die "Can't open $tPath/training/corpusA.$op_ext: $!\n";
 open MYSDEVFILE,  ">:encoding(UTF-8)", "$tPath/tuning/input" or die "Can't open $tPath/tuning/input: $!\n";
 open MYTDEVFILE,  ">:encoding(UTF-8)", "$tPath/tuning/reference" or die "Can't open $tPath/tuning/reference: $!\n";
 my $corpus_size = @source;
 my $count = 11;
 my $dev_size = 0;
   foreach (@source)
   {
         if ($count % 5 == 0 && $dev_size < 1000)
 	  {
 		print MYSDEVFILE "$source[$count-11]\n";
 		print MYTDEVFILE "$target[$count-11]\n";
 		$dev_size++;
 	  }
 	  else
 	  {
 		print MYSFILE "$source[$count-11]\n";
 		print MYTFILE "$target[$count-11]\n";
 	  }
 	$count++;
   }
 close (MYSFILE);
 close (MYTFILE);
 close (MYSDEVFILE);
 close (MYTDEVFILE);
 if ($corpus_size < 6000)
 {
 	`rm $tPath/training/corpusA.$inp_ext`;
 	`rm $tPath/training/corpusA.$op_ext`;
 }
--- a/scripts/Transliteration/prepare-transliteration-phrase-table.pl
+++ b/scripts/Transliteration/prepare-transliteration-phrase-table.pl
@ -0,0 +1,169 @@
 #!/usr/bin/perl -w
 use strict;
 use utf8;
 use Getopt::Long "GetOptions";
 use FindBin qw($RealBin);
 use IO::Handle;
 use File::Basename;
 binmode(STDIN,  ':utf8');
 binmode(STDOUT, ':utf8');
 binmode(STDERR, ':utf8');
 my $OUT_DIR = "/tmp/Transliteration-Phrase-Table.$$";
 my ($MOSES_SRC_DIR,$TRANSLIT_MODEL,$OOV_FILE,$EXTERNAL_BIN_DIR, $INPUT_EXTENSION, $OUTPUT_EXTENSION);
 die("ERROR: wrong syntax when invoking train-transliteration-PT.pl")
    unless &GetOptions('moses-src-dir=s' => \$MOSES_SRC_DIR,
 			'external-bin-dir=s' => \$EXTERNAL_BIN_DIR,
 			'transliteration-model-dir=s' => \$TRANSLIT_MODEL,
 			'input-extension=s' => \$INPUT_EXTENSION,
 			'output-extension=s' => \$OUTPUT_EXTENSION,
 			'out-dir=s' => \$OUT_DIR,
 			'oov-file=s' => \$OOV_FILE);
 # check if the files are in place
 die("ERROR: you need to define --moses-src-dir --external-bin-dir, --transliteration-model-dir, --oov-file, --input-extension, --output-extension")
    unless (defined($MOSES_SRC_DIR) &&
            defined($TRANSLIT_MODEL) &&
            defined($OOV_FILE) &&
 	    defined($INPUT_EXTENSION)&&	
 	    defined($OUTPUT_EXTENSION));
 die("ERROR: could not find Transliteration Model '$TRANSLIT_MODEL'")
    unless -e $TRANSLIT_MODEL;
 die("ERROR: could not find OOV file '$OOV_FILE'")
    unless -e $OOV_FILE;
 my $UNK_FILE_NAME = basename($OOV_FILE);
 `mkdir -p $OUT_DIR/$UNK_FILE_NAME/training`;
 `cp $OOV_FILE $OUT_DIR/$UNK_FILE_NAME/$UNK_FILE_NAME`;
 my $translitFile = "$OUT_DIR/" . $UNK_FILE_NAME . "/" . $UNK_FILE_NAME . ".translit";
 print "Preparing for Transliteration\n";
 prepare_for_transliteration ($OOV_FILE , $translitFile);
 print "Run Transliteration\n";
 run_transliteration ($MOSES_SRC_DIR , $EXTERNAL_BIN_DIR , $TRANSLIT_MODEL , $translitFile);
 print "Form Transliteration Corpus\n";
 form_corpus ($translitFile , $translitFile.".op.nBest" , $OUT_DIR);
 ################### Read the UNK word file and prepare for Transliteration ###############################
 sub prepare_for_transliteration
 {
 	my @list = @_;
 	my $testFile = $list[0];
 	my $translitFile = $list[1];
 	my %UNK;
 	my @words;
 	my $src;
 	open MYFILE,  "<:encoding(UTF-8)", $testFile or die "Can't open $testFile: $!\n";
 	while (<MYFILE>) 
 	{
        chomp;
        #print "$_\n";
        @words = split(/ /, "$_");
 	  foreach (@words)
         {
         	$UNK{"$_"} = 1;
         }
 	}
 	 close (MYFILE);
 	open MYFILE,  ">:encoding(UTF-8)", $translitFile or die "Can't open $translitFile: $!\n";
 	foreach my $key ( keys %UNK )
 	{
  		$src=join(' ', split('',$key));
 		print MYFILE "$src\n";	
 	}
 	 close (MYFILE);
 }
 ################### Run Transliteration Module to Obtain Transliterations ###############################
 sub run_transliteration
 {
 	my @list = @_;
 	my $MOSES_SRC = $list[0];
 	my $EXTERNAL_BIN_DIR = $list[1];
 	my $TRANSLIT_MODEL = $list[2];
 	my $eval_file = $list[3];
 	`touch $eval_file.moses.table.ini`;
 	print "Filter Table\n";
 	`$MOSES_SRC/scripts/training/train-model.perl -mgiza -mgiza-cpus 10 -dont-zip -first-step 9 -external-bin-dir $EXTERNAL_BIN_DIR -f $INPUT_EXTENSION -e $OUTPUT_EXTENSION -alignment grow-diag-final-and -parts 5 -reordering msd-bidirectional-fe -score-options '--KneserNey' -phrase-translation-table $TRANSLIT_MODEL/model/phrase-table -reordering-table $TRANSLIT_MODEL/model/reordering-table -config $eval_file.moses.table.ini -lm 0:3:$eval_file.moses.table.ini:8`;
 	`$MOSES_SRC/scripts/training/filter-model-given-input.pl $eval_file.filtered $eval_file.moses.table.ini $eval_file  -Binarizer "$MOSES_SRC/bin/processPhraseTable"`;
 	`rm  $eval_file.moses.table.ini`;
 	print "Apply Filter\n";
 	`$MOSES_SRC/scripts/ems/support/substitute-filtered-tables-and-weights.perl $eval_file.filtered/moses.ini $TRANSLIT_MODEL/model/moses.ini $TRANSLIT_MODEL/tuning/moses.tuned.ini $eval_file.filtered.ini`;
 	`$MOSES_SRC/bin/moses -search-algorithm 1 -cube-pruning-pop-limit 5000 -s 5000 -threads 16 -drop-unknown -distortion-limit 0 -n-best-list $eval_file.op.nBest 50 -f $eval_file.filtered.ini < $eval_file > $eval_file.op`;
 }
 ################### Read the output of Transliteration Model and Form Corpus ###############################
 sub form_corpus
 {
 	my @list = @_;
 	my $inp_file = $list[0];
 	my $testFile = $list[1];
 	my $EVAL_DIR = $list[2];
 	my %vocab;
 	my @words;
 	my $thisStr;
 	my $UNK_FILE_NAME = basename($OOV_FILE);
 	my $target = $EVAL_DIR . "/$UNK_FILE_NAME/training/corpus.$OUTPUT_EXTENSION";
 	open MYFILE,  "<:encoding(UTF-8)", $testFile or die "Can't open $testFile: $!\n";
 	while (<MYFILE>) 
 	{
       	 chomp;
        	#print "$_\n";
        	@words = split(/ /, "$_");
 		my $i = 2;
 		my $prob;
 		$thisStr = "";
 		while ($words[$i] ne "|||")
 		{
 			$thisStr = $thisStr . $words[$i];
 			$i++;
 		}
 		$i++;
 		while ($words[$i] ne "|||")
 		{
 			$i++;	
 		}
 		$i++;
 		$prob = $words[$i];
 		print "$thisStr \t $prob\n";
 	}
 	close (MYFILE);
 }
--- a/scripts/Transliteration/threshold.pl
+++ b/scripts/Transliteration/threshold.pl
@ -0,0 +1,30 @@
 #!/usr/bin/perl
 use utf8;
 require Encode;
 use IO::Handle;
 $input = <STDIN>;
 #print $input;
 $filename = shift or die "Error: missing hindi urdu file argument!\n";
 open(FILE,$filename) or die "Error: unable to open file \"$filename\"!\n";
 binmode(STDIN,  ':utf8');
 binmode(STDOUT, ':utf8');
 binmode(STDERR, ':utf8');
 binmode(FILE, ':utf8');
 $c=0;
 while (<FILE>)
 {
        chomp;
        @F=split("\t");
        $hash{$F[0]."\t".$F[1]}=$F[$#F];
        $c++;
        if($F[$#F] < $input)
        {
                print "$F[0]\t$F[1]\n";
        }
 }close FILE;
--- a/scripts/Transliteration/train-transliteration-module.pl
+++ b/scripts/Transliteration/train-transliteration-module.pl
@ -0,0 +1,306 @@
 #!/usr/bin/perl -w
 use utf8;
 use strict;
 use Getopt::Long "GetOptions";
 use FindBin qw($RealBin);
 binmode(STDIN,  ':utf8');
 binmode(STDOUT, ':utf8');
 binmode(STDERR, ':utf8');
 print STDERR "Training Transliteration Module - Start\n".`date`;
 my $ORDER = 5;
 my $OUT_DIR = "/tmp/Transliteration-Model.$$";
 my $___FACTOR_DELIMITER = "|";
 my ($MOSES_SRC_DIR,$CORPUS_F,$CORPUS_E,$ALIGNMENT,$SRILM_DIR,$FACTOR,$EXTERNAL_BIN_DIR,$INPUT_EXTENSION, $OUTPUT_EXTENSION);
 # utilities
 my $ZCAT = "gzip -cd";
 my $BZCAT = "bzcat";
 die("ERROR: wrong syntax when invoking TransliterationModel.perl")
    unless &GetOptions('moses-src-dir=s' => \$MOSES_SRC_DIR,
 			'external-bin-dir=s' => \$EXTERNAL_BIN_DIR,
 			'input-extension=s' => \$INPUT_EXTENSION,
 			'output-extension=s' => \$OUTPUT_EXTENSION,
 		       'corpus-f=s' => \$CORPUS_F,
 		       'corpus-e=s' => \$CORPUS_E,
 		       'alignment=s' => \$ALIGNMENT,
 		       'order=i' => \$ORDER,
 		       'factor=s' => \$FACTOR,
 		       'srilm-dir=s' => \$SRILM_DIR,
 		       'out-dir=s' => \$OUT_DIR);
 # check if the files are in place
 die("ERROR: you need to define --corpus-e, --corpus-f, --alignment, --srilm-dir, --moses-src-dir --external-bin-dir, --input-extension and --output-extension")
    unless (defined($MOSES_SRC_DIR) &&
            defined($CORPUS_F) &&
            defined($CORPUS_E) &&
            defined($ALIGNMENT)&&
 	     defined($INPUT_EXTENSION)&&	
 	     defined($OUTPUT_EXTENSION)&&	
 	     defined($EXTERNAL_BIN_DIR)&&	
            defined($SRILM_DIR));
 die("ERROR: could not find input corpus file '$CORPUS_F'")
    unless -e $CORPUS_F;
 die("ERROR: could not find output corpus file '$CORPUS_E'")
    unless -e $CORPUS_E;
 die("ERROR: could not find algnment file '$ALIGNMENT'")
    unless -e $ALIGNMENT;
 # create factors
 `mkdir $OUT_DIR`;
 if (defined($FACTOR)) {
   my @factor_values = split(',', $FACTOR);
    foreach my $factor_val (@factor_values) {
    `mkdir $OUT_DIR/$factor_val`;
  my ($factor_f,$factor_e) = split(/\-/,$factor_val);
    $CORPUS_F =~ /^(.+)\.([^\.]+)/;
    my ($corpus_stem_f,$ext_f) = ($1,$OUT_DIR);
    $CORPUS_E =~ /^(.+)\.([^\.]+)/;
    my ($corpus_stem_e,$ext_e) = ($1,$OUT_DIR);
    &reduce_factors($CORPUS_F,"$corpus_stem_f.$factor_val.$ext_f",$factor_f);
    &reduce_factors($CORPUS_E,"$corpus_stem_e.$factor_val.$ext_e",$factor_e);
    `ln -s $corpus_stem_f.$factor_val.$ext_f $OUT_DIR/$factor_val/f`;
    `ln -s $corpus_stem_e.$factor_val.$ext_e $OUT_DIR/$factor_val/e`;
    `ln -s $ALIGNMENT $OUT_DIR/$factor_val/a`; 		
     mine_transliterations($factor_val, $INPUT_EXTENSION, $OUTPUT_EXTENSION);
  }
 }
 else {
    `ln -s $CORPUS_F $OUT_DIR/f`;
    `ln -s $CORPUS_E $OUT_DIR/e`;
    `ln -s $ALIGNMENT $OUT_DIR/a`; 	
     mine_transliterations("", $INPUT_EXTENSION, $OUTPUT_EXTENSION);	
     }
     train_transliteration_module();
     retrain_transliteration_module();
 # create model
 print "Training Transliteration Module - End ".`date`;
 sub learn_transliteration_model{
  my ($t) = @_;
   `cp $OUT_DIR/training/corpus$t.$OUTPUT_EXTENSION $OUT_DIR/lm/target`;
   print "Align Corpus\n";
  `$MOSES_SRC_DIR/scripts/training/train-model.perl -mgiza -mgiza-cpus 10 -dont-zip -last-step 1 -external-bin-dir $EXTERNAL_BIN_DIR -f $INPUT_EXTENSION -e $OUTPUT_EXTENSION -alignment grow-diag-final-and -parts 5 -reordering msd-bidirectional-fe -score-options '--KneserNey' -corpus $OUT_DIR/training/corpus$t -corpus-dir $OUT_DIR/training/prepared`;
  `$MOSES_SRC_DIR/scripts/training/train-model.perl -mgiza -mgiza-cpus 10 -dont-zip -first-step 2 -last-step 2 -external-bin-dir $EXTERNAL_BIN_DIR -f $INPUT_EXTENSION -e $OUTPUT_EXTENSION -alignment grow-diag-final-and -parts 5 -reordering msd-bidirectional-fe -score-options '--KneserNey' -corpus-dir $OUT_DIR/training/prepared -giza-e2f $OUT_DIR/training/giza -direction 2`;
  `$MOSES_SRC_DIR/scripts/training/train-model.perl -mgiza -mgiza-cpus 10 -dont-zip -first-step 2 -last-step 2 -external-bin-dir $EXTERNAL_BIN_DIR -f $INPUT_EXTENSION -e $OUTPUT_EXTENSION -alignment grow-diag-final-and -parts 5 -reordering msd-bidirectional-fe  -score-options '--KneserNey' -corpus-dir $OUT_DIR/training/prepared -giza-f2e $OUT_DIR/training/giza-inverse -direction 1`;
  `$MOSES_SRC_DIR/scripts/training/train-model.perl -mgiza -mgiza-cpus 10 -dont-zip -first-step 3 -last-step 3 -external-bin-dir $EXTERNAL_BIN_DIR -f $INPUT_EXTENSION -e $OUTPUT_EXTENSION -alignment grow-diag-final-and -parts 5 -reordering msd-bidirectional-fe  -score-options '--KneserNey' -giza-e2f $OUT_DIR/training/giza -giza-f2e $OUT_DIR/training/giza-inverse -alignment-file $OUT_DIR/model/aligned -alignment-stem $OUT_DIR/model/aligned -alignment grow-diag-final-and`;
  print "Train Translation Models\n";
 `$MOSES_SRC_DIR/scripts/training/train-model.perl -mgiza -mgiza-cpus 10 -dont-zip -first-step 4 -last-step 4 -external-bin-dir $EXTERNAL_BIN_DIR -f $INPUT_EXTENSION -e $OUTPUT_EXTENSION -alignment grow-diag-final-and -parts 5 -reordering msd-bidirectional-fe -score-options '--KneserNey' -lexical-file $OUT_DIR/model/lex -alignment-file $OUT_DIR/model/aligned -alignment-stem $OUT_DIR/model/aligned -corpus $OUT_DIR/training/corpus$t`;
  `$MOSES_SRC_DIR/scripts/training/train-model.perl -mgiza -mgiza-cpus 10 -dont-zip -first-step 5 -last-step 5 -external-bin-dir $EXTERNAL_BIN_DIR -f $INPUT_EXTENSION -e $OUTPUT_EXTENSION -alignment grow-diag-final-and -parts 5 -reordering msd-bidirectional-fe -score-options '--KneserNey' -alignment-file $OUT_DIR/model/aligned -alignment-stem $OUT_DIR/model/aligned -extract-file $OUT_DIR/model/extract -corpus $OUT_DIR/training/corpus$t`;
  `$MOSES_SRC_DIR/scripts/training/train-model.perl -mgiza -mgiza-cpus 10 -dont-zip -first-step 6 -last-step 6 -external-bin-dir $EXTERNAL_BIN_DIR -f $INPUT_EXTENSION -e $OUTPUT_EXTENSION -alignment grow-diag-final-and -parts 5 -reordering msd-bidirectional-fe -score-options '--KneserNey' -extract-file $OUT_DIR/model/extract -lexical-file $OUT_DIR/model/lex -phrase-translation-table $OUT_DIR/model/phrase-table`;
  `$MOSES_SRC_DIR/scripts/training/train-model.perl -mgiza -mgiza-cpus 10 -dont-zip -first-step 7 -last-step 7 -external-bin-dir $EXTERNAL_BIN_DIR -f $INPUT_EXTENSION -e $OUTPUT_EXTENSION -alignment grow-diag-final-and -parts 5 -reordering msd-bidirectional-fe -score-options '--KneserNey' -extract-file $OUT_DIR/model/extract -reordering-table $OUT_DIR/model/reordering-table`;
  print "Train Language Models\n";
  `$SRILM_DIR/ngram-count -order 5 -interpolate -kndiscount -addsmooth1 0.0 -unk -text $OUT_DIR/lm/target -lm $OUT_DIR/lm/targetLM`;
  `$MOSES_SRC_DIR/bin/build_binary $OUT_DIR/lm/targetLM $OUT_DIR/lm/targetLM.bin`;
  print "Create Config File\n";	
  `$MOSES_SRC_DIR/scripts/training/train-model.perl -mgiza -mgiza-cpus 10 -dont-zip -first-step 9 -external-bin-dir $EXTERNAL_BIN_DIR -f $INPUT_EXTENSION -e $OUTPUT_EXTENSION -alignment grow-diag-final-and -parts 5 -reordering msd-bidirectional-fe -score-options '--KneserNey' -phrase-translation-table $OUT_DIR/model/phrase-table -reordering-table $OUT_DIR/model/reordering-table -config $OUT_DIR/model/moses.ini -lm 0:5:$OUT_DIR/lm/targetLM.bin:8`;
 }
 sub retrain_transliteration_module{
   if (-e "$OUT_DIR/training/corpusA.$OUTPUT_EXTENSION")
   {
     `rm -r $OUT_DIR/model`;
     `rm -r $OUT_DIR/lm`;
     `rm -r $OUT_DIR/training/giza`;		
     `rm -r $OUT_DIR/training/giza-inverse`;	 
     `rm -r $OUT_DIR/training/prepared`;	
      `mkdir $OUT_DIR/model`;
      `mkdir $OUT_DIR/lm`;
      learn_transliteration_model("");
   }
 }
 sub train_transliteration_module{
   `mkdir $OUT_DIR/model`;
   `mkdir $OUT_DIR/lm`;
   print "Preparing Corpus\n";	
   `$MOSES_SRC_DIR/scripts/Transliteration/corpusCreator.pl $OUT_DIR 1-1.$INPUT_EXTENSION-$OUTPUT_EXTENSION.mined-pairs $INPUT_EXTENSION $OUTPUT_EXTENSION`;
   if (-e "$OUT_DIR/training/corpusA.$OUTPUT_EXTENSION")
   {	
     learn_transliteration_model("A");
   }
   else
   {
    learn_transliteration_model("");
   }
   print "Running Tuning for Transliteration Module\n";	
    `touch $OUT_DIR/tuning/moses.table.ini`;
    `$MOSES_SRC_DIR/scripts/training/train-model.perl -mgiza -mgiza-cpus 10 -dont-zip -first-step 9 -external-bin-dir $EXTERNAL_BIN_DIR -f $INPUT_EXTENSION -e $OUTPUT_EXTENSION -alignment grow-diag-final-and -parts 5 -reordering msd-bidirectional-fe -score-options '--KneserNey' -phrase-translation-table $OUT_DIR/model/phrase-table -reordering-table $OUT_DIR/model/reordering-table -config $OUT_DIR/tuning/moses.table.ini -lm 0:3:$OUT_DIR/tuning/moses.table.ini:8`;
    `$MOSES_SRC_DIR/scripts/training/filter-model-given-input.pl $OUT_DIR/tuning/filtered $OUT_DIR/tuning/moses.table.ini $OUT_DIR/tuning/input  -Binarizer "$MOSES_SRC_DIR/bin/processPhraseTable"`;
    `rm $OUT_DIR/tuning/moses.table.ini`;
    `$MOSES_SRC_DIR/scripts/ems/support/substitute-filtered-tables.perl $OUT_DIR/tuning/filtered/moses.ini < $OUT_DIR/model/moses.ini > $OUT_DIR/tuning/moses.filtered.ini`;
    `$MOSES_SRC_DIR/scripts/training/mert-moses.pl $OUT_DIR/tuning/input $OUT_DIR/tuning/reference $MOSES_SRC_DIR/bin/moses $OUT_DIR/tuning/moses.filtered.ini --nbest 100 --working-dir $OUT_DIR/tuning/tmp  --decoder-flags "-threads 16 -drop-unknown -v 0 -distortion-limit 0" --rootdir $MOSES_SRC_DIR/scripts -mertdir $MOSES_SRC_DIR/mert -threads=16 --no-filter-phrase-table`;
    `cp $OUT_DIR/tuning/tmp/moses.ini $OUT_DIR/tuning/moses.ini`;
    `$MOSES_SRC_DIR/scripts/ems/support/substitute-weights.perl $OUT_DIR/model/moses.ini $OUT_DIR/tuning/moses.ini $OUT_DIR/tuning/moses.tuned.ini`;
 }
 sub mine_transliterations{
 my @list = @_;
 my $factor_val = $list[0];
 my $inp_ext = $list[1];
 my $op_ext = $list[2];
 my $count = 0;
 my $l1 = 1;
 my $l2 = 1;
 print "Creating Model ".$factor_val."\n";
 print "Extracting 1-1 Alignments\n";
 `$MOSES_SRC_DIR/bin/1-1-Extraction $OUT_DIR/$factor_val/f $OUT_DIR/$factor_val/e $OUT_DIR/$factor_val/a > $OUT_DIR/$factor_val/1-1.$inp_ext-$op_ext`;
 print "Cleaning the list for Miner\n";
 `$MOSES_SRC_DIR/scripts/Transliteration/clean.pl $OUT_DIR/$factor_val/1-1.$inp_ext-$op_ext > $OUT_DIR/$factor_val/1-1.$inp_ext-$op_ext.cleaned`;
 	if (-e "$OUT_DIR/$factor_val/1-1.$inp_ext-$op_ext.pair-probs") 
 	{
 		print STDERR "1-1.$inp_ext-$op_ext.pair-probs in place, reusing\n";
 	}
 	else
 	{
 	print "Extracting Transliteration Pairs \n";
 	 `$MOSES_SRC_DIR/bin/TMining $OUT_DIR/$factor_val/1-1.$inp_ext-$op_ext.cleaned > $OUT_DIR/$factor_val/1-1.$inp_ext-$op_ext.pair-probs`;
 	}
 print "Selecting Transliteration Pairs with threshold 0.5 \n";
 `echo 0.5 | $MOSES_SRC_DIR/scripts/Transliteration/threshold.pl $OUT_DIR/$factor_val/1-1.$inp_ext-$op_ext.pair-probs > $OUT_DIR/$factor_val/1-1.$inp_ext-$op_ext.mined-pairs`;
 }
 # from train-model.perl
 sub reduce_factors {
    my ($full,$reduced,$factors) = @_;
    my @INCLUDE = sort {$a <=> $b} split(/,/,$factors);
    print "Reducing factors to produce $reduced  @ ".`date`;
    while(-e $reduced.".lock") {
 	sleep(10);
    }
    if (-e $reduced) {
        print STDERR "  $reduced in place, reusing\n";
        return;
    }
    if (-e $reduced.".gz") {
        print STDERR "  $reduced.gz in place, reusing\n";
        return;
    }
    # peek at input, to check if we are asked to produce exactly the
    # available factors
    my $inh = open_or_zcat($full);
    my $firstline = <$inh>;
    die "Corpus file $full is empty" unless $firstline;
    close $inh;
    # pick first word
    $firstline =~ s/^\s*//;
    $firstline =~ s/\s.*//;
    # count factors
    my $maxfactorindex = $firstline =~ tr/|/|/;
    if (join(",", @INCLUDE) eq join(",", 0..$maxfactorindex)) {
 	# create just symlink; preserving compression
 	my $realfull = $full;
 	if (!-e $realfull && -e $realfull.".gz") {
            $realfull .= ".gz";
            $reduced =~ s/(\.gz)?$/.gz/;
 	}
 	safesystem("ln -s '$realfull' '$reduced'")
            or die "Failed to create symlink $realfull -> $reduced";
 	return;
    }
    # The default is to select the needed factors
    `touch $reduced.lock`;
    *IN = open_or_zcat($full);
    open(OUT,">".$reduced) or die "ERROR: Can't write $reduced";
    my $nr = 0;
    while(<IN>) {
        $nr++;
        print STDERR "." if $nr % 10000 == 0;
        print STDERR "($nr)" if $nr % 100000 == 0;
 	chomp; s/ +/ /g; s/^ //; s/ $//;
 	my $first = 1;
 	foreach (split) {
 	    my @FACTOR = split /\Q$___FACTOR_DELIMITER/;
              # \Q causes to disable metacharacters in regex
 	    print OUT " " unless $first;
 	    $first = 0;
 	    my $first_factor = 1;
            foreach my $outfactor (@INCLUDE) {
              print OUT "|" unless $first_factor;
              $first_factor = 0;
              my $out = $FACTOR[$outfactor];
              die "ERROR: Couldn't find factor $outfactor in token \"$_\" in $full LINE $nr" if !defined $out;
              print OUT $out;
            }
 	} 
 	print OUT "\n";
    }
    print STDERR "\n";
    close(OUT);
    close(IN);
    `rm -f $reduced.lock`;
 }
 sub open_or_zcat {
  my $fn = shift;
  my $read = $fn;
  $fn = $fn.".gz" if ! -e $fn && -e $fn.".gz";
  $fn = $fn.".bz2" if ! -e $fn && -e $fn.".bz2";
  if ($fn =~ /\.bz2$/) {
      $read = "$BZCAT $fn|";
  } elsif ($fn =~ /\.gz$/) {
      $read = "$ZCAT $fn|";
  }
  my $hdl;
  open($hdl,$read) or die "Can't read $fn ($read)";
  return $hdl;
 }