]> git.lyx.org Git - features.git/blobdiff - development/tools/listFontWithLang.pl
Tools(listFontWithLang.pl): update fonts-categorization
[features.git] / development / tools / listFontWithLang.pl
index 95524df671f96a7abec30d74b8a78832d6f209ed..88fed6bddae2e34f53dc67e866f080c48c102bf1 100644 (file)
@@ -36,9 +36,10 @@ use GetOptions;
 
 sub convertlang($);
 sub extractlist($$$);  # my ($l, $islang, $txt, $rres) = @_;
-sub getIndex($$);
+sub getIndexes($$);
 sub getVal($$$);       # my ($l, $txtval, $txtlang) = @_;
 sub getproperties($$$$);
+sub ismathfont($$);
 sub correctstyle($);
 
 # Following fields for a parameter can be defined:
@@ -47,41 +48,56 @@ sub correctstyle($);
 # alias:             reference to a list of aliases e.g. ["alias1", "alias2", ... ]
 # listsep:           Separator for multiple data
 # comment:           Parameter description
-my %optionsDef = (
+my @optionsDef = (
   # help + verbose already handled in 'GetOptions'
-  "l"       => {fieldname => "Lang",
-                type => "=s", alias=>["lang"],
-                comment => "Comma separated list of desired languages"},
-  "n"       => {fieldname => "FontName", listsep => ',',
-                type => "=s", alias => ["name"],
-                comment => "Select font-names matching these (comma separated) regexes"},
-  "nn"      => {fieldname => "NFontName",
-                type => "=s", listsep => ',',
-                comment => "Select font-names NOT matching these (comma separated) regexes"},
-  "pl"      => {fieldname => "PrintLangs", alias => ["printlangs"],
-                comment => "Print supported languages"},
-  "pf"      => {fieldname => "PrintFiles", alias => ["printfiles"],
-                comment => "Print font file names"},
-  "p"       => {fieldname => "Property",
-                type => "=s", listsep => ',',
-                comment => "Select fonts with properties matching these (comma separated) regexes"},
-  "np"      => {fieldname => "NProperty",
-                type => "=s", listsep => ',',
-                comment => "Select fonts with properties NOT matching these (comma separated) regexes"},
-  "pp"      => {fieldname => "PrintProperties", alias => ["printproperties"],
-                comment => "Print properties from weight, slant and width"},
-  "s"       => {fieldname => "Scripts",
-                type => "=s", listsep => ',',
-                comment => "Select fonts with scripts matching these (comma separated) regexes"},
-  "ns"      => {fieldname => "NScripts",
-                type => "=s", listsep => ',',
-                comment => "Select fonts with scripts NOT matching these (comma separated) regexes"},
-  "ps"      => {fieldname => "PrintScripts", alias => ["printscripts"],
-                comment => "Print supported scripts"},
-  "pw"      => {fieldname => "PrintWarnings",
-                comment => "Print warnings about discarded/overwritten fonts, conflicting styles"},
+  ["n",
+   {fieldname => "FontName", listsep => ',',
+    type => "=s", alias => ["name"],
+    comment => "Select font-names matching these (comma separated) regexes"},],
+  ["nn",
+   {fieldname => "NFontName",
+    type => "=s", listsep => ',',
+    comment => "Select font-names NOT matching these (comma separated) regexes"},],
+  ["p",
+   {fieldname => "Property",
+    type => "=s", listsep => ',',
+    comment => "Select fonts with properties matching these (comma separated) regexes"},],
+  ["np",
+   {fieldname => "NProperty",
+    type => "=s", listsep => ',',
+    comment => "Select fonts with properties NOT matching these (comma separated) regexes"},],
+  ["s",
+   {fieldname => "Scripts",
+    type => "=s", listsep => ',',
+    comment => "Select fonts with scripts matching these (comma separated) regexes"},],
+  ["ns",
+   {fieldname => "NScripts",
+    type => "=s", listsep => ',',
+    comment => "Select fonts with scripts NOT matching these (comma separated) regexes"},],
+  ["math",
+   {fieldname => "Math",
+    comment => "Select fonts probably containing math glyphs"},],
+  ["l",
+   {fieldname => "Lang",
+    type => "=s", alias=>["lang"],
+    comment => "Comma separated list of desired languages"},],
+  ["pl",
+   {fieldname => "PrintLangs", alias => ["printlangs"],
+    comment => "Print supported languages"},],
+  ["pp",
+   {fieldname => "PrintProperties", alias => ["printproperties"],
+    comment => "Print properties from weight, slant and width"},],
+  ["ps",
+   {fieldname => "PrintScripts", alias => ["printscripts"],
+    comment => "Print supported scripts"},],
+  ["pf",
+   {fieldname => "PrintFiles", alias => ["printfiles"],
+    comment => "Print font file names"},],
+  ["pw",
+   {fieldname => "PrintWarnings",
+    comment => "Print warnings about discarded/overwritten fonts, conflicting styles"},],
 );
-my %options = %{&handleOptions(\%optionsDef)};
+my %options = %{&handleOptions(\@optionsDef)};
 
 $options{Lang} = "" if (! defined($options{Lang}));
 
@@ -97,9 +113,13 @@ if (defined($langs[0])) {
   $cmd .= " :lang=" . join(',', @langs);
 }
 
-my $format = "foundry=\"%{foundry}\" postscriptname=\"%{postscriptname}\" fn=\"%{fullname}\" fnl=\"%{fullnamelang}\" family=\"%{family}\" flang=\"%{familylang}\" style=\"%{style}\" stylelang=\"%{stylelang}\"";
+my $format = "foundry=\"%{foundry}\"" .
+    " postscriptname=\"%{postscriptname}\"" .
+    " fn=\"%{fullname}\" fnl=\"%{fullnamelang}\"" .
+    " family=\"%{family}\" flang=\"%{familylang}\" " .
+    " style=\"%{style}\" stylelang=\"%{stylelang}\"";
 
-if (exists($options{PrintScripts}) || defined($options{Scripts}) || defined($options{NSpripts})) {
+if (exists($options{PrintScripts}) || defined($options{Scripts}) || defined($options{NSpripts}) || exists($options{Math})) {
   $format .= " script=\"%{capability}\"";
 }
 if (exists($options{PrintLangs}) || defined($langs[0])) {
@@ -116,6 +136,11 @@ my %ftypes = (
   # Dummy internal map
   0 => "Serif",
   100 => "Sans",
+  110 => "Script",
+  120 => "Fraktur",
+  130 => "Fancy",
+  140 => "Initials",
+  200 => "Symbol",
   "default" => "Serif",
 );
 
@@ -186,6 +211,84 @@ my %fontpriority = (
 );
 my $nexttype = 6;
 
+# list of regexes for known sans serif fonts
+my %sansFonts = (
+  "value" => 100,          # Sans serif
+  "a" => qr/^(arial|andika|angostura|anonymous|arab|aroania|arimo|asap)/i,
+  "b" => qr/^b(aekmuk|ebas|erenika|eteckna|euron|lue)/i,
+  "c" => qr/^c(abin|aliban|antarell|arbon|arlito|handas|hivo|mu bright|omfortaa|omic|oolvetica|ortoba|ousine|uprum|wtex(hei|yen)|yklop|ypro)/i,
+  "d" => qr/^(d2coding|dimnah|dosis|dyuthi)/i,
+  "e" => qr/^(electron|engebrechtre)/i,
+  "f" => qr/^(fandolhei|fetamont|fira|font awesome 5|forgotten)/i,
+  "g" => qr/^(gardiner|garuda|gfs ?neo|gillius|granada|graph|guanine|gunplay)/i,
+  "h" => qr/^(hack|hani|haramain|harano|harmattan|hor\b)/i,
+  "i" => qr/^(ibm plex|ikarius|inconsolata|induni.?h|iwona)/i,
+  "j" => qr/^(jara|jura)/i,
+  "k" => qr/^(kalimati|kanji|karla|kayrawan|kenyan|keraleeyam|khalid|khmer [or]|kiloji|klaudia|komatu|kurier)/i,
+  "l" => qr/^l(aksaman|arabie|ato|eague|exend|exigulim|ibel|iberation|ibre franklin|ibris|inux biolinum|obster|ogix|ohit|oma)/i,
+  "m" => qr/^m(\+ |anchu|anjari|arcellus|ashq|eera|etal|igmix|igu|ikachan|intspirit|ona|onlam|ono(fonto|id|isome|noki)|ontserrat|otoyal|ukti|usica)/i,
+  "n" => qr/^(nachlieli|nada|nafees|nagham|nanum(barunpen|square)|nice)/i,
+  "o" => qr/^(ocr|okolaks|opendyslexic|ostorah|ouhud|over|oxygen)/i,
+  "p" => qr/^(padauk|padmaa|pagul|paktype|pakenham|palladio|petra|phetsarath|play\b|poiret|port\b|primer\b|prociono|pt\b|purisa)/i,
+  "q" => qr/^(qt(ancient|helvet|avanti|doghaus|eratype|eurotype|floraline|frank|fritz|future|greece|howard|letter|optimum)|quercus)/i,
+  "r" => qr/^(rachana|radio\b|raleway|ricty|roboto|rosario)/i,
+  "s" => qr/^(salem|samanata|sawasdee|shado|sharja|simple|sophia|soul|source|switzera)/i,
+  "t" => qr/^(tarablus|teen|texgyre(adventor|heros)|tiresias|trebuchet|tscu|tuffy)/i,
+  "u" => qr/^(ubuntu|ukij (bom|chechek|cjk|diwani|ekran|elipbe|inchike|jelliy|kufi|qara|qolyazma|teng|title|tor)|umpush|un ?(dinaru|jamo|graphic|taza|vada|yetgul)|uni(kurd|space|versalis)|uroob|urw ?classico)/i,
+  "v" => qr/^(veranda|vn ?urwclassico)/i,
+  "w" => qr/^(waree)/i,
+  "y" => qr/^(yanone)/i,
+  "z" => qr/^(zekton|zero)/i,
+);
+my %scriptFonts = (
+  "value" => 110,          # Script
+  "c" => qr/^(chancery)/i,
+  "d" => qr/^(dancing)/i,
+  "e" => qr/^(elegante)/i,
+  "k" => qr/^(kaushan|karumbi)/i,
+  "m" => qr/^(mathjax_script|miama)/i,
+  "n" => qr/^(nanum (brush|pen) script)/i,
+  "q" => qr/^qt(arabian|boulevard|brushstroke|chancery|coronation|florencia|handwriting|linostroke|merry|pandora|slogan)/i,
+  "r" => qr/^(romande.*|ruf)script/i,
+  "u" => qr/^(un ?pilgi|urw ?chancery)/i,
+);
+
+my %fraktFonts = (
+  "value" => 120,          # Fraktur
+  "j" => qr/^(jsmath.?euf)/i,
+  "m" => qr/^(missaali)/i,
+  "o" => qr/^(oldania)/i,
+  "q" => qr/^qt(blackforest|cloisteredmonk|dublinirish|fraktur|heidelbergtype|(lino|london)scroll)/i,
+);
+
+my %fancyFonts = (
+  "value" => 130,          # Fancy
+  "c" => qr/^(cretino)/i,
+  "g" => qr/^(gfs.?theo)/i,
+);
+
+my %initialFonts = (
+  "value" => 140,          # Initials
+  "e" => qr/^(eb.?garamond.?init)/i,
+  "l" => qr/^(libertinus|linux).*initials/i,
+  "y" => qr/^(yinit)/i,
+);
+
+my %symbolFonts = (
+  "value" => 200,          # Symbol
+  "a" => qr/^(academicons)/i,
+  "c" => qr/^(caladings|ccicons|chess)/i,
+  "d" => qr/^(dingbats|drmsym)/i,
+  "e" => qr/^(elusiveicons|emoji)/i,
+  "f" => qr/^(fdsymbol|fourierorns)/i,
+  "h" => qr/^(hots)/i,
+  "m" => qr/^(marvosym|material)/i,
+  "n" => qr/^(noto.*emoji)/i,
+  "o" => qr/^(octicons)/i,
+  "q" => qr/^(qtdingbits)/i,
+  "t" => qr/^(typicons|twemoji)/i,
+);
+
 if (open(FI,  "$cmd |")) {
  NXTLINE: while (my $l = <FI>) {
     chomp($l);
@@ -232,16 +335,16 @@ if (open(FI,  "$cmd |")) {
     my $family = &getVal($l, "family", "flang");
     $family =~ s/\\040/\-/;
     my $fontname;
-    if (length($family) < 3) {
+    if (length($fullname) < 3) {
       if (length($postscriptname) < 2) {
-        $fontname = $fullname;
+        $fontname = "$family $style";
       }
       else {
         $fontname = $postscriptname;
       }
     }
     else {
-      $fontname = "$family $style";
+      $fontname = $fullname;
     }
     if (defined($options{NFontName})) {
       for my $fn (@{$options{NFontName}}) {
@@ -256,7 +359,7 @@ if (open(FI,  "$cmd |")) {
     my $props = "";
     my @errors = ();
     if (exists($options{PrintProperties}) || defined($options{Property}) || defined($options{NProperty})) {
-      my $properties = getproperties($l, $family, $style, \@errors);
+      my $properties = getproperties($l, $fontname, $style, \@errors);
       if (defined($options{Property})) {
         for my $pn (@{$options{Property}}) {
           next NXTLINE if ($properties !~ /$pn/i);
@@ -275,7 +378,7 @@ if (open(FI,  "$cmd |")) {
     if (exists($options{PrintLangs})) {
       $props .= '(' . join(',', sort keys %usedlangs) . ')';
     }
-    if (exists($options{PrintScripts}) || defined($options{Scripts}) || defined($options{NScripts})) {
+    if (exists($options{PrintScripts}) || defined($options{Scripts}) || defined($options{NScripts}) || exists($options{Math})) {
       my @scripts = ();
       my $scripts = "";
       if ($l =~ / script=\"([^\"]+)\"/) {
@@ -286,6 +389,9 @@ if (open(FI,  "$cmd |")) {
        }
         $scripts = join(',', @scripts);
       }
+      if (exists($options{Math})) {
+        next NXTLINE if (! &ismathfont($fontname,\@scripts));
+      }
       if (exists($options{PrintScripts})) {
         $props .= "($scripts)";
       }
@@ -385,7 +491,7 @@ sub extractlist($$$)
   my ($l, $islang, $txt, $rres) = @_;
   my @res = ();
   if ($l =~ /$txt=\"([^\"]+)\"/) {
-    @{res} = split(',', $1);
+    @res = split(',', $1);
     if ($islang) {
       for my $lg (@res) {
        $lg = &convertlang($lg);
@@ -395,13 +501,17 @@ sub extractlist($$$)
   @{$rres} = @res;
 }
 
-sub getIndex($$)
+sub getIndexes($$)
 {
   my ($lang, $rlangs) = @_;
+  my @res = ();
+
   for (my $i = 0; defined($rlangs->[$i]); $i++) {
-    return $i if ($rlangs->[$i] eq $lang);
+    if ($rlangs->[$i] eq $lang) {
+      push(@res, $i);
+    }
   }
-  return(-1);
+  return(\@res);
 }
 
 sub getVal($$$)
@@ -412,9 +522,15 @@ sub getVal($$$)
   &extractlist($l, 0, $txtval, \@values);
   return("") if (! defined($values[0]));
   &extractlist($l, 1, $txtlang, \@langs);
-  my $i = &getIndex("en", \@langs);
-  return ($values[$i]) if ($i >= 0);
-  return($values[0]);
+  my $i = &getIndexes("en", \@langs);
+  my $res = "";
+  for my $k (@{$i}) {
+    if (defined($values[$k]) && (length($values[$k]) > length($res))) {
+      $res = $values[$k];
+    }
+  }
+  return($values[0]) if ($res eq "");
+  return($res);
 }
 
 sub getsinglevalue($$$)
@@ -466,15 +582,60 @@ sub addTxt($$)
 
 sub getftype($$)
 {
-  my ($family, $style) = @_;
-  if ("$family" =~ /arial|helvet|trebuchet/i) {
+  my ($fontname, $style) = @_;
+  if ($fontname =~ /(sans)[-_ ]?(serif)?/i) {
     return($ftypes{100}); # Sans Serif
   }
-  elsif ($family =~ /(sans)[-_ ]?(serif)?/i) {
-    return($ftypes{100}); # Sans Serif
+  elsif ($fontname =~ /gothic|dotum|gulim/i) {
+    if ($fontname =~ /bisrat gothic/i) {
+      return($ftypes{0});    # Serif
+    }
+    else {
+      return($ftypes{100}); # Sans Serif
+    }
+  }
+  elsif ($fontname =~ /serif|times|mincho|batang/i) {
+    if ($fontname =~ /good times/i) {
+      return($ftypes{100}); # Sans Serif
+    }
+    elsif ($fontname !~ /initials/i) {
+      return($ftypes{0});    # Serif
+    }
+  }
+  # Now check for fonts without a hint in font name
+  if ($fontname =~ /([a-z])/i) {
+    my $key = lc($1);
+    for my $rFonts (\%sansFonts, \%scriptFonts, \%fraktFonts, \%fancyFonts, \%initialFonts, \%symbolFonts) {
+      if (defined($rFonts->{$key})) {
+        if ($fontname =~ $rFonts->{$key}) {
+          return($ftypes{$rFonts->{"value"}});
+        }
+      }
+    }
+  }
+  if ("$fontname" =~ /^bpg/i) {
+    if ("$fontname" =~ /bpg (courier gpl|elite)/i) {
+      return($ftypes{0});    # Serif
+    }
+    else {
+      return($ftypes{100}); # Sans Serif
+    }
+  }
+  elsif ("$fontname" =~ /^dustismo/i) {
+    if ("$fontname" =~ /^dustismo roman/i) {
+      return($ftypes{0});    # Serif
+    }
+    else {
+      return($ftypes{100}); # Sans Serif
+    }
   }
-  elsif ($family =~ /serif/i) {
-    return($ftypes{0});    # Serif
+  elsif ("$fontname" =~ /^go\b/i) {
+    if ("$fontname" =~ /^go mono/i) {
+      return($ftypes{0});    # Serif
+    }
+    else {
+      return($ftypes{100}); # Sans Serif
+    }
   }
   else {
     return(undef);
@@ -483,12 +644,12 @@ sub getftype($$)
 
 sub getweight($$)
 {
-  my ($family, $style) = @_;
+  my ($fontname, $style) = @_;
   my $result = undef;
   for my $key (keys %weights) {
     next if ($key !~ /^\d+$/);
     my $val = $weights{$key};
-    for my $info ($style, $family) {
+    for my $info ($style, $fontname) {
       if ($info =~ /\b$val\b/i) {
         if ($val eq "Regular") {
           $result = $val;    # It may refer to width
@@ -504,11 +665,11 @@ sub getweight($$)
 
 sub getwidth($$)
 {
-  my ($family, $style) = @_;
+  my ($fontname, $style) = @_;
   my $result = undef;
   for my $key (keys %widths) {
     next if ($key !~ /^\d+$/);
-    for my $info ($style, $family) {
+    for my $info ($style, $fontname) {
       if ($info =~ /\b$widths{$key}\b/i) {
         return($widths{$key});
       }
@@ -524,7 +685,7 @@ sub getwidth($$)
 
 sub getslant($$)
 {
-  my ($family, $style) = @_;
+  my ($fontname, $style) = @_;
   for my $key (keys %slants) {
     next if ($key !~ /^\d+$/);
     if ($style =~ /\b$slants{$key}\b/i) {
@@ -536,14 +697,14 @@ sub getslant($$)
 
 sub getspacing($$)
 {
-  my ($family, $style) = @_;
+  my ($fontname, $style) = @_;
   for my $key (keys %spacings) {
     next if ($key !~ /^\d+$/);
     if ($style =~ /\b$spacings{$key}\b/i) {
       return($spacings{$key});
     }
   }
-  if ("$family $style" =~ /(mono|typewriter|cursor|fixed)\b/i) {
+  if ("$fontname $style" =~ /(mono|typewriter|cursor|fixed)\b/i) {
     return($spacings{100}); # Mono
   }
   else {
@@ -551,11 +712,22 @@ sub getspacing($$)
   }
 }
 
+sub ismathfont($$)
+{
+  my ($fontname, $rCapability) = @_;
+
+  return 1 if ($fontname =~ /math/i);
+  for my $cap (@{$rCapability}) {
+    return 1 if ($cap eq "math");
+  }
+  return 0;
+}
+
 sub getproperties($$$$)
 {
-  my ($l, $family, $style, $rerrors) = @_;
+  my ($l, $fontname, $style, $rerrors) = @_;
   my $newstyle = &correctstyle($style);
-  my $newfam = &correctstyle($family);
+  my $newfam = &correctstyle($fontname);
   my @properties = ();
 
   for my $txt (qw(ftype weight width slant spacing)) {
@@ -566,7 +738,7 @@ sub getproperties($$$$)
     my $val1 = $rget->($newfam, $newstyle);
     my $val;
     if (defined($val2) && defined($val1) && ($val2 ne $val1)) {
-      push(@{$rerrors}, "Family($family),Style($style): Values for $txt ($val1 != $val2) differ, selecting internal $txt($val2)");
+      push(@{$rerrors}, "Fontname($fontname),Style($style): Values for $txt ($val1 != $val2) differ, selecting internal $txt($val2)");
       $val = $val2;
     }
     elsif (! defined($val2)) {