fedora34について

Linux初心者の試行レポートの続き、fedoraについて。
今回はまず
Fedora 34 Workstation
を試した。jarファイルの実行がうまくいかなかった。全体に少し重い感じがした。

そこで、別のフレーバーを試した。Fedora SIPN としてまとめられている。
Fedora KDE Plasma
Fedora Xfce
Fedora MATE Compiz
Fedora Cinnamon
Fedora LXDE

Fedora LXQt
Fedora SoaS
Fedora i3 TILING WM
Fedora SECURITY LAB
などが挙げられている。

どこかの記事で、Fedora KDE Plasmaならjarファイルがすぐ動くと書いてあったので追試。
私の場合はダメだった。そのあと、
Fedora Xfce
Fedora MATE Compiz
Fedora Cinnamon
Fedora LXDE
などを試行した。

Fedora Xfce でjava関係の環境を整えてやったらjarがうまく動いた。
表示もきれいで、Winと遜色ない。MintやKubuntuよりもきれいかもしれない。
Fedora Xfceは、動作は軽く、最初に用意されているアプリ、あるいは簡単にインストールできるものが、必要なものがそろっていて、親切と感じた。背景の壁紙は取り替えた。日本語もmozcに変更。ここまでで、特に問題なく、満足できる環境になった。

Fedora MATE Compiz
Fedora Cinnamon
Fedora LXDE
これらについては、jarが簡単には動かなかった。

Fedora LXDEは簡単版Fedoraという感じ。速い。でもいろいろと足りない。技術力があれば必要なものだけをそろえることができるのだろう。
Fedora MATE Compizは堅い堂々とした造り。MATEが好きな人がいることも納得できる。Winに近いことも安心感になるのだろう。
Fedora Cinnamonはビデオカードが入っていないと動作が重くなりますと警告が出る。実際に使ってみると、他よりは少しだけ重いような気もするがそれが理由で使用をやめようというほどではない。全体にきれいなお化粧。これはこれで使って心地よいだろう。

Fedora LXQt
Fedora SoaS
Fedora i3 TILING WM
Fedora SECURITY LAB
などは試行するのが面倒になったのでやめた。

ーーーーー
最初に日本語変換Anthyが入っている。
これについては記事があったので、途中省略しながら概要だけ紹介。

Fedora34でデフォルトIMEがAnthy採用

Mozc
現在最も主流のOSSかな漢字変換
もう十年ほど前のかな漢字変換ソフトとなるのですが、未だにその地位は揺るぎなく、Ubuntu、Debian、openSUSEなど、有名なLinuxディストリビューションではおよそMozcをデフォルトIMEとして採用

libkkc
Fedora、CentOSなどは、現在libkkcがデフォルトIMEとして採用。
こちらはRedHatが主に開発

アルゴリズムとしては、Trigramというものを採用しており、特徴として辞書データに品詞情報を持っていない(=SKKの辞書なども利用できる)という点などが挙げられます。 その反面というべきか、文節単位で区切ることができないという欠点もある。

さて、そんなFedoraが「Anthyへ移行する」となったわけです。

Anthy
上のMozc、libkkcと比較すると、もっとも歴史が古いOSSかな漢字変換。
以前はDebianやopenSUSEなどでもデフォルトIMEとなっていた時期がある。

2000年台前半に開発。2009年でオリジナルの開発は止まってしまい、以降リリースもされることはなし。
現在はフォークされたものが使われることが多いらしく、実際Fedora34で組み込まれるものも、フォーク版のAnthyであると思われます。

そもそもなぜ今Anthyに!?
理由については上に示したページで、下記のように書かれていますね。

libkkcがアクティブに開発されてなく、iBusそのものの開発にも影響が出ている
Mozcも候補に考えたが、UIがQtで作られており、他のIMEとは異なった感触がある
(他のIMEとは異なった感触って一体なんのことだよ〜!??)

実際libkkcのGitHubページを見に行くと、最終更新がおよそ2年前となってるようで、確かにアクティブとは言い難いかもしれません。そこでMozcではないのか・・・という点はさておきまして、やはりIBusの開発を念頭に置いていく以上、アクティブに開発可能なかな漢字変換が必要だったのかもしれませんね。その点、Mozcも開発がアクティブかと聞かれると若干怪しい面もありますし。

Anthyの変換性能
Anthyはビタビアルゴリズムを採用しています。(実際は「これ本当にビタビアルゴリズムなのか?」という疑問の声もあるようですが)
ソースコードを見てみると、Mozcのアルゴリズムなどと比較して、文節に重きを置いているようにも思います。

オリジナルが2000年代はじめということもあり、辞書データはMozcほどの規模ではなさそうです。(その後フォークされてたものはさておき)
辞書データ体型もMozcほどではないため、単語そのものに情報を付与するのではなく、文節(品詞など)から変換を試みるという印象が強そうですね。
この辺りはWnnのアルゴリズムの影響を受けていたりするのかな?とも思います。

実際に変換させてみよう!
私の手元のopenSUSEに、Anthyをインストールしてみました。
比較対象として、Mozcとlibkkcの変換結果も載せてみます。

「にわにはにわにわとりがいる」
Anthy: 「庭に埴輪鶏がいる」
Mozc: 「庭には庭鶏がいる」
libkkc: 「庭には二羽鶏がいる」

はい。まずは定番中の定番ですね。
Mozcはアルゴリズム的にこれが変換できません。理由は、「二羽」が2語、「庭」が1語となり、語数が少ないほうが選ばれやすくなるためです。
Anthyはどちらかというと、助詞の取り扱いに苦労してしまったという具合でしょうか。辞書データに単語単位の情報量が少ないのかもしれません。
libkkcは・・・・・・。(説明後略

「きしゃがきしゃできしゃした」
Anthy: 「記者が記者で帰社した」
Mozc: 「汽車が記者で記者した」
libkkc: 「記者が汽車で帰社した」

おい、Mozc!!!! (注:もちろん学習履歴を削除してから試験しています
案外Anthyってできる子?って思ってしまったのは私のせいでしょうかね。

libkkcは・・・うん君、間違いなくこの辺りは最初から学習済みですね!!

だったら、これならどうかな〜?

「しかがしかのぬいぐるみのことをしかった」
Anthy: 「歯科が歯科のぬいぐるみのことを叱った」
Mozc: 「歯科が歯科のぬいぐるみのことを叱った」
libkkc: 「しかがしかのヌイグルミのことを叱った」

実はこの変換文、libkkcの辞書データを見て、そこから作成してみました(笑)
libkkcの辞書データをみると、「ヌイグルミ / の / こと」という3単語が連なったデータが存在しており、後に「のこと」をつけると「ヌイグルミ」をカタカナで変換してしまうという特性があったりします。
アルゴリズムがTrigramなだけに、データ次第で変換に揺らぎが発生してしまうという一例になります。

私も今日は久しぶりにAnthyを触ってみたのですが、あ、こいつ案外まだまだ行ける!という気がしました。
もちろん辞書データの体型が古い。

結論として、Anthyでもいいんじゃないかな?というのが私の感想です。
ーーーー
とのことだ。そういえば確かにAnthyでも不都合はないのかも。でも、漢方薬の名前とかはmozcのほうが便利。でも、それは大したことではない。
最近はwin搭載のmsの漢字変換も賢くなって、使用に不都合はない。ほかに追いつくタイプの改良は速いだろうと思う。ただ、それを無料で、だれがやるのかという問題だけだろうと思う。そう考えれば、独自開発余地の大きいAnthyで行ってみようというのも、いい考えなのだろう。