tomo.
tomo.
@tomo.chise.org
(しようがないので、半丁に切って実験したが、高解像度にすれば頁一気にできるかな?)
November 24, 2025 at 6:19 AM
(DeepSeek-OCR の『賢さ』は空間情報量
doi.org/10.3169/itej...
に関係してるような気がするので、空間情報量が最大化するようにボケ変換を行った時が一番認識精度が上がると予測できるわけだが、確かに読めるギリギリの解像度が良い気がする。ただ、娘氏用マイクラマシンの GPU は12GBしかメモリがないので Gundam モデルの image-size を 640→768 に上げたのが限界っぽくて、もっとメモリの大きい GPU で実験したいところ)
doi.org
November 24, 2025 at 3:13 AM
% pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url download.pytorch.org/whl/cu118
% wget github.com/vllm-project...
% pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl
% pip install -r requirements.txt
% pip install flash-attn==2.7.3 --no-build-isolation
download.pytorch.org
November 23, 2025 at 3:11 AM
(大漢和辞典の日本漢字音は過渡的な知見に基づいて書かれていて、最近の辞書ではその修正が進んでるのも興味深かった。でもって、DHSJR と CHISE の統合や CHISE での日本漢字音の記述という課題に引き付けて考えた場合、戸籍統一文字とかの行政用漢字では大漢和の影響が強いのと、そもそも歴史的仮名遣いが近世〜近代における過渡的な知見に基づいて作られたという記述システム上の『欠陥』をどう考えるかが問題かな。いずれにしても、日本漢字音の音韻モデルをちゃんと機械可読化しないといけない訳で、えいやっとラテン文字表記を作るのが良いと思うんだけど、異論がある中で誰もやりたがらないのをどうするか問題)
November 8, 2025 at 8:14 AM
(漢字音のオントロジー化において、日本漢字音であっても中古音をベースに考えれば良いと単純に考えてたけど、唐代の長安方言との差異を補正しないといけないという、考えてみれば当たり前のことに気づけてよかった。あと、言語の経年変化とは別に知識が介在した影響があって、全体的に1字1音化が進行しつつもなかなか収束しないのは興味深い)
November 8, 2025 at 8:04 AM
(ちなみに、この引用符はフランス語やロシヤ語でも用いられるもので、フランス語の慣習を取り入れたものらしいが、ISO 8859-1 や ISO 8859-5 には HORIZONTAL BAR はない(「-」<HYPHEN-MINUS> で代用してた?))
November 6, 2025 at 1:57 PM
ところで、 なのだが、手元の資料での最古の例は ISO 8859-7:1986 (= ギリシアの国家標準 ELOT 928:1986; ISO-IR-126)
standards.iso.org/iso-iec/tr/2...
で、後に GB 2312 と KS X 1001 の1区10点にもこの名前が付されたが、ISO-IR-126 には「HORIZONTAL BAR (Parenthetiki pavla)」とあってギリシア語における引用符(段落の先頭にある対話文を示すもの cf. greeknote.net/types-of-wor... )だったようだ。
standards.iso.org
November 6, 2025 at 1:51 PM
ちなみに、前述のウィキペディアの記事の通り、JIS X 0208:1997 の1区29点の character name は <EM DASH> で、JIS X 0213:2000 が出るまでのどこかの段階で(おそらくは、当時の Unicode コンソーシアムの CP932 のマッピングテーブルか何かの影響で)エンバグして <HORIZONTAL BAR> に化けてしまったらしい。
November 6, 2025 at 1:30 PM
x.com/pelican_timu...
例えば、この場合、「勳」
www.chise.org/est/view/cha...
は「勛」の古字という関係があるので、これを部品として持つ漢字の再帰検索が行われる。同様に、「芸」
www.chise.org/est/view/cha...
は「蒷」と同字なので同様に再帰検索が行われる。
音符を置換した字は通仮関係が発生する可能性があるので、候補に挙げるのは良いが、「勛→勳」みたいな表示を付けた方が良いかもしれない。
pelican on X: "CHISE IDS漢字検索の部品文字列で口貝を入力すると、勳、壎、蕓、芸、耘、商が引っかかります。正しい検索結果なのかな? https://t.co/xX91qtn1lx" / X
CHISE IDS漢字検索の部品文字列で口貝を入力すると、勳、壎、蕓、芸、耘、商が引っかかります。正しい検索結果なのかな? https://t.co/xX91qtn1lx
x.com
October 21, 2025 at 12:32 AM
(ある mod を選択してインストールすると、必要となる特定バージョンの mod をいくつか取ってきてそれが実行可能なバージョンのマイクラを取ってきて環境を作って実行するという処理を自動でやってくれる。これが Debian 上に構築した Proxmox 上で動いてる Debian を入れた VM 上で動いてる)
October 8, 2025 at 3:53 AM