- blogs:
- cles::blog
Google が AI によるファイル判別ツールをリリース
google cli pythonGoogle が AI によってファイルを判別するプログラム Magika*1*2を公開していました*3。
通常、Linux で拡張子がない不明なファイルの詳細を知りたい場合には、ほとんどの人はfile
*4 コマンドを使うことが多いと思います。ただし、ファイルがどのアプリケーションによって作成されたものなのかを判定するための一般的な方法はないため、file
コマンドを使ったとしても内容が正しく判別されるとは限りません。file
コマンドの場合には、ファイルの判定はファイルシステムテスト(ファイルが空か?特殊ファイルか?)、マジックナンバーテスト(ファイルの先頭にマジックナンバーが記載されているか?)、言語テスト(ファイルがテキストである場合には、どのような文字コードで書かれているか)の 3 つの判定が順に行われるとされています。つまり基本的にはヒューリスティックなルールを一定の順序で試してみて、該当するものがあるかどうかを判定していることになります。
これに対して、Magika は人間が作ったルールではなく、これをディープラーニングによるモデルで代替しようという試みです。
Googleが高精度かつ高速にファイル形式を判別するツール「Magika」公開 - PC Watch
Magikaはディープラーニングの力を活用し、平均精度99%以上を実現しつつ、1つのCPUで実行しても1秒間に120種類以上/数百万ファイルのファイル形式を判別できるツール。判別時間はわずか数ミリ秒で、モデル自体も比較的小さく、コアモデルは1MB未満だ。
† インストールは pip で
イントールは Python 環境があれば pip
で一撃なので簡単に試してみることができます。
- *1: Magika
- *2: GitHub - google/magika: Detect file content types with deep learning
- *3: Magika: AI powered fast and efficient file type identification | Google Open Source Blog
- *4: Ubuntu Manpage: file - ファイルタイプを判定する
このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/14311
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
コメントは承認後の表示となります。
OpenIDでログインすると、即時に公開されます。
OpenID を使ってログインすることができます。
2 . アーロンチェアのポスチャーフィットを修理(6)
3 . 三菱鉛筆がラミーを買収(5)
4 . 2023 年分の確定申告完了!(1つめ)(4)
5 . 福岡銀がデマの投稿者への刑事告訴を検討中(4)