Google発のJPEGエンコーダー「Guetzli 1.0」リリース 50
ストーリー by hylom
まだ改善の余地があったのか 部門より
まだ改善の余地があったのか 部門より
maia 曰く、
Googleが3月15日、新たなJPEGエンコーダー「Guetzli」をリリースした(Google Research Blog、Qiita、Engadget Japanese、OSDN Magazine)。
Guetzli(グエツリ)はスイスドイツ語でクッキー)という意味。圧縮率の改善に取り組むJPEGエンコーダーは他にもあるが、Guetzliの性能やいかに。色々説があるみたいで……。
わざわざ比較実験してpaperまで作っとる (スコア:4, 参考になる)
リンク先のGoogle Research Blogのリンク [arxiv.org]から。
23人の被験者に対して、31枚の画像でlibjpegによる圧縮と比較した結果、75%の被験者がGuetzliを好ましいと評価したらしい。
社内サーバの画像フォルダ最適化 (スコア:3, 参考になる)
にGuetzli試すつもりだったけど、コマンド打つのが面倒。
探してたらツール [autistici.org](jpegtran_do_plus)を見つけました。参考までに。
なお、Guetzliをデジカメの画像に試してみたら、40-50%ぐらいサイズが小さくなっていい感じに。
処理速度が遅いのが課題か。
圧縮率高いのはいいけど (スコア:1)
エンコード時間が1枚10秒↑だったりしてちょっと使いにくい
Re:圧縮率高いのはいいけど (スコア:1)
LZMAと同じように、圧縮よりも配布・伸長が多いケースで重宝すると思われます(画質が同じと仮定)。
# 以下、アレです。
なぜ既存の方式よりさらに35%も圧縮できるか。スカートの内側やシャツの中の下着、さらにその中など、
通常では表示されない部分のデータを大胆に削除しているからなのです。まさしくハリボテなのです。
3Dだと回転させればすぐにばれるところを、回転方向に制限のある2Dの特徴を活かした今回の方式、
さすがGoogleという感じです。
Re: (スコア:0)
それでは既存のエンコーダーは見えないところにある男の夢もデータとしては持っているって事か?
ちょっとデータ解析して来る。
Re: (スコア:0)
と、いうことは、既存の方式とこの方式の差分をとれば・・・!?
Re:圧縮率高いのはいいけど (スコア:1)
どこにコメント付けるか悩みましたが。
https://arxiv.org/abs/1703.04421 [arxiv.org]
グーグル先生による論文の要旨(abstract)翻訳
「Guetzliの計算は現在非常に遅く」はhttps://github.com/google/guetzli#using [github.com]によると入力画像1MPixに対してCPU時間1分+300MBのメモリを使用するとのこと。
Re: (スコア:0)
バッチ回してエロサイト見てれば終わるよ
# さあwaifu2x caffeと組み合わせるのじゃ
Re:圧縮率高いのはいいけど (スコア:1)
10秒だと、カメラなんかが困るんだろうけど。
Re:圧縮率高いのはいいけど (スコア:1)
撮影時の保存はrawでいいんじゃない?
Re: (スコア:0)
シャッター押した瞬間はそれでいいんだろうけど、写真をアップロードしたり、メールで送ったりする時に、10秒ってのはヤバイ気がする。スマホとかだと、計算量自体からくる性能への影響や、電池の消費量も問題になるだろうし。
Re: (スコア:0)
初めて買ったデジカメのPowershot 350は1枚あたり7~8秒かかってたな。
JPEG圧縮が遅いのか、CFへの記録が遅いのかわからんけど。
Re: (スコア:0)
四半世紀前なら普通のJPEG圧縮で1枚1分以上かかってたんだし、
それを思えばなんてことないでしょう。どうせそのうち改善される。
Re: (スコア:0)
四半世紀前はCPUの性能が1年で2倍ぐらいに上がっていた。
かつマルチメディア処理用ハードウェアアクセラレーションなんてものも、まだなかったころの話。
プロセッサの性能向上が頭打ちになって久しい昨今、また今回のような特殊な処理用に
ハードウェアアクセラレーションが用意されるとも思えないので、昔の「普通のJPEG圧縮」
が経たような目覚ましい圧縮処理の時間短縮は望めないだろう。
Re: (スコア:0)
Radeon「たかが16スレッドとは笑えるな」
そこまで厳密にやらなければ並列処理化で結構早くなるはず
Re: (スコア:0)
ダークシリコン問題が示すように、多コアを同時に動かすにも熱的限界があるのよ。
Re: (スコア:0)
GPGPUはまだまだ普及してないから大丈夫
普及する気配も見えないけど多分そのうち普及するから大丈夫
Re: (スコア:0)
General purposeというが、実際にはそんなにいろんな目的に向いているわけではない。
だから「今回のような特殊な処理」をGPUでアクセラレート出来るのかという話はあるし、
もちろん排熱や電力供給の限界による並列化の限界はそのまままるっと残っている。
Re: (スコア:0)
画像処理はまあGPU向きですよ。
それにこの手の処理が流行ればNの字がすぐ対応する。
Re:圧縮率高いのはいいけど (スコア:1)
今回の圧縮の最適化は
「従来の心理視覚モデルとGuetzli独自の心理視覚モデルの差を吸収するための検索アルゴリズムを使用することで [engadget.com]」
と言っているように、一般的に考えられる「画像処理」とは毛色が違うんじゃないの?
Re: (スコア:0)
JPEG圧縮/伸張拡張ボードがあったの思い出しましたよ。
CバスだったかISAバスだったか。
CPU性能上がって消えたようですが、今ならFPGAで専用回路作るかな。
思うに、AI用のアクセラレーション回路を積んだコプロセッサみたいなの、今後出てくるんじゃないでしょうかね。
最初はGPGPUとかでソフトウェア動作としても、将来的にAIの計算方法の方向性が確立したなら、専用のプロセッサになってもおかしくない。
FPGAみたいなもの使って、動的に回路の最適化をするようなのも出てくるだろうし。
だから、めざましい進歩は望めない、とか絶望するのは早計じゃないかと思うのです。
Re: (スコア:0)
FPU入れたら、一晩かかってたレイトレの計算が1時間で終わって笑いがこみ上げたの思い出したました。
それまでは、専用回路でもたいして変わらんだろとか思ってたんですよね。
ソフトウェアで代用できる程度の違いだろ? と。まさかあそこまで変わるとは。
ソフトバンク回線 (スコア:0, すばらしい洞察)
わざわざ画質を下げてサイズを大きくする「最適化」がますます捗りそう
Re: (スコア:0)
画質を下げた後には復元 [it.srad.jp]すればOK!
Re: (スコア:0)
> わざわざ画質を下げてサイズを大きくする
「サイズを小さくする」じゃなくて? 何を言ってるのかわからん。
Re: (スコア:0)
「通信の最適化」によって、容量が増えることも [srad.jp]
でも元画像の圧縮が甘くて容量が大きくても、今ならその分通信量上限に早く到達するだけで、キャリアが頑張る必要性は薄いですよね。
今の回線速度ならそれに対応する機材を投入する方がコストがかかる気がします。
Re: (スコア:0)
> 今ならその分通信量上限に早く到達するだけで
二段階通信料の契約者の場合単純に水増し請求できる(される)という結果になる
また、本来は格安SIMで十分な人に対して本来よりも通信量が多いように錯覚させれば格安SIMへの移行の阻止にもなる
Re: (スコア:0)
> でも元画像の圧縮が甘くて容量が大きくても、今ならその分通信量上限に早く到達するだけで、キャリアが頑張る必要性は薄いですよね。
キャリアにしてみれば、通信量を圧縮できれば、空いた分に他のトラフィックを詰めて収容効率を上げられるので意味がある。
リンク先のQiitaの記事 (スコア:0)
雑なピクセル比較で品質を評価してGuetzliをディスってたせい、かつ投稿者もスルースキル無くて半炎上状態にあるな。
Re:リンク先のQiitaの記事 (スコア:1)
とはいえ擁護派もあんまり説得的じゃない感じ。
「Google様の考えたButteraugliアルゴリズムでよいスコアになるようなエンコーダーなんだから、
それで評価しないのは筋違いだー」って批判してるんだけど、そのButteraugliアルゴリズムがどういうものかは
擁護派も理解していないという。
この論評 [qiita.com]によると、
ソースコードをのぞくと結構な数のマジックナンバー(定数値)が散りばめられており、それらの値をどうやって決めたのか/なぜその値が妥当なのかという説明を見つけられませんでした。
「俺が考えた最強のアルゴリズム実装してみた」感が拭えず、もう少し情報がほしいなと思う次第です。
だそうで。
Re: (スコア:0)
機械学習ってマジックナンバーの塊だよ
定量評価したいなら PSNR くらいしかないが(ほかにあるなら教えて)、
結局は画像コーデックはNを稼いだ官能評価しかないんじゃないかと思うんだが。
Re: (スコア:0)
まあ思考停止するのは自由だけど、このGuetzliはその官能評価とやらをどれだけやってるのかね。
擁護している人たちの根拠は何? と考えると、結局Googleブランドにころっとまいってるだけじゃないかと思える。
Re:リンク先のQiitaの記事 (スコア:2, 参考になる)
「ニューラルネットワークは気味が悪い」というのは共通認識ではあるらしい。
要するに、適切かどうかわからないネットワークを構築し、十分に代表的であることを祈るしかない画像でトレーニングし、うまく機能する理由または重大な間違いが生じる理由は正確にはわからない、ということです。優秀なエンジニアがどうしてこんなことができるでしょうか。
研究者やますます多くのエンベデッド・システム開発者がわざわざこんな苦労をする理由は簡単です。それは CNN がうまく機能することにほかなりません。トレーニング結果は、概して実際の結果を予測しています。また、CNN は標準的な物体認識および分類問題において、その他のアルゴリズムを上回る性能を一貫して示しており、物体のサイズ、位置、および照明の変化に比較的反応しにくいという特長もあります。さらに、Google とスタンフォード大学の研究者らが最近発表した論文によれば、異なる CNN のクラスタは、画像内の物体の分類だけでなく、画像内の状況を説明するキャプションの記述にも高度な正確性を示すことが明らかになっています。現在、そこまで到達している既知のアルゴリズムは他にありません。
http://systemdesign.altera.co.jp/can-you-see-using-convolutional-neura... [altera.co.jp]
Re: (スコア:0)
Alpha Goのアルゴリズムの詳細を人間が人間に説明できるわけがないと思うんですけど。
説明できなきゃ気がすまないならAIは絶対に人間を超えられない。
Re: (スコア:0)
まあ何が思考停止なんだかよくわからんが、この技術の擁護者は自分の官能性を信じたんだろう?
もはや誰もとがめることはできないと思うんだが。
なんつーか、なんでもGoogleだと噛みつくの、やめね?
官能評価 (スコア:0)
画像を見て、息子に評価させるのですね。
最大角度を100として…。
え、いかに官能的かを評価するのですよね? ね?
Re:官能評価 (スコア:1)
レナさん画像の官能評価ですね
Re: (スコア:0)
最大角度は腹に当たるから180弱だろ
Re:官能評価 (スコア:1)
察しろよ!!(ノД`)
Re: (スコア:0)
ヒント:中年太り
Re: (スコア:0)
割とシャレになってないと思う。入力評価値は好ましさで、ニューラルネットワークの設計は勘だもの。
そのうち画像や映像系アフィブログが協力者に電極を取り付けて反応する特徴を学習させるようになるかもしれん。
いや、今から始めてもいいな。画像をくれ。
Re: (スコア:0)
JPEGの粗悪なエンコーダで圧縮するとブロックノイズが出てしまって見るに堪えないです。
Re: (スコア:0)
しかしそのブロックのイズの言及はアップミスにより
Qiitaが再エンコードをしてしまった結果という……
再エンコードされて無いやつには同様の言及は今のところ無いね。
結局100倍時間をかけた効果は
オレオレ評価プログラムの中にしか無いという感じ。
炎上したというQiitaの記事の「現時点では使い物にならん」というのは事実だろう。
技術的なデモンストレーションで実用化には時間を要するみたいな感じで。
目指すは生産工場建設・・・ (スコア:0)
生産(圧縮)効率上げるには、おばあちゃんが有能なのです。
鉱山(金脈)?。当ててみたいものですねぇ。
珍しくスラド的な記事なのに (スコア:0)
このやる気のない本文は何なの?
Re:珍しくスラド的な記事なのに (スコア:1)
libhylomなので
ところで (スコア:0)
mozillaの圧縮はどうなった
Re:ところで (スコア:2)
アレは趣が異なり、無劣化で済む範囲での圧縮用なふいんきので、改良のしようが無い感じ。
Re: (スコア:0)
雰囲気
Re: (スコア:0)
Guetzliはゲロ遅いし「ZopfliがあるからDeflate実装要らない」という話にはならんだろう?