Excelの自動書式変換を避けるため、遺伝子シンボルが変更される 116
ストーリー by headless
転換 部門より
転換 部門より
Microsoft Excelなど表計算ソフトウェアの自動書式機能により遺伝子シンボルが日付などの誤った値に変換されてしまうことを防ぐため、HUGO Gene Nomenclature Committee(HGNC)のガイドラインが変更されたそうだ(The Vergeの記事、
論文アブストラクト)。
自動書式機能では入力されたデータが特定の種類だと認識した場合、自動で書式を設定する。そのため、「membrane associated ring-CH-type finger 1」の遺伝子シンボル「MARCH1」が「1-Mar」に変換されてしまう。書式だけでなくデータ自体も「1/3/2001」のように変換されてしまうため、復元は困難だ。2016年には、遺伝子のリストを使用する論文の20%で遺伝子シンボルが誤った値に変換されたまま掲載されているとの調査結果も発表されている。このような問題の回避方法として、事前にセルの書式設定で「文字列」を選択しておくなどの方法が知られているが、自動書式自体を完全に無効化することはできなかった。
遺伝子シンボルは遊び心あふれる科学者たちの楽しみでもあり、無意味に別の単語と紛らわしいものも多い。そのため、ヒトの遺伝子シンボル27個はこの1年ほど、自動書式に影響を受けないような文字列への置き換えが進められていたのだという。たとえば「MARCH1」は「MARCHF1」に変更されており、「septin 2」を示す遺伝子シンボルは「SEPT2」から「SEPTIN2」に変更されている。このほか、検索を容易にするため「CARS」は「CARS1」に、「WARS」は「WARS1」に置き換えられ、侮辱的な表現になることを避けるための変更も行われているが、ソフトウェアが引き起こす問題の対策としてガイドラインが変更されたのは今回が初めてとのことだ。🧬
自動書式機能では入力されたデータが特定の種類だと認識した場合、自動で書式を設定する。そのため、「membrane associated ring-CH-type finger 1」の遺伝子シンボル「MARCH1」が「1-Mar」に変換されてしまう。書式だけでなくデータ自体も「1/3/2001」のように変換されてしまうため、復元は困難だ。2016年には、遺伝子のリストを使用する論文の20%で遺伝子シンボルが誤った値に変換されたまま掲載されているとの調査結果も発表されている。このような問題の回避方法として、事前にセルの書式設定で「文字列」を選択しておくなどの方法が知られているが、自動書式自体を完全に無効化することはできなかった。
遺伝子シンボルは遊び心あふれる科学者たちの楽しみでもあり、無意味に別の単語と紛らわしいものも多い。そのため、ヒトの遺伝子シンボル27個はこの1年ほど、自動書式に影響を受けないような文字列への置き換えが進められていたのだという。たとえば「MARCH1」は「MARCHF1」に変更されており、「septin 2」を示す遺伝子シンボルは「SEPT2」から「SEPTIN2」に変更されている。このほか、検索を容易にするため「CARS」は「CARS1」に、「WARS」は「WARS1」に置き換えられ、侮辱的な表現になることを避けるための変更も行われているが、ソフトウェアが引き起こす問題の対策としてガイドラインが変更されたのは今回が初めてとのことだ。🧬
ソフトウェア機能実装のガイドライン (スコア:5, すばらしい洞察)
1. 余計な事をするな
2. それでも何か実装したい場合には1のルールに従え
Re:ソフトウェア機能実装のガイドライン (スコア:2)
1の補足条項
その機能が99.9%のユーザにとって有用だと云う確たる理由が有る場合でも、0.1%のユーザの中の更に極一部の人達の為に、その機能を簡単にON/OFF可能にしろ。
Re: (スコア:0)
3. 何が余計かは人によって異なる
Re:ソフトウェア機能実装のガイドライン (スコア:1)
さっそく1.を破るコメントが
Re: (スコア:0)
1と3を合わせると、今回のケースでは「勝手に変えるな」になるんじゃないかな。
Re: (スコア:0)
もしかして:0バイトのソフトウェア
Re: (スコア:0)
メモ帳で良いですね
Re:ソフトウェア機能実装のガイドライン (スコア:1)
> メモ帳で良いですね
BOM をつけないでくれ.
#たしか,少し前に BOM なしに対応したってストーリがあったような.
Re:ソフトウェア機能実装のガイドライン (スコア:1)
CSVとK3を区別してないのも問題ですよね。
というか、ちゃんとダブルクォートで括った市外局番付き電話番号を勝手に数値に変換しないでほしい。
Re:BOM付きUTF-8は滅びろ (スコア:1)
BOMはギチギチに規格を守るならUTF-8には付加されない文字なんすよ。
なので素のUTF-8読み込みでBOMがあるとコケる事がある。
でもコケるのはUTF-8的には問題のない動作。
逆にBOMなしでコケるやつも居るけど、
これでコケる奴はそもそもUTF-8の対応として間違っている。
BOM付けても付けなくてもコケることはあるので、
規格的に正しくしようとすると付けないのが正解。
……なんだけど、BOM付けてコケる奴が大分少なくなってきて、
文字コードの自動認識考えるとBOM付きの方が便利、というのが現状。
便利だけど間違ってるってのがややこしいんだよ……
Re:ソフトウェア機能実装のガイドライン (スコア:1)
UTF-16とかでBOMあると動かないのは欠陥だけど、UTF-8ではそうではない。
逆にBOM無しでトラブル起こすソフトは欠陥なんだけど。
一番の欠陥はUTF-8でのBOMについて定義しなかったUTF-8自身だな。
Re:ソフトウェア機能実装のガイドライン (スコア:1)
Re:ソフトウェア機能実装のガイドライン (スコア:1)
年齢を聞かれたあと干支を聞かれてうっかり答えてサバ読みがバレるみたいな話かと思ったら違った
#12年単位でサバを読めばいいって話もある(?)
Cellの中身が変化する (スコア:4, おもしろおかしい)
突然変異だ進化論だ
Re: (スコア:0)
標準書式だ互換性だ
なんで (スコア:1)
googleのもしかしてといい、なんで勝手にユーザーの入力を弄るかね
あくまでユーザーの入力が正しいものとして素直に対応した上で「でもこっちじゃないですか?」ってなるなら頓珍漢な提案でもそんなイライラしないのに
Re:なんで (スコア:1)
中身は「3がつ1臼」のまま表示上だけ「2020/03/01」にするなら良いのに
Excelは元データを破壊するから本当に困るんだよな
この前Amazonで「柔軟」を検索したら「柔軟剤」に返還されて微笑った
Re: (スコア:0)
人は自分が正しいと信じながら平然と間違えるからね、しかもその癖自省なく他者を面罵するから打つ手がない
やってもせいぜい前者までだよ、「おかしな結果はお前が作りこんだ、俺のせいじゃない」ってスタンスで通さないと……
Re: (スコア:0)
英語での検索するときは単語のスペルわからなくても先に辞書で調べたりせず、それっぽいスペルで入力してる。
ほとんどは良い感じで検索してくれて、いちいち辞書引く手間を削減できるのでたすかってる。
無意識に (スコア:1)
やってる例があったりするだろうか?
たとえばlexのエスケープが必要な記述を避けちゃう、とか?
# 実例は知らないので、疑問だけ
M-FalconSky (暑いか寒い)
Re:無意識に (スコア:1)
lex -> texね
# orz
M-FalconSky (暑いか寒い)
自動は難しい (スコア:0)
複雑過ぎて何がどうなってるのかも分からない。
この状態では、直すこともできない。
結果的に (スコア:0)
自動変換されないのはいい遺伝子ということか
それより (スコア:0)
プリフィクスで????付けるようにしようよ。????MARCH1。
絵文字ダメ?じゃあ&とかで。&MARCH1。
Re:それより (スコア:1)
うわ絵文字が消えたw これ [emojipedia.org]
Re:それより (スコア:4, 参考になる)
先日のスラド「メンテナンス」(実際はサーバー移転?)以降、絵文字が化けるようになってしまったっぽいね。
Re:それより (スコア:2)
あーそれでうんこ見なくなったのか…
Re:それより (スコア:1)
改善だったんですね。
Re:それより (スコア:1)
Re:それより (スコア:1)
Re:それより (スコア:1)
私のこのチケット [osdn.net]によって迅速に対応されたようです。
#んこ対策とは思わなかったので普通にバグ報告してしまいました。
Re:それより (スコア:1)
Re:それより (スコア:2)
Re: (スコア:0)
Excelならセルの表示形式を文字列に設定するだけでいいと思いますよ。
自分はSQLDeveloperから検索結果をコピペするときなどはシート全体の表示形式を文字列にしてます。
Re:それより (スコア:1)
>Excelならセルの表示形式を文字列に設定するだけでいいと思いますよ。
そうだね。それ「だけ」でいいよ。
そうやって気を付けて作ったExcelファイルをもらった人が別のワークシートにコピペするときに変換されないように、
表示形式を文字列にする「だけ」で済む。
つまり、全研究者の全Excelの表示形式を文字列に設定する「だけ」でいいよ。
簡単な仕事だ。やってくれんかね。
Re:それより (スコア:2)
まーなんせ自動認識は癖が強いですからな
拡張子がscsvだったら全部文字列形式で読み込むとか出来そうなもんなのにやってくれないかなぁ…
Re:それより (スコア:2)
拡張子違うからええやないですか…ねぇ
Re: (スコア:0)
その操作をいちいちするのがめんどくさいってわからないの?MSさんは。
Excelはちょっとの労力を受け入れて使うもの (スコア:0)
ってのがこの記事で良くわかる。
それは、「ちょっと」じゃないという人は使わなきゃいい。
Re:またM社かよ (スコア:1)
会計用のソフトを科学研究に使うのがおかしいんだよ
Re: (スコア:0)
それは基本的に同意だが、「四月一日さん」の給与を計算しようとしたら人名が日付に自動変換されて「四月一日さん」が居ないことになるような仕様は会計用のソフトとしても腹を切って死ぬべきであると思う
#やったことないけどExcelで四月一日さん自動変換されるん?
Re:またM社かよ (スコア:1)
>#やったことないけどExcelで四月一日さん自動変換されるん?
Excel 365の最新版ではされない。
Re: (スコア:0)
最近の若い者は知らんだろうが、科学研究に方眼紙は一般的に使われていたのだよ。
だからExcelを使うのはごく自然な事なのだ。単純に科学者を責めてはいけない。
Re:またM社かよ (スコア:1)
責めなきゃいけないのは、方眼「紙」じゃなくて方眼「師」な
Re: (スコア:0)
表計算ソフトの代表例としてExcelの名前が出されただけ
義務教育レベルの国語力があれば理解できるはずなんだが……
タイトルだけ読んで「アンチコメント書ける♪」と、本文読んでないタイプかな
Re: (スコア:0)
元々、言葉遊びで紛らわしい単語にしてたのが原因だからね。
人間には言葉遊びが理解できても、コンピュータには区別が難しい。だから変えようって事。
Excel側が修正したところで本質的な問題は解決しない。
Re: (スコア:0)
LibreOffice等OSSのソフトでも起こる問題です。
そこまで憤るのなら、君が修正すれば良かったのです。
Re:馬鹿だな (スコア:1)
日本語版だからかもしれませんが、手元のExcel2016は全角でもダメでした。
Re:遺伝子シンボルを変えるよりも (スコア:2)
Re:遺伝子シンボルを変えるよりも (スコア:1)