
英国公衆衛生庁がCovid-19の陽性症例者1万6千件のデータを喪失。原因はXLS形式の行制限 128
ストーリー by nagazou
冬になったら分割してもまたあふれそう 部門より
冬になったら分割してもまたあふれそう 部門より
英国公衆衛生庁(PHE)は4日、技術的な問題により、9月25日から10月2日までの期間に発生したCOVID-19陽性者のうち、15,841件分が欠落したままになっていたと発表した。英国内の各メディアの報道によればその理由はExcelのファイル形式にあったようだ(英国公衆衛生庁、BBC、The Guardian、Daily Mail Online)。
各地の医療機関から集められた複数のデータは一つのExcelテンプレートにまとめられ、中央システムに自動的にアップロードされる仕組みが取られていた。原因となった技術的問題は、Excelのファイル形式がXLS形式であったためだという。XLS形式では6万5536行を超えるデータは扱えないのだが、複数のデータを一つのテンプレートにまとめた結果、XLS形式で扱えるデータを超えてしまった模様。6万5536行を超えてあふれた分のデータは省略されてしまった。9月25日から10月2日までの期間はそれが毎日発生し、15,841件分のデータが報告されなかったというのが技術的な問題の真相だった模様。
PHEは失ったデータは2020年10月3日午前1時までに修復したとしている。また現在はデータを分割する緩和策が導入されているそうだ。つまりXLS形式であることは変わっていない模様。
各地の医療機関から集められた複数のデータは一つのExcelテンプレートにまとめられ、中央システムに自動的にアップロードされる仕組みが取られていた。原因となった技術的問題は、Excelのファイル形式がXLS形式であったためだという。XLS形式では6万5536行を超えるデータは扱えないのだが、複数のデータを一つのテンプレートにまとめた結果、XLS形式で扱えるデータを超えてしまった模様。6万5536行を超えてあふれた分のデータは省略されてしまった。9月25日から10月2日までの期間はそれが毎日発生し、15,841件分のデータが報告されなかったというのが技術的な問題の真相だった模様。
PHEは失ったデータは2020年10月3日午前1時までに修復したとしている。また現在はデータを分割する緩和策が導入されているそうだ。つまりXLS形式であることは変わっていない模様。
また現在はデータを分割する緩和策が導入されているそうだ。 (スコア:1)
あたらしいEXCEL(n).xls
こうですね!
Re: (スコア:0)
そうなった場合タイムスタンプ見るしかありませんね…
Re: (スコア:0)
csvにしておけば…
Re: (スコア:0)
さしあたってxlsxでいいのでは…
Re:また現在はデータを分割する緩和策が導入されているそうだ。 (スコア:1)
CSVをダブルクリックしたらExcelで開いたから、かもしれない。
デスクトップソフトで想定外の大規模データー (スコア:0)
たまにありますよね
元々想定されていた規模を超えた処理に使われて問題が起こるやつ
Re:デスクトップソフトで想定外の大規模データー (スコア:2)
そもそも「デスクトップソフト」とは何でしょうか?
聞いたこともないんですが。
Re: (スコア:0)
「データー」ってケツ伸ばす人ってめっちゃ頭悪そうですよね。
Re:デスクトップソフトで想定外の大規模データー (スコア:1)
マシーンが叫ぶ
狂った朝の光にモニター
朝の光にモニター (スコア:2)
「朝の光にモニター」徹夜デバッグ作業後の朝を迎えた風景だったのか!
Re: (スコア:0)
ある愛のメモリ
Re: (スコア:0)
悪いというか固そうなアナクロ感。
Re: (スコア:0)
そのデタラメな由来はツッコミを入れるとキリがないから置いておくとして、現代の一般的な外来語の表記でdataをデーターと表記するものはありません。JISでも内閣告示でもデータと書きます。この程度の常識を知らず、一般に広く使われている表記と自分の特殊な書き方の違いに気づくこともなく、英語での発音にどちらが近いかを調べることもないのですから、頭が悪いと言って差し支えないでしょう。
Re:デスクトップソフトで想定外の大規模データー (スコア:2, 参考になる)
首相官邸ホームページ検索 | 首相官邸ホームページ [kantei.go.jp]
いっぱいあんぞ
Re:デスクトップソフトで想定外の大規模データー (スコア:2, すばらしい洞察)
「JISでも内閣告示でもデータと書きます。」と適当なこと書いたお前が頭悪かっただけ
世の中のせいにするな
Re: (スコア:0)
まあ大概Excelですね。
なんちゃってSEの仕事か、あるいは初版はちょっと気が利いてて延々と保守という名の何かがされた結果地獄と化したマクロとか。
# いつの時代のアレだ
Re: (スコア:0)
いつの時代もアレだ
Re: (スコア:0)
1. データの作成元の人が使えるもの
=> WORD or EXCEL or アプリケーション新規開発
=> 金ないし WORD はちょっとなので Excel で
2. Excel でデータがやってくるのをどうしよう
=> Excel マクロ or VBScript or HTA or アプリケーション新規開発
=> 金ないし VBScript? HTA? 何それ怖い
=> そして Excel へ
みたいなことがあったと想像。
今年作られたシステムだろうに・・・ (スコア:0)
今年作られたシステムだろうになぜそんなことに・・・
外部に発注しないで担当が何も考えないで慣れてる技術でシステムで作っちゃったのか?
Re:今年作られたシステムだろうに・・・ (スコア:1)
えぇっ?
新しいシステムの方がバグが多いのは当たり前ですよ。
絶対に失敗してはならない例えば宇宙ステーションやロケットのシステムなんて
かなり古くて実績のある枯れたシステムで作るのは当たり前です。
xls vs xlsx (スコア:0)
旧形式を未だに使い続ける理由がわからないんだけど
新型コロナの集計ならほぼ間違いなく今年からの運用なので特に理解し難い
Re: (スコア:0)
未だにOffice 2003を使っていて、買い替える予算が付かないんでしょう。
困らないから。
今回困ったけど。
Re: (スコア:0)
多分そう思っているだろうけど、数十年前に作られた集計システムをつぎ足しつぎはぎで対応しているんじゃないかな…陽性者数がそこまで多くなかったから今まで発覚しなかっただけで、問題としてはずっとあったものじゃ…
Re: (スコア:0)
使っているサードパーティ製ライブラリが…
xlsの問題じゃなくて、組み方だよね (スコア:0)
だいたい、送られてきたデータはその日付フォルダにぶち込んで一定期間取っておかないと怖い気がする。
別にサーバー上の集計bookだけ2007形式「xlsm」とかでつくれば、解決する案件かな
Re:xlsの問題じゃなくて、組み方だよね (スコア:1)
ボリュームシャドウコピーでよくない?
あるいは、gitつかうとか。
Re:xlsの問題じゃなくて、組み方だよね (スコア:1)
と言うより、#3902491 [srad.jp]自体、VSSもVCSも知らなさそうに見えるね。
Re:xlsの問題じゃなくて、組み方だよね (スコア:1)
日別に受信したものを全部残しとけという話でgit使っても意味ないだろ。
そう言う前提で、「日付フォルダにぶち込んで一定期間取ってお」けばいい、程度のもんなら、gitでも構わんのじゃないか。
逆にDBMSで安心できるのか、って気もするな。
DBを何世代かバックアップを取っておけば安心できるのかもしれんね。
Re:xlsの問題じゃなくて、組み方だよね (スコア:1)
いまどき、CSVファイルとストレージ領域の大きさを比べれば、削除しようがずーっと取っておこうが、どちらでも構わんだろ。
この場合、更新の有無は定かではないと思うけどね。
たまには差し替えとかあるのかもしれんし。
Re:xlsの問題じゃなくて、組み方だよね (スコア:1)
向いてるかどうか、って話なら、前にも指摘した通り、VSSで十分。
Gitでもいいんじゃないか、って程度。
そもそも、要らなくなったら捨てる、なんて貧乏臭い運用は今どき時代遅れだよ。
CSVファイルの大きさなんか、たかが知れてるんだから。
邪魔にならない程度にワーキングディレクトリを整理して、ずーっと取っておけばいい。
しばらく取っておかないと不安、って動機ならなおのこと。
Re:xlsの問題じゃなくて、組み方だよね (スコア:1)
目的的には、普通にバックアップをとればいいんじゃないかな。
その「普通にバックアップ」って、具体的にはどういう方法?
バックアップツールで定期増分バックアップを取るとか? それが今回の「目的的」にVSSより使い勝手が良いとは思えないけどなあ。
もちろん、データ保全という意味では優れてると思うけど。
Re:xlsの問題じゃなくて、組み方だよね (スコア:1)
>データ保全という意味では優れてると思うけど。
結論が出ましたね。
データ保全に優れている、ってのはたとえば、専用のバックアップツールを使って、定期増分バックアップを別メディアに取る場合とかだよ。
キミ、解ってないでしょ? キミが言うような、日付ファイル名を使う方法では、データ保全性は、保証できないよ。
そういっても空間は有限なんだから
なんでそんなに貧乏くさい前世紀的発想から逃れられないんだい?
そのデータ、XLSだかCSVだかは知らんけど、何MiBあるって話?
全部取っておいたって、百年以上保存し続けることができるレベルでは?
ふさわしい期限を付けて消すルールを決める。
そのルールの運用が破綻するだろう。そんな例はたくさんある。
そして、その削除を人手に頼る限り、間違って消しちゃダメなものを消してしまうことは有り得る。
そんな前時代的な日付ファイル名+人力管理に頼るよりは、VSSの方がいいだろ。
もしかして、新しい技術に付いていきたくない人?
そう言う人を受け入れざるを得ない残念な現場なら、キミの言うような方法で仕方ないと思うよ。
実際、私もそう言う現場に当たることもある。
Re:xlsの問題じゃなくて、組み方だよね (スコア:1)
まさにそういう臭いがプンプンする現場のケースだろこれ
この現場もっとヒドくて、間違って大切なファイルを削除しちゃったりする。
だから、信用ならない人手の操作に頼らず、自動化できる仕組みの方が良い。
VSSなら、今回の様な操作ミスはすぐに救えたのは解るよな?
Re:xlsの問題じゃなくて、組み方だよね (スコア:1)
ファイルなるフォルダに日付がついていたらバックアップと思い込むのやめたら。
スレッドをざっと見まわした限り、日付パス名がバックアップだ、と言う趣旨のことを書いた人は、キミだけの様だよ。
少なくとも私はそんなことは書いてない。
ちなみに、私が提案したVSSもVCSも、バックアップではない。
リモートリポジトリに保存するVCSは、バックアップと考えることもできるけど、そう言う趣旨で言っているわけでも無い。
Re:xlsの問題じゃなくて、組み方だよね (スコア:1)
うーん、そういうのは結局柔軟なバックアップ以上のものではなくない?
VSSはそうだね。
VCSは違うだろ。
前提によって良いツールを選べばいい。
どちらを選んでも、日付フォルダを作るよりマシじゃないかな。
まあ、ユーザがに新しいツールを勉強する意欲や能力が無い、ということなら話は違うけど。
Re:xlsの問題じゃなくて、組み方だよね (スコア:1)
なんでローテーションなんて貧乏臭い考えから逃れられないのかな?
ファイル一つ辺りせいぜい数MiBとかだろ? 全部取っとけよ。
そこいらのホームセンターで売ってるSDカードだって、百年分以上の容量あるよね。
ただ、ワーキングディレクトリが散らかるのは良くないだろうから、VCSを使いな、ってこと。
Re:xlsの問題じゃなくて、組み方だよね (スコア:1)
そんなにセンシティブだと言うのなら、いまどき匿名化してから処理するんじゃないの?
三日分なら流出してもいい、って話でもないだろ?
Re:xlsの問題じゃなくて、組み方だよね (スコア:1)
その匿名化処理でExcel使ってまた何万件かぶっ飛んだりしてな
それは有り得る話だけど、匿名化処理をしない場合でも同じように有り得る話だし、匿名化処理をしない場合は、流出した場合の被害は大きい。
センシティブさを云々し始めたのはキミだと思うが、もう忘れちゃったのか?
とにかく反論しないと気が済まないのかね
反論…というレベルの話にも達してないんだけどな、キミ相手じゃ。
Re:xlsの問題じゃなくて、組み方だよね (スコア:1)
Re: (スコア:0)
エクセルを馬鹿にしてたやつのタブレット画面覗き込んだらGSSのアイコンが見えるオチだった
Re: (スコア:0)
表計算=エクセルですね
Re: (スコア:0)
Microsoftの表計算と言えばMultiplan……
Re: (スコア:0)
日本で馬鹿にされるのはエクセル方眼紙であってエクセルは別に馬鹿にされてないけどな
Re:日本を馬鹿にしていた香具師見たこれ! (スコア:1)
Excelの印刷すべてが悪いとは思わない。
2~3ページに収まる程度なら、大きな問題を抱えることは無いだろう。
けど、ある程度以上のページ数を超える辺りから、印刷物の品質を保つのが困難になるね。
目次を簡単に作る事もできないし。
Re:日本を馬鹿にしていた香具師見たこれ! (スコア:1)
むしろ数ページカツカツの方がトラブルは多いんじゃない?
その「むしろ」ってなんだ?
数ページで起こる不具合は、もっと多いページでも発生すると思うんだが、そうでないって意味なのか?
その理由が解らんな。
目次機能みたいなのは機能がないってだけでトラブル起こすわけでもない
気の利いた印刷物が作れないってのはその為の道具じゃないで納得できる仕様
納得できない、なんてことは言ってないよ。
目次が必要なら、MS-Excelを採用する奴が悪い。MS-Word使え。そう言う話になるだろ、ってこと。
出来そうに見えてるのに欠けたり無駄紙出したりするから問題なのではないかと
その「問題なのではないかと」って何?
私も最初からそう言ったことを指摘しているんだが。
Re: (スコア:0)
そもそも本件はエクセルが悪いのではなく、使う側の問題だしな。
それでもエクセルに親兄弟を殺されたと思ってる人たちは「エクセルが悪い」と言うのだろう。
Re:日本を馬鹿にしていた香具師見たこれ! (スコア:1)
Excelが親兄弟を殺したことじゃない?
Re: (スコア:0)
ちょっと違う。問題は、Excelを利用したことじゃなくて、古いXLS形式を使ったこと。XLSX形式なら行制限はない。
日本だと、例えば電子納品の際に互換性の高いISO9660 LEVEL1で記録する関係上、ファイル名が8:3形式に制限されていて、XLS形式しか使えない。
だから、公共事業を請け負った建設会社はXLSX形式で作成した資料をわざわざベンダー依存のXLS形式で保存し直すみたいなことをやってる。
そういうのが馬鹿らしいってこと。
Re: (スコア:0)
制限はありまーす
220行だよー
Re:PHEは失ったデータは2020年10月3日午前1時までに修復したとしている (スコア:1)
綴じてあったFAX用紙から再入力したりして。