厚労省の診療データベース、データの不備によって突き合わせできず 92
ストーリー by hylom
共通番号を使ったら暗号化の意味がないような 部門より
共通番号を使ったら暗号化の意味がないような 部門より
Hamo73 曰く、
厚生労働省では特定健診と診療報酬明細書のデータを比較分析するため、4年前に約5億円をかけてデータベースを構築している。しかし、明細書約58億件のうち約80%が突き合わせできないことがわかった(NHKニュース)。
このデータベースは、メタボと診断された人がその後どのような病気にかかり、どれだけの医療費を使ったかを調べるために4年前に作られたという。しかし、去年このデータを実際に分析しようとしたところ、明細書データのおよそ80%が突き合わせできなかったという。データベースには特定健診のデータと診療報酬明細書のデータが含まれており、それぞれのデータは名前や生年月日が暗号化されて登録されている。ところが健診のデータは名前がカタカナで入力されていたいっぽう、明細書では漢字で入力されているなど、それぞれの明細書の書式は異なっており、そのため暗号化(ハッシュ化?)されたデータでの照合ができなかったようだ。
特定健診はデジタル化されているものの、明細書は未だ手書きが残っており、書式も統一化されていないことが背景にあるようだ。しかしなぜ設計時に気づかなかったのか、なぜ去年まで発覚しなかったのか、なぜ原因調査にこれほど時間がかかっているのかなど疑問点は多い。共通番号制度が医療にも導入されればこういった問題は起きないのかもしれない。
なんとなく入力~みたいな (スコア:5, おもしろおかしい)
ところが健診のデータは名前がカタカナで入力されていたいっぽう、明細書では感じで入力されているなど、
そりゃデータの突合せはできそうにないわ、ということを正しく伝える適切な誤変換!
・・・って、実はホントにフィーリングで入力されていたりして。
Re: (スコア:0)
にゅーろふぁじぃな感じで(死語)
Re: (スコア:0)
いや、「ふらくたるへんかん」を使えばまだいける。
Re:なんとなく入力~みたいな (スコア:2)
> そのため暗号化(ハッシュ化?)されたデータでの照合ができなかったようだ。
暗号化がハッシュ化だったら永遠に照合できない。
Re:なんとなく入力~みたいな (スコア:1)
キーを保存しなければ元に戻せない。
そうすれば暗号になる。
#それをハッシュテーブルというかは知らない
公開情報から仕様を簡単に説明しますと。 (スコア:5, 参考になる)
仕様はこの資料の最後の3ページに書かれています。
http://www.mhlw.go.jp/stf/shingi/2r9852000000thao-att/2r9852000000theb.pdf [mhlw.go.jp]
お時間のない方のためにまとめると、
1. 保険者番号,(保険証)記号番号,生年月日,性別 から作成したハッシュ値
2. 氏名,生年月日,性別 から作成したハッシュ値
の2種類のハッシュで 名寄せする、ということでした。
この資料上でも、名前のカナ,漢字で合わないことがあるので、そういう場合は
1番目のハッシュ値を使う、と書いてます。
ここからは考察。お時間のない方は読まなくてOK。
記号番号は結構変更がある上、同性の双子は区別できないので、1番目のキーも
それほど盤石ではありませんが、8割ロストするほどひどいものでもないと
思われます。
二番目のキーの問題だけをとりあげてNHKが先走った報道をした可能性も
ありますが、一番目のキーがあっても8割ロストしてしまうことの
原因を考えると、やはり
大きな問題は、ハッシュ値を作成するのが、運用管理業者側である、
とされていることです。もちろんハッシュアルゴリズムを合わせるぐらいの
ルール運用はされていますが、たとえば記号番号に含まれる数字を
全角/半角のどちらで行うか(全角が正解)、ゼロフィルしちゃいけませんよ、
あるいは保険者番号が分からないときはどうするのか、とか
そういうことをちゃんと決めていたとしても、ハッシュ値になっていると
それらルールが守られているかチェックできないのが痛いかと。
文字コードかも。(Re:公開情報から仕様を簡単に説明しますと。) (スコア:4, 興味深い)
ハズしているかも知れないけど、思いついたことを。
特定健診の元データは、XMLでやりとりされるので、日本語、全角文字はUTF8で記載されています。
一方、電子レセプトのほとんどはShiftJISデータでやりとりが行われています。
<<記号番号に ひらがなや全角が含まれることが多い>>ため、
記号番号を入れたときに別のハッシュ値になるかもしれません。
うーん こっちが本命かも。。。
バッドデータハンドブック(おふとぴ) (スコア:2, 興味深い)
まだ読んでないけど、O'Reillyの「バッドデータハンドブック」って、こういう話が載ってたりするのかな。
http://www.oreilly.co.jp/books/9784873116402/ [oreilly.co.jp]
4年間 (スコア:2)
誰も使ってなかったってこと?
なぜなぜなぜ (スコア:1)
検収が追わって、庇護担保期間も過ぎ
発注側の当時の担当者も異動し、
うやむやに終われるタイミングを待ってたのでは?
庇護担保期間? (スコア:1)
ネタではなくて、こういう言葉は始めて聞いた(見た)のですが、一般的な言葉なんですか?
瑕疵担保期間ならよくある。
いわゆるビッグデータ (スコア:1)
一意キーで識別する必要はなくて、特定健診と診療報酬明細書の人物を、大体一致できればいい、って程度の考えだったんでしょうね。
全体の傾向を読み取るのが目的だったので。
だから、氏名を一方向ハッシュにしてキーにすりゃいいじゃん、と考えた。
ハッシュ化したのは個人情報保護のために密に結合できないように、でしょう。
でも、ハッシュ元のキーの正規化を考慮してないという超絶基本の設計抜けで残念なことにw
だれも指摘しなかったとは思えないんですけどね…。どういう経緯で黙殺されたのかが気になる。
氏と名の間に空白を入れるかベタにつけるか、とか、文字コードどうすんの、とか考慮してるうちに漢字なのかカナなのかぐらいは出てくるだろーにさ…。
#ビッグデータはキーの選択がキモになるとは言うけど、なんかそれ以前な感じw
Re:いわゆるビッグデータ (スコア:1)
開発受注側 「名前ならハッシュ値でユニークキーに出来ると思ったので提案し、実装した」
開発発注側 「運用時に名前の書式を統一すればデータを個人情報と切り離して管理できる、というので提案を承諾した」
健診監督者 「名前の書式を統一しなければならないらしい。漢字だとコンピューターで使えない漢字とかあるからカタカナで統一な」
明細書記入側 「うちは今まで通り手書きだから、コンピューターに入れるときにうまくやってくれ」
データ入力監督 「名前は読み仮名を入力するようにね」
データ入力者(バイト) 「書いてある通り入力しときました」
こう言う感じじゃない?
2割はマッチングできてるから、ちゃんとやってるバイトもいたけどそうじゃない奴が多かったんだろう。
もしくはバイトが途中でやめて別のバイトを雇ったりしたときに、監督者が言い忘れたとかそういう可能性もあるね。
共通番号制度は不要 (スコア:0)
> 共通番号制度が医療にも導入されれば
健康保険の保険者番号で管理していれば問題ない話。
共通番号制度は不要だよ。
Re:共通番号制度は不要 (スコア:2)
>健康保険の保険者番号
それだと多分、会社をやめたり新入社したり、あるいは他県に引っ越したりするときに
変わっちゃうんじゃないかな?
実際のところ、医療業界における情報処理では一般的に
患者を一意に識別する「患者ID」というのがあるのだけど、
これが病院ごとに独自に決められた方式なんですね。
なので、もしこれを統一できたら日本の医療業界は大きく変わるのは間違いない。
・・・と、誰もが言うのだけど、こういうのって政府主導なりでそれこそ補助金付きぐらいで
やらないと多分実現不可能でしょうね。
Re:共通番号制度は不要 (スコア:2)
病院ごとの患者IDですら、突き合わせは困難です。
厚生労働省より、保険診療と自費のカルテは別にするように指導されています。
すると、保険診療と自由診療では一人の患者でも患者IDは別になります。
そして、診療報酬うんぬんに関係するのは保険診療、
特定検診に関するのは自費のカルテに記載する決まりです。
自費のカルテに保険の情報を載せる事はありません。
すると、両者を突き合わせるには、病院でもやはり名前と生年月日で
一件ずつ処理するしかありません。
これを一つにまとめる、さらに全国で共通の番号にするなんて、
途方もない作業量が必要です。コストも膨大です。
Re:共通番号制度は不要 (スコア:1)
>病院ごとの患者IDですら、突き合わせは困難です。
古くからシステムを変えていない病院は知らないけれど、IDは患者その人を指す番号であることが多いと思います。
自分の勤務先ではカルテとしては別でも、IDの時点では保険や自費を区別しないシステムです。
IDで検索した後に、自費や保険やを選ぶ。
なので検査結果など診療報酬と関係のないものは、保険や自費は別でも同じ場所に入ります。
また別の病院では、IDの下2桁で保険分類をして、3桁目以降を患者その人を指す番号にしていました。
いくつか電子カルテをみましたが上二つがメジャーかと
ただやはり大きい病院だと診療科毎にIDがバラバラだったりするので、そこは手作業になるかも知れません
>これを一つにまとめる、さらに全国で共通の番号にするなんて、
共通番号にするとしてどこに記載するんでしょうかね。
多分、保険証だと思うのですが、その場合自費受診で保険証を提示しない場合はどうするのかとか。
一介の医療機関に照会システムを開けたりはしないでしょうし
Re:共通番号制度は不 (スコア:1)
電子カルテを作ってたのが5年ぐらい前までなので最近の監査はわからないが当時は電子カルテといっても監査は紙で行われてたので、印刷の際に分かれれば問題なかったよ
レセプト病名なんて保険適用が認められてない使い方するために薬から病名をつけるなんていうことが
どの病院でも行われている不確かなデータ。元々傾向をみる以上にならないのだから2割のデータでも傾向は十分にわかる気がする
Re:共通番号制度は不要 (スコア:1)
それぞれのカルテに相互参照できるようにもう一方のIDをいれておけばいいだけじゃないの?
あるいは、別途対応表を用意しておくとか。
Re:共通番号制度は不要 (スコア:1)
なんでそんなにまで不便にしたがるねんやろ。
個人情報保護の為なんすかね・・・
Re:共通番号制度は不要 (スコア:1)
全部同じ番号で管理することで、10年前の他県の泌尿器科の受診履歴だろうと一瞬で出るようになってくれると、そりゃ医療機関側や国は凄く楽ですが、それをいやがる人も多いので難しいかも。
Re:共通番号制度は不要 (スコア:2, 参考になる)
保険者番号は、保険を運営する組合や市町村に割り振られています。
被保険者番号は世帯毎に割り振られるので、各個人に一意に割り
振られるわけでもなく、退職や引越しで変わるものなので長期に
疾患の動向を追うのにはなかなか使えません。(糖尿病の20年の経過など)
Re:共通番号制度は不要 (スコア:2)
いっそDNA貼り付けちゃえ
Re:共通番号制度は不要 (スコア:1)
そして後に、事務を混乱させる社会悪だとして、一卵性双生児が違法とされるのであった。
Re: (スコア:0)
役所にDNA採取部屋が設けられるんですね。
Re: (スコア:0)
転職したりすると、保険者番号変わるんじゃ?
それをどう紐付ける?
転職の履歴(保険者番号の履歴)って、健康保険とは別筋の個人情報になるんじゃない?
Re:共通番号制度は不要 (スコア:2, すばらしい洞察)
Re: (スコア:0)
でも便利じゃん
別におかしくないと思うけど。共通のキーが無いから無駄になったって話だよね
Re: (スコア:0)
フォーマットは統一できなくても、突合はできるし、補完でもなんでもできるでしょうに
識別子 (スコア:0)
名前や生年月日をキーにして照合するの?
何かしら、一意のキーを用意するものじゃないの?
共通番号制度が成立してなくても、表に出さないまでも、内情では一意の識別子を使っていて当然だし使っているだろうと思ってました。
Re:識別子 (スコア:2)
名前なんて結婚とかしたら変わる場合もあるだろうし、通名の人はもっと緩いルールで運用してるから
不定な項だと思った方が良いよね。
Re:識別子 (スコア:1)
だから、感じで入力していたからだよ。
Re:識別子 (スコア:1)
信用情報を扱ってるCICさんとかに連携する情報は
名前や生年月日や、まあそれだけじゃないんだけど
そういうキーでも照合可能になってたはず。
何をどうしてたんだったかなあ。。。
そこらへんの値が重複してたらエラーとして弾く、みたいな処理を入れた記憶があるよ。
「チ゛」と「シ゛」、「ヤユヨ」と「ャュョ」は同じとみなす、みたいなルールもあったなあ。
もちろん、カード番号とかそういうのが分からなくなった場合にしか使わんだろうけど。
共通番号制度が医療にも導入されれば (スコア:0)
今度は「いないはずの人」大量発生の予感
Re: (スコア:0)
それってゾンビ・・・
そりゃ無理だw (スコア:0)
フィーリングで入力されてるんじゃ突き合せなんて無理だよねw
#こういう基本設計の時点で間違ってる物に億単位の予算が出て、
#問題が発覚したところで誰も責任取らなくていいとか、やっぱりこの国は役人天国だね
Re:そりゃ無理だw (スコア:1)
厚生年金なんていままで総計でいくら横領されてうやむやにされたんだろう。
表ざたになった分となって無い分合わせたらどれくらい行ってるのかどこぞで集計してないすかね。
#表ざたになって無い分はわからないか。
Re: (スコア:0)
なー。とにかく責任なんか絶対取りたくないが安定は欲しいから役人なんぞになるんだよなー。無敵ですなあ。
でも絶対やりたくないけど。
Re:そりゃ無理だw (スコア:1)
役人界隈ってほぼ世襲制(家か大学?)だから外部の人はなれたとしてもおいしい部署には行けないし。
#どうせそうなんでしょ
Re:そりゃ無理だw (スコア:1)
なんとなく特定の大学(学部?)から特定の官僚へっていうコースがあるんだろうなぁというイメージを抱いてて書いちゃいました。
ドラマでそういうシーン見てた気がする。
うちの学校で教授の紹介で就職決まってたのに。
実はその一家・一族丸ごと全員公務員という強力なコネでとあるご近所の役所に就職決まっちゃってそっちを優先したもんで教授と企業(これも癒着になるのかな)の間含めて揉めたこともあったっけ。
Re: (スコア:0)
> # 問題が発覚したところで誰も責任取らなくていいとか、やっぱりこの国は役人天国だね
本当に誰も責任取らないんですか?NHKのニュースにはそれらしいことは何も書かれていないようですが。
Re: (スコア:0)
責任の取り方の話では。
duenmynoth氏は首にでもしないと気が済まないんでしょう。
そういうルールにしたいんだったら、高級官僚には今以上の厚遇が必要だと思いますけどね。
Re: (スコア:0)
取ったんなら、かくかくしかじかの責任取りましたって発表すればいい。そういうの含めて責任取るってことだろ。
医療はどうでもいいから (スコア:0)
普通に領収書をOCRできるようにしてほしい。せめて社名と日付の位置だけでも決めて欲しい。
Re: (スコア:0)
最近はスマホで撮影したら勝手に項目立てしてくれるアプリありませんでしたっけ
厚生労働省って無駄遣い案件多いよね (スコア:0)
初めて見た時、なんて無能な大規模案件かと思ってたのを思い出した。
> 厚生労働省では特定健診と診療報酬明細書のデータを比較分析するため、4年前に約5億円をかけてデータベースを構築している。しかし、明細書約58億件のうち約80%が突き合わせできないことがわかった(NHKニュース)。
っつか、そもそも4年も突き合わせ出来ない事が分からず続けて、今さら何を言い出してるんだろうか。
当時発表時点で無理でしょ、って思った人結構いたと思うんだけど。
これに関わったお役所の人達って、どんだけ無駄遣いしても痛くないもんね。
外注先も売上欲しいしね。納税者以外はやる気連携マンマンな案件だったという事だね。
いっその事関係者、次長クラス以上や外注先とか発表しちゃえばいいのに。
財務省とか会計検査院とかやんないかな~。
将来を踏まえた基盤設計のできない奴は、国家公務員であろうとも断舎利したらいいんぢゃなかろうか。
一応、高学歴の方々なんでしょうけど、全く意味ないよね。
高卒や中卒をOJTで育てた方がなんぼかマシ。まだ向上心が強いもの。
どんだけお高い所にいても、無駄遣いばっかの無能者は世間評価無いでしょ。
Re:20% (スコア:2, 興味深い)
Re:20% (スコア:1)
伊藤つかさとか、下條アトムとか誤読するほうが難しい名前は結構ある
Re:20% (スコア:1)
2割の人の名前が元々漢字じゃなくて仮名表記だったりして。
Re:20% (スコア:2)
もしくは、最初のうち担当してた人はちゃんとカタカナ入力してたが、その後ろくに引き継ぎせずにいなくなった、とか。