特徴表現

解剖特徴表現集作成環境の構築


 * BodyPartsは解剖用語の意味を形態で表現したデータ集です.
 * 現在すでにデータは広く転用されBodyPartsで作成したムービーやイラストはWIKIPEDIAやWikiMediaCommonsを通じて広く流通しオンライン記事やブログ、ＴＶ番組などで見かけるようになっています.


 * MRIスライスの３Ｄ再構築などによる特定個人の実例データではなく「代表的モデル（カノニカルモデル）」としてBodyPartsを作ってきた理由は実例に存在する破格や異常、過度な複雑詳細が理解の障害になる可能性を配慮して多くの実例が保持する特徴だけで出来上がったモデルが医学情報の表現に最適であると判断したからです.


 * 実際のモデル作成の場面ではこの「多くの実例が保持している特長」をテキストや写真、イラストからモデラーが抽出してモデルの形や位置関係に練りこんできました.
 * しかしながら実際のデータが持つ特徴には意図された特徴と意図していない特徴が混在しています.
 * モデラーの精神に隠されたままの意図した特徴をモデルの仕様として言葉で陽に表現し、
 * 意図しないものと区別し
 * 利用者がモデルの正確さのレベルを知りながら利用可能にすることは広がる利用に対する責任として重要です.
 * またBodyPartsが一般用から医学教育から臨床情報での使用も進めるためには欠かせないステップでもあります.


 * モデラーの心の中に存在した特徴表現はすでに取り出すことができませんので
 * 独立に代表的解剖が満たすべき特徴をリストアップしてすでに作成したモデルを再評価することを行わなければなりません.
 * この特徴リストは今後モデル化する部品についてはモデリングをより正確に容易に進める助けとなります.


 * 今期は代表的解剖が持つ構造上の特徴の記述を解剖学の教科書に求めこの特徴集をの開発を行います.
 * 特徴表現集は　特定の解剖部品の特徴　や　二つの部品の満たすべき関係　についての　短いステートメントの集まりであれば
 * 部品名称やその組み合わせで検索し適当に並べ替えることで適宜利用可能な特徴リストを作成することができます.

特徴表現文の集合はBodyPartsに役立つだけでなく権利放棄して共有することで、 １）パブリックの解剖辞書として機能する ２）人的機械的処理により計算機が利用できる知識情報源として機能する ことも期待される、再利用　転用の可能性の高い基盤データとなります.

著作権の消失している解剖学教科書を出発材料として利用し、説明的な教科書の文を特徴文の集合に加工するために １）複雑な分節構造や句構造を持つ文をシンプルな文に分解する ２）前の説明に依存する部分を補って単独で意味のある文に修正する ３）指示代名詞や関係代名詞が指し示す名称を補う ４）固有名称を概念のＩＤに対応させる

ことを行う計画です. 自然言語処理においても、教科書のように制限された文字数で多くの内容をより容易に伝えようとする文章における かかり受け解析などはいまだに精度の悪い処理であるために、解剖学を理解している編集者がこの工程を行わねばなりません. この人的作業の能率を上げ間違いを少なくするためには上記の手作業を補助する環境が必要です.

なお教科書を出発材料に辞書データベースを作成するこの作業は上記の転用可能性の多さにかんがみて本課題に限らずに計算機を利用できる知識表現作業として汎用性があるので この作業を補助する環境自体も、自由に誰もが利用できる　オープンソースのスタンドアローン　もしくは　公開ウエブサーバーとして　構築されることが望まれます.

開発要件

出発材料に教科書などのテキストデータを利用し以下の編集の大半を「マウスだけで楽しく行える」環境

１．自動辞書引きを行いその結果をテキスト表現する　自動辞書引きの結果はフォント変色--指示すれば”<用語：意味ＩＤ>”に表現変化

２．オリジナルと自動編集と手編集が区別できる キーボードでタイプインした挿入部は大括弧で囲まれる　文字色も変わる ２．指示代名詞が示す名称は必ず数行前にあるので同定が済んでいるNamedＥntityをドラッグドロップでコピーできる コピー後は別色　大括弧が自動的に付く ３．同定に失敗しているNEはマウスで選択し 何かをすれば編集中の文書に辞書引き反映される どこかにリスト化されており気が向いたときに意味ＩＤを調べその結果も辞書に登録できる

-- 大久保公策 情報システム研究機構(ROIS) 国立遺伝学研究所生命情報・DDBJ研究センター ライフサイエンス統合データベースセンター 055-981-5836 03-5841-7936 http://lifesciencedb.jp/cc/