Polarsのsortはどこに実装されているのか ~デバッグの仕方を添えて~

はじめに この記事はPolars Adbent Calendar 2023 22日目の記事です。 Polarsの公式より引用 本記事では、Python版のPolarsについて話します。 Polarsは動作が早いです。Polarsが高速に動作する要因は複数ありますが、その一つに高速に動作するRustで書かれ…

論文まとめ「Soft Labels for Ordinal Regression」

URL https://openaccess.thecvf.com/content_CVPR_2019/papers/Diaz_Soft_Labels_for_Ordinal_Regression_CVPR_2019_paper.pdf メタ情報 学会 CVPR2019採択 著者 Raul Diaz, Amit Marathe HP Inc. モチベーション どのようにlossや目的変数を変換しているか…

会話を哲学する コミュニケーションとマニピュレーション 感想

会話を哲学する~コミュニケーションとマニピュレーション~ (光文社新書)作者:三木 那由他光文社Amazon 感想 会話におけるコミュニケーションとマニピュレーションと言う側面を初めて理解した。 我々が普段会話の中でおこなっていることは、約束事を形成し…

Shift-JIS, UTF-8, CP932の違い

定期的にわからなくなるため、まとめる。 Shift-JIS 主に日本で使われる文字コードの一つで、ASCIIの英数字やいくつかの特殊文字に加えて、ほぼすべての日本語文字(漢字、ひらがな、カタカナ等)をカバーしている。しかし、その他の多くの言語や特殊な文字…

「大規模言語モデルは新たな知能か」を読みました

大規模言語モデルは新たな知能か――ChatGPTが変えた世界 (岩波科学ライブラリー)作者:岡野原 大輔岩波書店Amazon 感想 大規模言語モデル周りの話を、非常に平易な説明で学ぶことができた。ChatGPTをきっかけにMLを学ぶ人の入門書として良さそう。短い時間で読…

論文まとめ DEPLOT: One-shot visual language reasoning by plot-to-table translation

URL https://arxiv.org/pdf/2212.10505.pdf 組織 Google DeepMind University of Cambridge 概要 チャートやプロットのような視覚言語は、人間の世界ではいたるところに存在 チャートやプロットから情報を得る= 視覚言語推論(visual language reasoning) 本…

コンサルティング会社 完全サバイバルマニュアル 感想

コンサルティング会社 完全サバイバルマニュアル (文春e-book)作者:メン獄文藝春秋Amazon 感想 コンサルタントストーリーとビジネス的に役立つ知識が交互に記載されていて、非常に読みやすかった。特にストーリー部分は起承転結があり、小説的な観点でも盛り…

Leveraging HTML in Free Text Web Named Entity Recognition 論文まとめ

URL https://aclanthology.org/2020.coling-main.36/ メタ情報 8 December 2020 COLING2020のポスター発表 著者 Colin Ashby and David Weir TAG Lab, Department of Informatics, University of Sussex, Brighton, UK 概要 HTMLタグを含むフリーテキストに…

文章がどのぐらい具体的か測定したい

※ こちらは「Sansan Advent Calendar 2022」の21日目の記事です。昨日はkur0ckyさんによるマラソンではじめる効果的なKPTでした。彼が如何にマラソンと飲酒を愛しているかが伝わる熱い記事でしたね。 概要 文章の具体度を定量的に測定できると、自身の文章の…

「採用基準」を読みました

採用基準という本を読みました。面白い内容だったため、ここに簡単に記録を残しておきます。 本 採用基準作者:伊賀 泰代ダイヤモンド社Amazon 内容を簡単に 日本全体として、リーダーシップが重要とする意識が足りていない 日本人は、グローバル人材の定義と…

40%キーボードを作った際の備忘録

40%キーボードを作った際の記録を残していきます。 家にはんだ付け用製品が何もない状態でのスタートだったため、購入商品が今から始める人にとって参考になるかもしれません。 完成品 Corne Cherry V3です というわけで出来た、シックで良し pic.twitter.co…

リッジ回帰のパラメータの大きさの計算と、λを変化させたときの結果の変化

この記事は何? リッジ回帰は、正則化項としてパラメータの大きさの項を足したものです。 ただ自分の場合は、「パラメータの大きさって具体的に何?」とか、「パラメータが変化すると、回帰直線にどんな影響を与えるの?」とか気になったので、簡単な実験を…

AtCoder Beginner Contest 261 A - Intersectionの考え方

表題の問題について、自分の理解のために簡単にまとめます。 問題 atcoder.jp 目的 AtCoder Beginner Contest 261 A - Intersectionについて、解説のページは下記です。 atcoder.jp 読むと、答えは で求めることができると知りました。なぜこの回答でいいの…

与那国島へ行ってきました

初めに 7/16(土) ~ 7/18(月・祝)に与那国島へ旅行しに行ってきましたので、その思い出を簡単にまとめます。 なぜいった 日本の東西南北の端のどこかに行きたいという友人がいたためです。今回は西へ。 感想 仲の良い友人との旅行という意味でとても楽しめる…

AtCoder Beginner Contest 161 D - Lunlun Numberの考え方、Pythonでの解き方

※この記事はjohannyjm1さんに教えたもらった解き方を自分のために整理し直したものです。 元の問題 atcoder.jp 考え方 まず1 ~ 9までの数は必ずルンルン数となります。 次に1を取り出します。 ルンルン数の定義は「隣り合うどの 2 つの桁の値についても、差…

2022年4 ~ 6月の個人OKR

これは何 4 ~ 6月の個人のOKRです。毎月更新する形で振り返ります。 前期の結果・反省 詳細はこちら Objective1: 機械学習を活用したデモをさくっと作れるようになる。0.5 KR1: NLP、グラフに関する本を1冊以上読み、実務で活用する。 0.5 グラフ本「グラフ…

2021年振り返り、2022年の人生OKR

これは何 2021年に何が出来たかを振り返って、2022年はどうしていきたいか決めます。 2021年にできたこと 優先度が大きく変わった Twitter上で2021年にやりたいこととして策定していたのは下記です。 ただし、全力で仕事に取り組み、成果を出したくなってし…

日本は他の国のKagglerよりTwitterが活発なのか

3行で 最近、日本人Kagglerが強く・多くなっているのか、日本は他の国のKagglerよりTwitterが活発なのかを調べた。 2021年12月時点で、KaggleRankTop100の中で最もユーザーが多い国は日本であり、ユーザー増加率、Tweet率も高い可能性がある。 今後も日本人K…

言語処理100本ノック 2020 第9章を解きました。

80. ID番号への変換 81. RNNによる予測 82. 確率的勾配降下法による学習 83. ミニバッチ化・GPU上での学習 84. 単語ベクトルの導入 85. 双方向RNN・多層化 86. 畳み込みニューラルネットワーク (CNN) 87. 確率的勾配降下法によるCNNの学習 88. パラメータチ…

「象は鼻が長い」を依存構造解析してみた

はじめに 「象は鼻が長い」という二重主語問題の例文について知り、自然言語処理における解析器はどのように解析するのか知りたくなったため、簡単に調べてみることにしました。 おかしい点があれば指摘頂けると助かります。 何が問題か 「象は鼻が長い」と…

自然言語処理〔改訂版〕 (放送大学教材)を読みました

自然言語処理〔改訂版〕 (放送大学教材)を読んだので、その感想をまとめます。 www.kinokuniya.co.jp なぜ読んだか 自然言語処理を仕事で使うことが増えたのですが、知識がほぼなかったため基礎から学びたいと思っていました。 チームの自然言語に詳しい方か…

Python pathlibを利用した、どこから実行しても読み込めるパスの書き方

三行で 初めに dir構成 実行する場所が制限されるパスの書き方 ファイルの中身 自分がwrite_blog_file/srcにいるとき 自分がwrite_blog_fileにいるとき どこから実行しても読み込めるパスの書き方 pathlib.Path(__file__)は実行ファイルのパスを取得する pat…

言語処理100本ノック 2020 第8章を解きました。

70. 単語ベクトルの和による特徴量 71. 単層ニューラルネットワークによる予測 72. 損失と勾配の計算 73. 確率的勾配降下法による学習 74. 正解率の計測 75. 損失と正解率のプロット 76. チェックポイント 77. ミニバッチ化 78. GPU上での学習 79. 多層ニュ…

言語処理100本ノック 2020 第7章を解きました。

60. 単語ベクトルの読み込みと表示 61. 単語の類似度 62. 類似度の高い単語10件 63. 加法構成性によるアナロジー 64. アナロジーデータでの実験 65. アナロジータスクでの正解率 66. WordSimilarity-353での評価 67. k-meansクラスタリング 68. Ward法による…

audibleのメリット・デメリット+学びを結果に変えるアウトプット大全 感想

audibleのメリット・デメリット 歩いている時間や家事の時間に気軽に聞けて、読み進める(聴き進める)ハードルが低い (個人的には)文章より音声の方が記憶に残りやすい audibleで読めるのは、図・数式・コードが少なめの本のみ すぐに見返すことはできな…

Kaggle Expert(銅2)は転職で役に立つのか

Kaggle Advent Calendar 2020 23日目の記事です。 簡単に 初めに あなたは誰ですか どうやって役に立つかどうかを判断するの 定量的な評価 面接時の感触 データ データの集め方 条件 面接回数 時期 どのような会社を受けたの 職種の集約の仕方 結果 Twitter…

データサイエンティストから研究開発員に転職をした話

はじめに なんで記事にするの 自己紹介 いつ頃転職活動したの どうして転職しようと思ったの データサイエンスと関係ない仕事に取り組む時間が増えた 自分の取り組んだ仕事が、どのような影響があったのか数字として確認したくなった コンサル会社と顧客のKP…

Kaggleの画像コンペに初めて挑んでみた

はじめに 概要 分析環境 コンペ概要 Segmentationとは Classification Detection Segmentation 前半2週間の過ごし方 「kernel」 「Keras Documentation」 「albumentations」 「過去コンペ振り返り」 後半2週間の過ごし方 Unetとは Backboneの変更 Data Au…

「Connehito Marché vol.6 〜機械学習・データ分析市〜」 参加記録

イベント概要 参加前 会場の雰囲気 全体の感想 発表内容 タイトル:データ分析コンペにおいて特徴量管理に疲弊している全人類に伝えたい想い~学習・推論パイプラインを添えて~ タイトル:SageMakerで構築する価格推定システム タイトル:社内での円滑なデ…

Kaggleで生まれて初めて銅メダルを取った話【IEEE-CIS Fraud Detection 】

概要 自身について 順位について submit回数、費やした金額と時間 本題 コンペについて 不正検知について 評価方法(Validationの方法)について 使用モデル メモリ削減 データ加工 特徴量生成 変数選択 ・Permutation Importance ・コルモゴロフ-スミルノフ…