写点什么

我花了 14 个小时,终于找到了长春长生们究竟卖到了哪里去

  • 2019-10-30
  • 本文字数:2881 字

    阅读完需:约 9 分钟

我花了14个小时,终于找到了长春长生们究竟卖到了哪里去

需要说明的是这次数据是涵盖所有的疫苗数据,并不是针对此次问题疫苗定向搜集的数据,所有数据皆来自于政府相关网站的公开数据。

数据采集源

因为有一些数据实在太难找了,只能来看一下近两年的数据,并且不考虑疫苗增补名单数据(太零碎了)。


所以这次整理的数据并不完善,所以把所有搜集到的数据全部同步到了 GitHub,有需要可以自取或者提 issue 和 pr。


因为时间跨度较大,所以没有把批次的信息纳入本次的统计范围。本文主要从技术层面搜集了此次问题疫苗事件相关企业生产的各类疫苗在各省份的销售情况。

采集关键词

  • 省名 第二类疫苗 采购

  • 省名 第二类疫苗 公示

  • 省名 第二类疫苗 产品及价格

  • 省名 第二类疫苗 供应商

  • 省名 第二类疫苗 中标目录

  • 省名 第二类疫苗 参考价

  • 省名 第二类疫苗 入围结果


采集结果整理如下


  • 北京市,来源:北京市 2018-2019 年免疫规划用第二类疫苗采购项目

  • 天津市,来源:天津市 2018-2020 年第二类疫苗集中采购项目拟中标/拟中选结果

  • 上海市,来源:2018 年度上海市第二类疫苗集团采购项目中标目录

  • 重庆市,来源:重庆市第二类疫苗供应商入围采购-采购结果预公示

  • 河北省,来源:河北省疾病预防控制中心 2018 年度第二类疫苗省级集中采购项目中标公告

  • 山西省,来源:2018 年度山西省第二类疫苗集中采购入围企业产品及价格

  • 辽宁省,来源:辽宁省第二类疫苗平台招标采购公告

  • 吉林省,来源:2017 年度吉林省第二类疫苗集中采购企业产品议价结果名单

  • 黑龙江省,来源:黑龙江省 2018 年第二类疫苗挂网采购中标企业产品及价格审核结果

  • 江苏省,来源:江苏省第二类疫苗集中采购中标产品

  • 浙江省,来源:浙江省 2018 年第二类疫苗中标目录

  • 安徽省,来源:安徽省 2018 年第二类疫苗集中采购目录

  • 福建省,来源:福建省 2018 年第二类疫苗集中采购目录_湄洲岛

  • 江西省,来源:1228 江西省 2018 年度第二类疫苗入围品种目录

  • 山东省,「找不到」

  • 河南省,来源:2017 年河南省二类疫苗供应商入围资格采购项目中标结果公告

  • 湖北省,来源:2017 年湖北省第二类疫苗集中采购成交产品

  • 湖南省,来源:湖南省第二类疫苗集中采购文件

  • 广东省,来源:2018 年度广东省第二类疫苗成交品种目录

  • 海南省,来源:海南省第二类疫苗品种目录(第一批)

  • 四川省,来源:2017 年度第二类疫苗挂网阳光采购结果

  • 贵州省,来源:贵州省第二类疫苗集中采购报价解密结果

  • 云南省,来源:云南省疾病预防控制中心二类疫苗公开招标入围项目入围公告

  • 陕西省,来源:陕西省 2018 年二类疫苗集中采购项目入围供应商磋商结果

  • 甘肃省,来源:甘肃省第二类疫苗供应资格采购项目中标公示

  • 青海省,来源:所有的第二类的价格信息全部转到:223.220.250.135:8038 无法查看

  • 台湾省,暂无

  • 内蒙古自治区,2018 年内蒙古自治区第二类疫苗集中采购入围企业产品及价格

  • 广西壮族自治区,2017 年度广西壮族自治区第二类疫苗直接挂网采购拟入围产品目录(电子版)

  • 西藏自治区,实在找不到

  • 宁夏回族自治区,2016 年宁夏回族自治区第二类疫苗公开招标预中标结果

  • 新疆维吾尔自治区,《自治区 2017 年第二类疫苗入围品种及价格目录》20170828.xls

  • 香港特别行政区,暂无

  • 澳门特别行政区,暂无


综上,除去港澳台 ,山东,青海以及西藏以外,只搜集到了 28 个省级行政区的二类疫苗数据公示情况。


单单是检索,下载的过程,就花了 7 个多小时,主要遇到了一些问题:


  • 某些网站需要注册登录才可以查看

  • 有些网站缺乏维护被挂了黑链

  • 搜索框有,但是实际并不能搜索

  • 有些只有图片,没有文字

  • 有些只在纯公告但无具体数据

  • 找不到信息的有

  • 山东省,只看到新闻说建了可追溯的展示平台,但本次暂未找到

  • 青海省,所有的第二类的价格信息需要账号登录进相关系统才能访问

  • 西藏,暂时没能搜索到相关数据


如图,最终获取到 28 个省份的数据,(图中漏掉了河北)。



*

数据整理

由于本人不是专业的医学行业人士,所以统一把数据整理成以下的 csv 格式。


通用名,来源,生产企业,申报企业,省,中标年份


name,src,create_company,report_company,prov,year


各项含义如下:


  • 通用名 :药名 -> name

  • 来源:国产/进口 -> src

  • 生产企业 -> create_company

  • 申报企业:如果为空再填充为生产企业 -> report_company

  • 省 -> prov

  • 中标年份 -> year


期间因为整理非 XLS 的文件消耗了大量的时间,暂时只能先把成型的数据集提取出来。



目前处理结果如下:


  • 数据标准 csv(14)

  • 吉林省,四川省,天津市,宁夏回族自治区,安徽省,山西省,广东省,新疆维吾尔自治区,江苏省,江西省,海南省,贵州省,辽宁省,黑龙江省,

  • 等待整理的数据(13)

  • 上海市,云南省,内蒙古,北京市,广西省,河南省,浙江省,湖北省,湖南省,甘肃省,福建省,重庆市,陕西省,


如图所示



  • 亮绿色是容易获取的数据

  • 暗绿色的可以获取的数据

  • 黑色的是没有获取到数据

数据分析

直接采用 pandas+echart 进行处理,首先把所有的 csv 整合,共有 1529 条数据,对所有的生成企业进行统计分析:


count    167.000000mean       9.143713std       15.839281min        1.00000025%        1.00000050%        3.00000075%        9.000000max       98.000000
复制代码


共 167 个厂家,其中中位数是 3,最高是 98,很明显这是一个偏态分布。 顺手看一下箱线图:



也就是说,绝大多数的药,都由大厂生产。我们输出前 10 个看看,长春长生位列第 2。



我们再来看看各个省份中,长春长生等占据的百分比


[{'name': '天津', 'value': 14.0625}, {'name': '辽宁', 'value': 17.647058823529413}, {'name': '黑龙江', 'value': 13.274336283185843}, {'name': '安徽', 'value': 9.75609756097561}, {'name': '新疆', 'value': 16.94915254237288}, {'name': '江苏', 'value': 14.563106796116504}, {'name': '江西', 'value': 12.179487179487179}, {'name': '山西', 'value': 16.52173913043478}, {'name': '吉林', 'value': 17.857142857142858}, {'name': '贵州', 'value': 14.17910447761194}, {'name': '广东', 'value': 13.445378151260504}, {'name': '四川', 'value': 16.93548387096774}, {'name': '宁夏', 'value': 17.5}, {'name': '海南', 'value': 14.285714285714285}]
复制代码


长春长生等在 14 个有数据的省份供应商中均占有一席之地:


  • 亮红色 接近 20%

  • 暗红色 接近 10%

  • 黑色的是没有获取到数据



对比下从官网下载的公司销售策略图



做到这里已经到了晚上 11 点,从早上 9 点做到现在,花了整整 14 小时,才将将整理了一半的省份,所以目前的数据并不完整,仅供参考,后面空了可能会继续整理更新到 Github 上。

后记

除了在朋友圈和微博刷屏表达我们的愤怒,或许我们还能做点什么,这也是我的出发点。最初的文章里面有些措辞不是太中性,抱歉,本只想在自己能力范围内做一点事情。


如果说有什么建议的话,希望相关部门在数据公示方面后续能继续加强吧。


本文首发于个人的公众号和 v2ex,事先也没想到会有这么多人关注。在这边重新编辑一下,去掉了原先前言中对此次疫苗事件背景的描述及部分不严谨的措辞。全文的观点从技术讨论出发,尽量客观中立,观点及行为为员工自发,不代表本人所在公司及团队。


本文转载自公众号云加社区(ID:QcloudCommunity)。


原文链接:


https://mp.weixin.qq.com/s/lnHA5kRsc9oHPDiY6LEm5A


2019-10-30 11:42658

评论

发布
暂无评论
发现更多内容

【等保测评】江西等保测评机构只有3家吗?都在哪里?

行云管家

等保 等级保护 等保测评 等保评测

企业上云之前选择服务器类型的几点建议

九河云安全

同事吃透了这份“阿里 Java 面试核心知识手册”6月份居然斩获 11 张大厂 Offer!

Java 编程 架构 面试 IT

为了彻底搞懂 hashCode,我钻了一下 JDK 的源码

沉默王二

Java

入职那天“直接起飞”!双非渣本后端,两个月逆袭字节?

Java 编程 程序员 面试 计算机

我终于在六月份实现了跳槽九连杀:字节跳动 Java 研发岗

Java 编程 面试 IT 计算机

神啦!最全“Java面试宝典+Java核心知识集”,一箭双雕杠秋招

Java 程序员 架构 面试 IT

堡垒机价格与什么有关?价格差别大吗?

行云管家

云计算 堡垒机

网络攻防学习笔记 Day101

穿过生命散发芬芳

态势感知 网络攻防 8月日更

保险=诈骗?区块链赋予保险的“四个机会”

旺链科技

区块链 保险业 信任构建

浪潮云洲智造直播间,继续开讲!

云计算

三年豹变!拥抱Z时代,UDE迈向消费电子国际大展

科技热闻

FastApi-09-模型嵌套

Python研究所

FastApi 8月日更

前端性能优化|什么是防抖和节流?

青云技术社区

JavaScript 大前端 防抖节流 函数防抖

在小厂工作三年的程序员喊话大厂:Java 中高级岗面试为何越来越难?

Java 程序员 架构 面试 IT

我是一个下「笨功夫」的人

非著名程序员

个人成长 认知提升 个人提升 8月日更

从平台到生态,钉钉、飞书和企业微信的巨头之争

ToB行业头条

钉钉 企业微信 飞书

IOS技术分享| 互动连麦场景实现

anyRTC开发者

ios 音视频 移动开发 视频直播 直播连麦

支付通道接口异常统计上报

try catch

Java 失败上报

迈入 8K 时代,AI 驱动超高清 “视” 界到来

阿里云视频云

阿里云 高清视频 视频处理 视频制作 视频云

企业架构概述

涛哥 数字产品和业务架构

2021 年云安全:基本工具和最佳实践业务指南

九河云安全

总结分析组件化漏洞产生的原理

网络安全学海

黑客 网络安全 信息安全 渗透测试 漏洞分析

阿里 Java 面试爆出内幕?十万字内部面试题总结(2021合格版)全网开源!

Java 编程 程序员 架构 IT

2021 年最新版,阿里巴巴 / 今日头条 / 京东 Java 面经大合集(含答案)

Java 编程 面试 IT 计算机

站在巅峰的阿里面试参考指南!居然能让我成功拿下 12 家大厂 offer?

Java 程序员 架构 面试 IT

如果用柔性屏做雨伞,那雨伞就不仅仅是雨伞了

船医特拉法尔加

开发者工具

针对不同场景的Python合并多个Excel方法

Python研究者

Python Excel 8月日更

高防服务器在使用过程中可以做到高效、稳定的防止钓鱼攻击

九河云安全

七牛云霍锴:实时音视频 SDK 设计实践

七牛云

七牛云存储 音视频 ECUG

涨薪 150%,从小厂逆袭,坐上美团 L8 技术专家(面经 + 心得)

Java 编程 程序员 架构 IT

我花了14个小时,终于找到了长春长生们究竟卖到了哪里去_文化 & 方法_云加社区_InfoQ精选文章