Details
Nothing to say, yet
Big christmas sale
Premium Access 35% OFF
Details
Nothing to say, yet
Comment
Nothing to say, yet
Imagine you're a film investor and a tech enthusiast. You decide to create an app to predict whether a movie will be a box office hit. The app will only recommend movies that are predicted to be successful. To define a box office hit, you set a criterion of movies with box office revenue double the production cost and a net income of over $40 million. You collect data from platforms like IMDb and social media, including movie attributes like title, release date, cast, budget, and director popularity. However, you may need to clean and adjust the data to remove missing or erroneous values and correct extreme box office records. Additionally, you need to consider inflation by using 2024 as a benchmark year. Adjusted box office revenue is then compared to the criterion to determine if a movie is a box office hit. This process is called data annotation. 想象一下,你是个电影投资人,同时你又是个科技咖,哎,这真是个让人火大的假设啊 由于工作的需要,你决定设计个应用来预测电影是否可以大卖 那应用预测大卖的你才会去投资,不去大卖的你理都不理人家 这就是基于经济学习落地的应用 首先有个非常有意思的问题 如何定义大卖 因为大卖是一个相对模糊,依赖主观判断的词语 在数据说话的地方,它不够清晰 你需要重新定义大卖 票房收入大于成本的两倍,且纯收入大于四千万美元的电影,就是大卖电影 我简单定义了一下 就是为了说明这个例子啊,现实生活中可能这个并不太恰当 这个重新定义的行为称之为目标设定 有了目标之后 你开始收集数据 你在豆瓣IMDB等数据库里面 社交媒体里面 收集到这些过往的电影数据 数据的属性可能有名字 上映时间 主演 预算 以及导演知名度等等 当然肯定有你最感兴趣的票房成绩 这个动作就是数据收集 可能有些数据呢 其实还是不能直接使用的 因为数据中可能会有一些缺失值 错误值 你需要做的是你要删除或者填补这些错误的数据 可能还要修正一些异常高或者异常低的票房记录 用来提高数据的质量 避免模型受到无效或者是错误数据的影响啊 即使你获得的数据是非常非常完美的 但是仍然需要调整 你想一下我们的目标是纯收入大于4000万美元 假设电影拍摄在1950年 那这个目标恐怕就很难达到了 所以聪明的观众老爷应该已经想到了 你需要把通胀还得考虑进去 具体方式就是以2024年作为基准年 根据电影不同的上映年份 缩小或者是放大他的电影成绩 刚刚提到这两种方式 分别是数据清洗和数据调整 那紧接着根据调整后的票房收入啊 是否大于成本的两倍 且纯收入大于4000万美元来标注电影 是否为大卖电影 这个动作就是数据标注